严正声明:本站所涉及的所有资源均为NORM小组内部交流HALFCD技术之用,任何个人和团体不得盗用或以此谋利!请尊重版权所有人的权利!订阅我们的QQ邮件列表
返回列表 发帖

[求助] 请教SUP字幕的OCR之道

本人比较喜欢字幕OCR,前几年本人自制了100余部影片的字幕OCR,用的工具都是SubRip+SubToSrt。在使用过程中,由于发现网上分享的几十甚至上百万字库的SubToSrt里面的字库错误很多,就把它的字库给清空,自己从0开始一个一个地积累字库,至今也有10余万的自制字库了,其中的每一个字都是自己亲自OCR并校对过的。后来渐渐淡出了这个事。
  今天看到腾蛟发的OCR任务,一时兴起,就下载下来搞搞。结果发现这个不是sub+idx格式的字幕,而是单个的SUP高清字幕,在网上搜索之后,知道做SUP字幕常见的有两个途径:①SubtitleEdit直接OCR,②BDSup2Sub把SUP转换为sub+idx格式,再用以前常规的SubRip+SubToSrt进行OCR。
  先试用了BDSup2Sub+SubRip+SubToSrt的组合。不知道是我不懂还是操作不当,BDSup2Sub转换字幕时,如果不改变高清的分辨率为DVD分辨率,那么在SubRip进行分割时,无论如何也无法显示字幕。但如果把分辨率改为DVD的,那么原本方方正正的文字就被拼成长条形状的文字了,分割后用SubToSrt识别的时候,不但我10多万的积累无法套用,在OCR过程中新增到字库的字,好像也不能套用,感觉几乎所有的文字都是人工输入,工作量太惊人,弄了好久只好中途作罢。以前在用SubToSrt进行OCR时,即使以前字库中没有相同的字模,但同一部影片中只要被新识别了这个字模,那基本上是不用再重新输入了,但这个字幕不知道是由于BDSup2Sub转换时文字比例改变引起识别率低,还是其他原因,OCR后的字模对后面相同的字不起作用。
  然后只好再试用SubtitleEdit。为了精准,我选择了“使用图像比较OCR”这个笨办法,其原理与SubToSrt基本一致,只是个人认为功能方面没有SubToSrt人性化。这个软件进行OCR时,辛苦程序比第一种方式少了一些,但仍然存在着OCR过的字模在后面再次出现时,有很大一部分也是不能识别的,以致400多句的字幕,貌似用了我好几个小时才弄完,搞得腰酸背痛。

  由于本人是第一次搞高清的SUP字幕,遇到这么多的烦心事,不知道是不是方法不得当,还是操作有问题,感觉SUP字幕的存在着经过OCR的字模对后面重复出现的文字识别低很低,大部分都要重新OCR,工作量好大好大。所以将这个疑问发的论坛中,请字幕高手们帮忙解惑。

本帖最后由 lahd 于 2014-11-3 23:56 编辑

原BD是16/9的1920x1080,只为转换的话,设置下比例1.422就不会拉长字体了,

因为720x576-->1024x576(16/9),1024/720=1.4222...

不过个人最终决定不能使用SubToSrt建字库方式OCR,因为识别、转换过程中误差等问题,即使同一个字,转成sub几乎是一处一个样,这是针对SubToSrt这种精确对应字库来说的,稍不同就不当作同一字,这时候还是使用IdxSubOcr这种一定智能的识别引擎更为划算了,事实上字形不稳定sub字幕,用IdxSubOcr划算

TOP

本帖最后由 dtf 于 2014-11-4 09:35 编辑
原BD是16/9的1920x1080,只为转换的话,设置下比例1.422就不会拉长字体了,

因为720x576-->1024x576(16/9 ...
lahd 发表于 2014-11-3 23:52



    感谢感谢。学习了,回去实践后再请教。

我的疑问是,为什么以前DVD的SUB字幕,基本上同一部电影中同一个字只要识别到字库中一次,后面基本上都能识别,而这个SUP的却老是同一个字反复要重新增加呢

TOP

回复 3# dtf

其实上面后段话就是针对,SUP转SUB后的OCR说的,觉得与DVD的SUB相比,
DVD的SUB可以看作是文本到图片这一个过程,这一过程可说是比较精确的,所以一般DVD的SUB没问题;
而SUP2DVDSUB的过程,从程序看来应该大概是这样,
1:识别SUP中的字,这一过程有点像从硬字幕视频中识别出字幕位置扣出字幕图片一样,
这一过程可说是失真最大的地方,可看到即使不改变分辨率也有些“腐蚀”失真,做不到源一样的圆滑完整清晰。
这是我不能理解的地方,SUP2SUB可以说已经是透明图片转透明图片的过程,为什么要有这一“识别”过程而不是把SUP里的透明图直接生成SUB,这涉及的东西可能已超出个人认知。
2:转分辨率的过程,1920x1080转720x576这一过程涉及缩放算法等,应该也有一定失真,觉得对字形来说这失真会更大。

所以,这些比DVD多的误差过程应该是比DVD原生SUB难OCR的原因。

TOP

本帖最后由 lahd 于 2014-11-4 18:39 编辑

有个思路没尝试过,好像SUPREAD?可以读取SUP生成图片+时间轴SRT,生成的图片经黑白翻转处理啥的,得到的图片+时间轴SRT,再用SubtoSrt去OCR,可省去SUP生成SUB及SubRip提取图片的过程,这样在SubtoSrt之前就只是图片到图片这一个过程,只是尚不知SUPread提取的图片及再经过处理后效果怎样,是否能被SubtoSrt较好识别。

TOP

本来想过来学习一下的  看了还是一头雾水  看来只能继续小白了!

TOP

有个思路没尝试过,好像SUPREAD?可以读取SUP生成图片+时间轴SRT,生成的图片经黑白翻转处理啥的,得到的图 ...
lahd 发表于 2014-11-4 18:38



    试了SUPREAD生成图片+时间轴SRT,自动生成所有的图片,SRT文件内容要人工改。我改了10句,然后回到SubtoSrt里面去加载,结果反复试了好多次都一直加载最后死机了。

  看了你说的SUP2SUB的转换过程,我也不想再去试验什么改变分辨率比例了,因为最终并不能解决我需要的一次识别多次使用的效果、

  谢谢你的讲解。这么说来,今后广泛使用的 SUP高清字幕的OCR工作,都不太好搞了哦?我个人最盲目崇拜SubtoSrt那种精确字库识别模式,最讨厌MS的那个识别引擎,校对工作太麻烦

TOP

试了SUPREAD生成图片+时间轴SRT,自动生成所有的图片,SRT文件内容要人工改。我改了10句,然后回 ...
dtf 发表于 2014-11-4 21:48

个人习惯吧,有人觉得这种软件好用,有人觉得那种软件好用,大概人都有一个先入为主的印象。就好比电视剧,一般都是觉得最初看得那版最好看。

TOP

个人习惯吧,有人觉得这种软件好用,有人觉得那种软件好用,大概人都有一个先入为主的印象。就好比电视剧 ...
baishixiaoyao 发表于 2014-11-5 12:10



    讲讲你使用其他软件的心得啊,大家好兼收并蓄

TOP

本帖最后由 baishixiaoyao 于 2014-11-10 13:53 编辑
讲讲你使用其他软件的心得啊,大家好兼收并蓄
dtf 发表于 2014-11-5 20:54

我是新人,谈不上心得,不过既然楼主这么殷勤,我就是说几句废话吧。
我没接触过蓝光字幕,我自己主要是学着做粤语电视剧的字幕。
因为好多老的香港连续剧新录制的tvrip都没有国语配音,也没有字幕,不太懂粤语的人只能望洋兴叹。
以前早期出的碟子会有字幕,可是清晰度极差,我都是用esrXP提取字幕(参数设置以及字幕删重也是挺麻烦的事情),
一般都用IdxSubOcr来OCR,因为字幕清晰度太差了,一般OCR出来都不能用,只是取他的时间轴而已。
有时干脆直接在esrXP里边打字幕,因为他可以染色,看得还比较清楚一点。
另外,有个朋友推荐ABBYYFineReader,商业软件,似乎效果还不错,不过我感觉前提还是字幕图片的清晰度。
对了,还有一个笨办法,使用截屏软件FSCapture以2倍速播放视频手动截图字幕图片,然后修整好集中到OCR软件里边去处理,据说清晰度挺高的。

TOP

返回列表