发现了一个非常厉害的字幕OCR工具——望言OCR

 

之前经常发生过这种情况:手头有一些高清(BDRip)视频,可又找不到外挂的 ass 字幕,虽说有人烤肉,但流媒体平台懂得都懂,码率不会高到那里去,而且基本都是硬字幕,没法自己修改样式。

自己手抄,打轴又耗时耗力(主要是还不会用),一分钟的视频可能对我来说要处理10分钟。之前没了解ocr工具之前还想着用阿里云的语音识别来搞,或者找视频翻译软件做。不过有需求就会有人给出解决方案,前几周在b站发现了个挺好用的工具 【望言OCR 使用教程】 ,基于PaddleOCR(PaddleOCR也是老熟人了,当初大三上学期的人机交互课程,期末设计Partner选的就是这个)。软件对应的 Github项目库,目前 release 最新公开版本是 1.2.1 ,后续版本使用就需要付费了,一个月18。

可惜我电脑只是普通核显,速度大概也只能跑到5倍左右,等哪天我有好显卡并且把打算识别的所有视频集齐后再考虑商业版。

开源版本试了下,也基本能行,虽然空格识别不出来,但目前做了两个MV也不长,手动修一下也不算费事。开源版本还有一个问题就是导出的字幕srt格式似乎不正确,不能被potplayer识别,还需要扔到Aegisub转一次才行。

 

使用效果1

OCR了B站的「春日影」CRYCHIC【THE FIRST TAKE】,生成修改后挂到了我从油管下载的视频上。

tft1

好在是音乐MV,歌词部分可以直接用 Foobar2000 上搜的双语歌词粘贴上去,就不用校验修改了,中文歌词直接换了B站mygo第三集的春日影歌词。(B站的做mygo 和 mujica字幕的魔法部译制司真是大神,这特效字幕水平绝了,B站哈利波特系列字幕也是他们做的)

时间轴方面,好像也就差了几毫秒,基本不用调。

字幕样式确实难选,换了好几个字体感觉看上去都怪怪的。字体边框配色干脆选了Crychic 的 logo 颜色。

tft2

 

使用效果2

跑完一次字幕提取发现效果不错后,立马想了想我以前还收藏了哪些短一点的视频可以OCR的,辉夜第三季PV虽然可以,但视频里面很多特效字幕,虽然可以手动添加,但还不太会用 Aegisub 做。翻收藏夹时终于想起了 「アオハル」告RADIO Loves 鈴木崚汰 这个视频。

radio2

当初是在看 【自制字幕】かぐや様は告らせたい on Stage ~秀知院音楽譚~(2020.10.25) 时第一次听到这歌,配合当时的舞台剧确实不错。

radio1

后面这首歌所属的专辑发售,我刚好拿到了别人分享的BDMV和BDrip文件。

OCR过一遍,修改下部分的时间轴,粘贴歌词校准,补上几句没识别出来的台词,改改样式,完成。

radio3

radio4

完结了两年前想做的事情。

其实 秀知院音楽譚 的 BDRip 和 BDMV 文件我也都有,也想 OCR 出 外挂字幕,但时长太长,按现在的效率,修改太麻烦了,等以后软件升级迭代并且我有显卡再说。