更新:33字幕支持本地识别了,目前可以实现免费生成双语字幕了,具体方法参考:
33字幕是为了快速制作双语字幕而打造的一款AI字幕软件。
为了达到尽可能"快"的目的,准确是个非常重要的指标。
这里的准确具体包括:
- 识别少错字漏字,断句合理
- 时间轴基本能对上台词
- 翻译不要太生硬,句子通顺
我心目中理想的字幕工具便是:给音频识别出字幕,把几处出错的地方简单修正一下,便可以用了;如果需要翻译,不求信雅达,但要基本能看懂,语句通顺。
音频识别
第一步是音频转字幕,这里要感谢Whisper,如果没有它,那33字幕就要大打折扣了。
Whisper 是 Open AI 开源的一个语音识别模型,经过一段时间的测试,我们发现它的large模型识别准确度非常好,可以基本满足我们的要求。
吭哧吭哧一顿优化后,终于把它部署到了 GPU 云服务器上。
Whisper是33字幕目前识别外语的一个主力语音识别引擎,当然,我们也有集成了其他的一些语音识别引擎,但是在英语或者小语种方面,我建议还是使用Whisper。
即便 Whisper 的能力已经非常优秀,但是如果音频同时混合背景音乐和人声,识别精度也随下降,为了克服这个问题,我们支持识别前可以先进行提取人声:
这里其实是调用了另外一个分离音色的AI模型,也非常消耗GPU资源,尤其是长音频。
为了节省算力,我们建议你使用这个免费的服务:vocalremover。
字幕翻译
在字幕翻译方面,我们也集成了很多家翻译商,虽然也尝试 ChatGPT,但由于无法稳定控制输出质量,最终还是放弃了。
我们目前测试效果表现最好的是 DeepL,看来贵是有贵的道理的。
效果对比
那最终识别和翻译的质量到底怎么样呢?
总的来说,目前 Whisper + DeepL 的效果是最理想的。下面这几个演讲视频,也是直接用33字幕来直出的。
另外,我随机测试的更多视频,并整理到了飞书文档上面,可以去大概感受一下,当然这不是严谨的基准测试:效果对比。
字幕编辑
对于33字幕,它的设计初衷是希望通过结合AI的能力,用尽可能少的人工参与,低成本、高效率地制作双语字幕。
如果字幕需要大改的情形,并不适合用33字幕来进行处理,比如需要精细调整时间轴、设计复杂的字幕样式等情形,就不如使用 Aegisub 或者 Arctime pro 这类软件来处理更好一些。
不过我们也是有做了一些非常实用的字幕编辑功能,对于一些小修小补,它应付起来应该是游刃有余的。
(1)增 / 删 / 合并 / 调整时间
这些是字幕编辑器的基础要求,没啥特别的。
(2)撤销 / 恢复
不用担心操作失误,我们会帮你把操作记录下来。
你可以通过熟悉的 ctrl + z 和 ctrl + y 来迅速恢复。
(3)问题字幕检测
机器识别难免会出现一些问题行,软件会帮你检测有问题的行,你通过点击就可以快速定位并修正。
(4)全局替换
很多时间识别或者翻译出来的结果,错误的词也是惊人的一致,那么这个功能,就可以非常方面进行全局修改。
批量处理
另外一个想达到 "快" 的手段,便是同时处理多个任务了。因此33字幕在一开始,就考虑到了支持批量处理的特性。
单次批量处理同语种的音视频,或批量翻译同语种的字幕,都可以在33字幕上很好地支持:
数据隐私
因为很多计算都需要在云端完成,所以无法避免要上传用户的数据。我们只能在一定范围内去保护数据的安全和隐私。
我们并不会把你的整个视频都上传上去,而是只提取音频来上传,并且在识别后会第一时间删除掉音频。(当然这部分用户无法感知)
产品定位
这个产品最大的用户目前是我们自己哈哈。
对于大部分的中文视频创作者,我们并不推荐你使用33字幕。
如果只是添加单轨中文字幕的需求,我们测试过剪映,生成字幕质量非常高,而且它是免费的,我们建议你首选它。
另外如有自己的 GPU 资源,可以尝试 buzz ;对于动手能力比较强的同学,还可以去 Google colab 部署个 Whisper 模型,白嫖一下谷歌的算力。
以下是33字幕比较擅长的:
- 只有外语视频,需要给视频添加字幕和中文翻译
- 有外语字幕文件,需要把字幕翻译成中文
- 想给中文视频加上外语字幕
- 需要批量翻译或批量识别字幕
总的来说,当你需要处理外语视频字幕时,请记得有这么一个工具(33字幕)可以帮到你。
产品主页:33字幕。