更新:33字幕支持本地识别了,目前可以实现免费生成双语字幕了,具体方法参考:

介绍一种完全免费给视频翻译字幕的方法


33字幕是为了快速制作双语字幕而打造的一款AI字幕软件。

为了达到尽可能"快"的目的,准确是个非常重要的指标。

这里的准确具体包括:

  1. 识别少错字漏字,断句合理
  2. 时间轴基本能对上台词
  3. 翻译不要太生硬,句子通顺

我心目中理想的字幕工具便是:给音频识别出字幕,把几处出错的地方简单修正一下,便可以用了;如果需要翻译,不求信雅达,但要基本能看懂,语句通顺。

音频识别

第一步是音频转字幕,这里要感谢Whisper,如果没有它,那33字幕就要大打折扣了。

Whisper 是 Open AI 开源的一个语音识别模型,经过一段时间的测试,我们发现它的large模型识别准确度非常好,可以基本满足我们的要求。

吭哧吭哧一顿优化后,终于把它部署到了 GPU 云服务器上。

Whisper是33字幕目前识别外语的一个主力语音识别引擎,当然,我们也有集成了其他的一些语音识别引擎,但是在英语或者小语种方面,我建议还是使用Whisper。

即便 Whisper 的能力已经非常优秀,但是如果音频同时混合背景音乐和人声,识别精度也随下降,为了克服这个问题,我们支持识别前可以先进行提取人声:

这里其实是调用了另外一个分离音色的AI模型,也非常消耗GPU资源,尤其是长音频。

为了节省算力,我们建议你使用这个免费的服务:vocalremover

字幕翻译

在字幕翻译方面,我们也集成了很多家翻译商,虽然也尝试 ChatGPT,但由于无法稳定控制输出质量,最终还是放弃了。

我们目前测试效果表现最好的是 DeepL,看来贵是有贵的道理的。

效果对比

那最终识别和翻译的质量到底怎么样呢?

总的来说,目前 Whisper + DeepL 的效果是最理想的。下面这几个演讲视频,也是直接用33字幕来直出的。

 

另外,我随机测试的更多视频,并整理到了飞书文档上面,可以去大概感受一下,当然这不是严谨的基准测试:效果对比

字幕编辑

对于33字幕,它的设计初衷是希望通过结合AI的能力,用尽可能少的人工参与,低成本、高效率地制作双语字幕。

如果字幕需要大改的情形,并不适合用33字幕来进行处理,比如需要精细调整时间轴、设计复杂的字幕样式等情形,就不如使用 Aegisub 或者 Arctime pro 这类软件来处理更好一些。

不过我们也是有做了一些非常实用的字幕编辑功能,对于一些小修小补,它应付起来应该是游刃有余的。

(1)增 / 删 / 合并 / 调整时间

这些是字幕编辑器的基础要求,没啥特别的。

(2)撤销 / 恢复

不用担心操作失误,我们会帮你把操作记录下来。

你可以通过熟悉的 ctrl + zctrl + y 来迅速恢复。

(3)问题字幕检测

机器识别难免会出现一些问题行,软件会帮你检测有问题的行,你通过点击就可以快速定位并修正。

(4)全局替换

很多时间识别或者翻译出来的结果,错误的词也是惊人的一致,那么这个功能,就可以非常方面进行全局修改。

批量处理

另外一个想达到 "快" 的手段,便是同时处理多个任务了。因此33字幕在一开始,就考虑到了支持批量处理的特性。

单次批量处理同语种的音视频,或批量翻译同语种的字幕,都可以在33字幕上很好地支持:

批量识别
批量识别
批量翻译
批量翻译

 

数据隐私

因为很多计算都需要在云端完成,所以无法避免要上传用户的数据。我们只能在一定范围内去保护数据的安全和隐私。

我们并不会把你的整个视频都上传上去,而是只提取音频来上传,并且在识别后会第一时间删除掉音频。(当然这部分用户无法感知)

产品定位

这个产品最大的用户目前是我们自己哈哈。

对于大部分的中文视频创作者,我们并不推荐你使用33字幕

如果只是添加单轨中文字幕的需求,我们测试过剪映,生成字幕质量非常高,而且它是免费的,我们建议你首选它。

另外如有自己的 GPU 资源,可以尝试 buzz ;对于动手能力比较强的同学,还可以去 Google colab 部署个 Whisper 模型,白嫖一下谷歌的算力。

以下是33字幕比较擅长的:

  1. 只有外语视频,需要给视频添加字幕和中文翻译
  2. 有外语字幕文件,需要把字幕翻译成中文
  3. 想给中文视频加上外语字幕
  4. 需要批量翻译或批量识别字幕

总的来说,当你需要处理外语视频字幕时,请记得有这么一个工具(33字幕)可以帮到你

产品主页:33字幕