33字幕: 快速制作双语字幕，识别外语更准确

利益相关声明：作者与文中产品有直接的利益相关（开发者、自家产品等）

更新：33字幕支持本地识别了，目前可以实现免费生成双语字幕了，具体方法参考：

介绍一种完全免费给视频翻译字幕的方法

33字幕是为了快速制作双语字幕而打造的一款AI字幕软件。

为了达到尽可能"快"的目的，准确是个非常重要的指标。

这里的准确具体包括：

识别少错字漏字，断句合理
时间轴基本能对上台词
翻译不要太生硬，句子通顺

我心目中理想的字幕工具便是：给音频识别出字幕，把几处出错的地方简单修正一下，便可以用了；如果需要翻译，不求信雅达，但要基本能看懂，语句通顺。

音频识别

第一步是音频转字幕，这里要感谢Whisper，如果没有它，那33字幕就要大打折扣了。

Whisper 是 Open AI 开源的一个语音识别模型，经过一段时间的测试，我们发现它的large模型识别准确度非常好，可以基本满足我们的要求。

吭哧吭哧一顿优化后，终于把它部署到了 GPU 云服务器上。

Whisper是33字幕目前识别外语的一个主力语音识别引擎，当然，我们也有集成了其他的一些语音识别引擎，但是在英语或者小语种方面，我建议还是使用Whisper。

即便 Whisper 的能力已经非常优秀，但是如果音频同时混合背景音乐和人声，识别精度也随下降，为了克服这个问题，我们支持识别前可以先进行提取人声:

这里其实是调用了另外一个分离音色的AI模型，也非常消耗GPU资源，尤其是长音频。

为了节省算力，我们建议你使用这个免费的服务：vocalremover。

字幕翻译

在字幕翻译方面，我们也集成了很多家翻译商，虽然也尝试 ChatGPT，但由于无法稳定控制输出质量，最终还是放弃了。

我们目前测试效果表现最好的是 DeepL，看来贵是有贵的道理的。

效果对比

那最终识别和翻译的质量到底怎么样呢？

总的来说，目前 Whisper + DeepL 的效果是最理想的。下面这几个演讲视频，也是直接用33字幕来直出的。

另外，我随机测试的更多视频，并整理到了飞书文档上面，可以去大概感受一下，当然这不是严谨的基准测试：效果对比。

字幕编辑

对于33字幕，它的设计初衷是希望通过结合AI的能力，用尽可能少的人工参与，低成本、高效率地制作双语字幕。

如果字幕需要大改的情形，并不适合用33字幕来进行处理，比如需要精细调整时间轴、设计复杂的字幕样式等情形，就不如使用 Aegisub 或者 Arctime pro 这类软件来处理更好一些。

不过我们也是有做了一些非常实用的字幕编辑功能，对于一些小修小补，它应付起来应该是游刃有余的。

（1）增 / 删 / 合并 / 调整时间

这些是字幕编辑器的基础要求，没啥特别的。

（2）撤销 / 恢复

不用担心操作失误，我们会帮你把操作记录下来。

你可以通过熟悉的 ctrl + z 和 ctrl + y 来迅速恢复。

（3）问题字幕检测

机器识别难免会出现一些问题行，软件会帮你检测有问题的行，你通过点击就可以快速定位并修正。

（4）全局替换

很多时间识别或者翻译出来的结果，错误的词也是惊人的一致，那么这个功能，就可以非常方面进行全局修改。

批量处理

另外一个想达到 "快" 的手段，便是同时处理多个任务了。因此33字幕在一开始，就考虑到了支持批量处理的特性。

单次批量处理同语种的音视频，或批量翻译同语种的字幕，都可以在33字幕上很好地支持：

数据隐私

因为很多计算都需要在云端完成，所以无法避免要上传用户的数据。我们只能在一定范围内去保护数据的安全和隐私。

我们并不会把你的整个视频都上传上去，而是只提取音频来上传，并且在识别后会第一时间删除掉音频。（当然这部分用户无法感知）

产品定位

这个产品最大的用户目前是我们自己哈哈。

对于大部分的中文视频创作者，我们并不推荐你使用33字幕。

如果只是添加单轨中文字幕的需求，我们测试过剪映，生成字幕质量非常高，而且它是免费的，我们建议你首选它。

另外如有自己的 GPU 资源，可以尝试 buzz ；对于动手能力比较强的同学，还可以去 Google colab 部署个 Whisper 模型，白嫖一下谷歌的算力。

以下是33字幕比较擅长的：

只有外语视频，需要给视频添加字幕和中文翻译
有外语字幕文件，需要把字幕翻译成中文
想给中文视频加上外语字幕
需要批量翻译或批量识别字幕

总的来说，当你需要处理外语视频字幕时，请记得有这么一个工具(33字幕)可以帮到你。

产品主页：33字幕。