奶酪对“语音识别”的研究,
最早是想把自己喜欢的视频文案保存起来,因为视频不仅占用空间大,还没办法全文索引。
将视频的内容“文本化”,我们就能提炼出视频的关键信息,而且还能获得视频细小处的一些遣词用字。
把 20GB 的视频,压缩为 2MB 的文本。
这在以前是断不敢想像的事情,然而现在有了人工智能的加持,这一切都变得触手可及。
一、在线转录
国内最早免费开放在线语音转文字的应用,是网易见外。
它不但是速度快,准确率还超出了人们预期,真正做到了一键转录,被盛赞业界良心,然后没多久,它就下架了。
而现在接棒的是——飞书妙记。
1.1、飞书妙记
飞书妙记是抖音旗下产品,注册登陆后就直接上传音频和视频,即使不需要介绍,你也一看就知道怎么用。
地址:https://www.feishu.cn/product/minutes
1.2、使用体验
速度:快,10 分钟视频只花费了 1分 25 秒。
准确率:绝大部分内容都能正确识别,而且能区分不同说话人。
特色功能:支持中英日 3 种语言,能自动添加标点符号和章节分段,支持免费导出为 TXT 和 SRT 格式。
1.3、同类产品
如果要说有什么缺点的话,那就飞书妙记的免费用存储空间,从原来的 100G 变成 2G,一下子就寒酸了许多。
但和同类产品相比,飞书妙记仍然是更好的选择。
比如讯飞听见、钉钉闪记、阿里云、百度云等产品,它们要么免费额度少,要么需要申请 API,使用门槛高。
而飞书妙记,你可以将视频转换为音频来缩小体积,又或者通过删除已经转写的内容来释放空间。
换句话说,你还是可以无限白票。
二、软件转录
如果你需要转录的内容很多,又或者很长,那么,使用桌面软件来操作会更加方便。
而在这个领域的佼佼者是 —— 剪映。
2.1、剪映
剪映也是是抖音旗下产品,它是一款桌面视频剪辑软件,但同时提供了识别语音功能,使用时需要联网使用。
使用方法也很简单,点击导航栏“文本”,然后选择“智能字幕”,即可一键生成字幕。
2.2、使用体验
同样是抖音系产品,剪映的准确率也很高,转录速度更是极奇的快,同样 10 分钟的视频,剪映只用 32 秒。
而且,我们不用像“飞书妙记”那样担心空间不够用。
因为抖音不担心自己的语音识别技术被白票,它们担心的,是没有人上传视频到抖音。
抖音推出剪映的目的,是为了降低用户制作视频门槛,让更多的人参与到视频制作来,抖音的收益在别处罢了。
2.3、同类产品
目前国内能与剪映对标的,当属 B 站推出的“必剪”。
它的产品逻辑一样,也是为了方便用户创作视频,然后上传到 B 站。
然而在免费额度上,必剪远不如剪映,必剪只支持 15 分钟的音频转录,而剪映最大支持 2 小时且不限使用次数。
而且,剪映现在还支持导出字幕,你可以将导出的字幕用在其它软件上,抖音格局大了。
应该说,剪映是视频创作者的必备。
三、离线转录
上面的两款应用都需要联网使用,如果你比较在意隐私的问题,那么你需要一款离线的语音识别工具。
OpeanAI 推出的 Whipser 语音识别模型,绝对是目前最好的选择,没有之一。
对,它和 ChatGPT 是同门师兄弟。
3.1、Whisper
Whipser 多语言语音识别模型,通过了 68 万小时的语音数据训练,支持 99 种语言,对英文的表现更是强无敌。
更重要的是,它开源免费,在电脑上就能离线使用。
地址:https://github.com/openai/whisper
在速度方面。
为应对不同的语音转录需求,Whipser 推出了 tiny、base、small、medium、large 5 个档次的模型。
转录效果依次增加,但相应花费的时间也会增加。
3.2、使用方法
Whisper 使用了 Python 开发,安装后,在文件所在目录打开终端,运行 whisper audio.mp3
即可进行转录。
想要自定义设置的话,则可以在后面追加命令参数,具体包括:
whisper audio.mp3 --命令参数
--task
指定转录方式,默认使用 --task transcribe 转录模式,--task translate 则为翻译模式,目前只支持英文。
--model
指定使用模型,默认使用 --model small,Whisper 还有英文专用模型,就是在名称后加上 .en,这样速度更快。
--language
指定转录语言,默认会截取 30 秒来判断语种,但最好指定为某种语言,比如指定中文是 --language Chinese。
--device
指定硬件加速,默认使用 auto 自动选择,--device cuda 则为显卡,cpu 就是 CPU, mps 为苹果 M1 芯片。
3.3、WhisperDesktop
如果使用 Python 命令行这种形式,门槛太高了,那么图形化软件 WhisperDesktop 会是一个简单的方案。
地址:https://github.com/Const-me/Whisper
使用方法分为两步:下载软件 + 载入模型。
下载 WhisperDesktop 后,点击运行,然后加载模型文件,最后选择文件即可进行转录。
由于支持 GPU 硬解,转录速度非常的快,我测试了一个 2 分钟的视频,使用 medium 模型,花费不到 20 秒。
PS:具体还得看显卡的性能。
3.4、Buzz
另一款基于 Whisper 的图形化软件是 Buzz,相比 WhipserDesktop,Buzz 支持 Windows、macOS、Linux。
官方地址:https://github.com/chidiwilliams/buzz
使用方法也是:安装软件 + 下载模型。
Buzz 的安装包体积稍大,同时 Buzz 使用的是 .pt 后缀名的模型文件,运行后软件会自动下载模型文件。
但最好是提前下好模型文件,然后放在指定的位置。
Mac:~/.cache/whisper
Windows:C:\Users\<你的用户名>\.cache\whisper
但 Buzz 使用的是 CPU 软解 ,目前还不支持 GPU 硬解 。
同样一个 2 分钟的视频,使用 medium 模型,耗时花费了 2 分 30 秒,比例大概 1:1.2,花费时间还是挺长的。
四、语音识别对比
下面我们对飞书妙记、剪映、Whisper 这三款语音识别工具进行一下对比。
4.1、准确性对比
就准确性而言。
三款产品里,飞书和剪映在中文识别上的效果更好,大体与 Whipser 的 large 模型相当。
飞书妙记甚至还有标点符号、文章分段、智能纠错等功能,在测试中,飞书也是唯一个能正确转录“谷爱凌”的。
原因是联网转录,“云词库”会自动选择更符合上下文的同音词。
Whisper 的音频数据只有 1/3 来自非英语,在准确性方面,Whisper 对英文的识别错误率为 4.2,中文则为 14.7。
如果转录的内容是英文,那么用 samll 模型就能保证绝大多数正确。
而如果转录的内容是中文,那么至少要用 medium 模型,才能保证绝大多数正确。
Whisper 强在多语言支持,还有超高的英语识别率。
4.2、速度对比
在转录速度方面。
飞书妙记和剪映都需要联网上传,其中剪映的速度最快,而 Whisper 的转录速度,极度依赖显卡的加持。
下面是使用显卡加速,同一段 10 分钟视频的速度对比。
五、语音识别技巧
而无论怎样,任何一款语音识别工具都没办法保证 100% 准确,我们还需要有一定的技巧。
5.1、纯净输入
如果转录的是歌曲,又或者有嘈音,背景音乐很大,使用人声分离工具,突出人声,那么识别效果将大大提高。
这样的工具很多,可以选择在线应用,也可以选择免费开源的 UVR5。
UVR5:https://ultimatevocalremover.com
5.2、字幕翻译
Whisper 有时转录出来的文本是繁体中文,又或者你想把字幕翻译为英语来做双语字幕。
一个简单的方法,就是将字幕文件在 Chrome 浏览器中打开,使用自带的翻译功能,即可一键翻译为想要的语言。
或者,你也可以选择更专业的字幕工具,比如 Subtitle Edit。
地址:https://github.com/SubtitleEdit/subtitleedit
当然,使用 ChatGPT 翻译工具 Subtitle Translator 会更加准确, 不过前提是你有 ChatGPT 的 API Key。
地址:https://github.com/gnehs/subtitle-translator-electron
5.3、标点符号
除了飞书外,其它转录工具都没有标点符号,而且也没有章节分段,如果你想把语音识别后的文本,保存为文章。
一个简单的方法,是利用 ChatGPT 来重新排版,只需要前置输入“提示词”就可以了。
具体是:“修复下面这段文章的标点符号并分成段落:<文本内容>”。
需要注意的是,GPT-3.5 输出的最大限制是 777 个字符,所以每一次输入最好不要超过 777 个中文。
但如果你用的是 GPT-4 的话,就没有这个限制。
5.4、一键转录
如果我有大量的视频转文字,还有视频字幕生成需求,有没有办法一键转录?
有的!
奶酪研究出了一套方法,只需要一个 .bat 文件即可一键转录,具体我会在下期《A25 - 语音一键识别》中介绍。
5.5、实时转录
除了转录视频,有没有办法实时转录直播或者播放中的视频?
当然也有!
我们同样可以利用 Whisper 来实现同声传译,具体我们在下下期《A28 - 同声传译》中再做介绍。
结尾
OpenAI 发布的 Whisper 多语言语音识别模型,绝对算得上是一个“游戏改变者”。
在可预见的未来。
首先,语音识别将会彻底免费,并成为一项公共服务。
其次,视频的语言屏障将会彻底打破,视频一键生成字幕,甚至自动生成字幕,已经成为现实。
还有,视频也将转向文字化,一个 20GB 的视频内容,可以被压缩为 2MB 的文本内容,并且能全文索引。
最后,Whisper 的入场,也会加速人工智能从单模态到多模态的发展。
动动嘴皮就能拍出一部电影的魔幻场景,也正在发生!
强人工智能时代的我们,太幸福啦!
专栏介绍
本专栏「人工智能指南」致力于提高“人工智能领域”的姿势水平。
特点是:“原创新鲜、系统连贯、给渔授渔”。
力求一篇文章,讲清楚一个主题,争取每篇文章都是该主题下的 Top3,甚至 Top1。
看完记得:
点赞,点赞是免费的,但却能激励我保持创作,还能帮助更多的人看到这篇文章。
留言,有任何问题,都可以在评论区留言,我会尽可能回复。
关注,关注我,这样可以第一时间获取更新。
以上。