本文不是 Whisper 配置教程,只是在好奇心驱使下,去将这一开源模型与日常使用的工具做一次对比

如果你也想尝试,请看官方文档

如果一头雾水,直接退出或者看结尾结论就可以了

如果有相关经验,电脑已装 conda 和 ffmpeg 的话,简单的配置大概是:

conda create -n whisper python=3.9
conda activate whisper
pip install git+https://github.com/openai/whisper.git
whisper audio.mp3 --model medium --language Chinese

音频采用的是:

李厚辰的翻转电台最新一期:FULL 形而上学大全巫术的产生(孔子29)-翻电2.0

节选开头一段

将飞书妙记和Whisper在各等级模型下跑的结果作对比:

飞书妙记识别结果

各模型大小与速度
Whisper 在 tiny 模型下的识别结果
Whisper 在 base 模型下的识别结果
Whisper 在 small 模型下的识别结果
Whisper 在 medium 模型下的识别结果

就中文而言,Whisper各模型:

  • tiny 是没有做断句的,或者说,直接根据停顿断句
  • base 已经开始根据逻辑断句,但会出语法错误
  • small 已经很少语法错误,但断句水平却直线下降,很奇怪
  • medium 不仅能够完美的断句,还能判断语气

可以看出,飞书妙记给用户开放的转写能力大约在 tiny 到 base 之间(转写速度也在 tiny 左右,已经很快了)

值得指出的是,这里的对比,目的并不是比较二者的技术,否则对于飞书妙计相当的不公平,作为一款消费级应用,它不可能给用户跑medium等级的模型来做转写

对比的意义是,Whisper,作为一个开源模型,和消费级产品比起来怎么样?

答案是,完全可以替代,用 small 模型足以实现当下的免费体验了。

甚至,用 medium 以上的模型,可以用「时间」换「好得多的使用体验」

从对比截图也能看到,Whisper在medium模型下的断句水平就已经让人欣喜了(见识少,不知道付费转写断句的水平),不是说技术有多先进,而是,这是开源模型啊

做到同样水平的转写,基本属于付费服务了

也能注意到,在词汇上,Whisper偶尔不那么准确,但它是准确识别发音的,也就是说,这是词库的问题,相信开源社区很快就会有针对中文的优化模型出现


意义是什么呢?

很快,互联网上的音频和视频资料中的对话台词,也可以搜索了吧,就像音乐可以搜歌词一样

这也意味着,音频不再是监管的法外之地了

但这些都太遥远了,

对于播客爱好者来说,很快,拥有自动高质量转写的播客客户端不再是梦