Photo by Jason Rosewell on Unsplash

看到这个标题,你可能会有些茫然。这都快 2022 年了,还有人不知道语音输入文字功能吗?

没错,语音输入转文字,确实不是什么新奇的事儿。我在 之前的文章和视频里,也多次给你介绍过一系列的工具。

它们来自于讯飞、腾讯、苹果等平台。可以用超过97%的正确率,帮助你快速把头脑中想到的内容,语音输入轻松弄成文本。

好用不好用?

不能说不好用,否则那些自带语音输入功能的鼠标,不会卖得这么火。

但也不能说足够好用,否则键盘的销量,早就该跌得一塌糊涂了。

实际上,更多人还是倾向于使用键盘来输入。注意我说的,不是后期编辑加工,而是从一开始做记录,就用键盘而非语音。

为什么?

因为目前的语音输入,至少包含了以下 3 个痛点:

首先,我们的书面表达方式,和口语有区别。你可能十分钟说了2000字,但审视文本,发现过于口语化——中间有很多冗余,甚至逻辑关系上也有问题。要弄成可以给对方(尤其是重要客户)看的书面表达形式,需要整上个半小时。与其那样,似乎还不如一上来就码字儿来得直接、方便和快速。

其次,语音识别的准确率,毕竟离100%还差着一点儿。这其实完全可以理解。即便是人听人说话,而且是母语,也难有100%的准确率。指导过学生毕业论文的老师们,或者带过实习生的职场人士,对此应该不乏深刻体会。准确率不到100%,就意味着必须进行审视和检查。当你输入语音时,盯着屏幕上不断出现的错字儿,你说咋办?不管,怕一会儿忘了;管,思路就断了……

第三,你是输入完毕了,可是上下文(语音),就被丢弃了。你可能认为,既然目标是要输入文字,语音丢了就丢了呗。就如同大楼盖好,为啥还要留着脚手架呢?可别忘了,一个最终的长文本,大都不是一天内写好的。最终整理的时候,你会发现识别的结果不像人话,肯定是某些关键词汇识别错误,但是时间久了,你已经想不起来当初说的是啥了。这情何以堪?

因而,受目前技术所限,一种比较好的语音录入流程,应该包含以下几个必要功能的考虑:

首先,存储语音,不要随意丢弃。这样将来发现有识别错误,可以找到原始语音。人工听几秒钟,立刻就能知道最初的准确含义。

其次,输入的时候,不要立即出现转换文字。这对输入者,是一种干扰。考验自己的毅力,不去管识别错误?那是对自己无端的折磨

第三,转换要准确和方便。既然语音输入和文字转换不要同时做,那最好可以批量转换语音,避免逐一操作的麻烦。

第四,转换后的结果,最好是细粒度对应的。例如说我点选某个词语,就可以立即跳转到对应的语音段落,方便核对。

第五,导出文本要便捷,便于其他编辑应用接续后面的操作。

这样的流程,是不是有呢?

我确实见到过满足部分要求的工具。

例如 flomo 的微信语音输入。

Flomo 是可以从微信直接输入信息的。前些日子,少楠加了个功能,调用微信语音转换 API,你可以直接在微信里滔滔不绝,那边 flomo 里就一条条涌现出来文本了。说的时候,没有任何的干扰,很方便。

但是,这里有个问题,就是语音被锁在了微信里。这样将来万一手机丢失,原始数据就没了。而且语音和识别的文本分别在不同的应用,缺乏足够的对应关系。

况且,地球人都知道,微信语音输入,是有个 1 分钟长度限制的。

这个方法,还是不能完全满足我的需求。

直到最近,看到了赵赛坡先生的 iPad Power User 会员邮件,我惊喜不已。

赵赛坡先生的工作流程,非常简单。

首先,使用苹果自带的语音备忘录(voice memo)进行记录。

这工具的好处很明显,就是系统自带,免费,而且自动同步所有账号下设备。

如此一来,即便是抬起手臂用 Apple Watch ,你也能迅速输入一段语音了。

所有记录,你可以随时导出到本地的存储设备,或者 Devonthink 上。

其次,采用飞书妙记这款工具,做语音的识别。

我之前在视频里,介绍过如何用飞书妙记做组会记录。现在我基本上离不开它了。就连每次线下组会,我都要叫上学生跟我连线,然后选择录制。

后来才发现,这用法过于幼稚。因为飞书妙记其实支持本地单机录音,方便许多。

不仅如此,你还可以通过网页版,直接导入音频做转换和分析。注意这里可以支持多个语音文件批量上传操作。

转换的结果,就跟飞书的会议记录一样全面。有文本、有时间戳,甚至还有关键词的自动提取。

点击文字,可以自动跳转到对应的语音片段。

导出成文档、文本,甚至是字幕(因为也支持视频上传),也很方便。

这是导出纯文本的效果。

你看,咱们记录语音笔记的几个要求,通过这两款工具的结合,全都得到了满足。

这其实,还不是全部。

别忘了飞书是干啥用的,这是一款团队协作工具啊。

只需导出飞书文档,你就可以立即分享给团队成员。工作安排、内容整合…… 都可以大家协同操作。那工作效率比起一个人单独完成,要高得多。

这时候,原始的语音上下文,就显得更加重要。如果机器识别错了,原先团队成员拿着错误的识别文本,恐怕只有挠头的份儿。然后呢,只好再跟你单独沟通、确认,肯定会拖慢进度。现在只需要鼠标点一下,你彼时彼刻说的是啥,基本上就一清二楚了。

你看,随机安装,开机即用的苹果语音备忘录,我原本没有觉得它有任何的神奇之处,甚至一直弃之不用;至于飞书,我一直只是拿它当成团队协同工具,没想过它可以上传语音转换文本,还能深度融入团队协同工作流。

这两款工具结合在一起时,「1+1>2」 的效应发生了。赵赛坡先生这封邮件,不仅解决了我语音输入的痛点,还帮我找到了语音内容用于团队协作的方便路径。真是及时雨啊。

我不愿意每次分别打开两个应用,于是在 iPad 上面弄了个捷径。

只要对 Siri 一喊「秘书」,iPad 给我打开这个分屏。我就可以欢快地批量上传语音了。

看到我有多懒了吧?哈哈。

希望这篇文章,对改进你语音记录的流程,提高效率,能有帮助。

也欢迎你把自己的使用体验和感受分享给我,咱们一起交流讨论。

 

 

延伸阅读

如果你觉得本文有用,请点赞

如果本文可能对你的朋友有帮助,请转发给他们。

欢迎关注我的专栏「科研利器」,以便及时收到后续的更新内容。