Photo by Jason Rosewell on Unsplash
看到这个标题,你可能会有些茫然。这都快 2022 年了,还有人不知道语音输入文字功能吗?
没错,语音输入转文字,确实不是什么新奇的事儿。我在 之前的文章和视频里,也多次给你介绍过一系列的工具。
它们来自于讯飞、腾讯、苹果等平台。可以用超过97%的正确率,帮助你快速把头脑中想到的内容,语音输入轻松弄成文本。
好用不好用?
不能说不好用,否则那些自带语音输入功能的鼠标,不会卖得这么火。
但也不能说足够好用,否则键盘的销量,早就该跌得一塌糊涂了。
实际上,更多人还是倾向于使用键盘来输入。注意我说的,不是后期编辑加工,而是从一开始做记录,就用键盘而非语音。
为什么?
因为目前的语音输入,至少包含了以下 3 个痛点:
首先,我们的书面表达方式,和口语有区别。你可能十分钟说了2000字,但审视文本,发现过于口语化——中间有很多冗余,甚至逻辑关系上也有问题。要弄成可以给对方(尤其是重要客户)看的书面表达形式,需要整上个半小时。与其那样,似乎还不如一上来就码字儿来得直接、方便和快速。
其次,语音识别的准确率,毕竟离100%还差着一点儿。这其实完全可以理解。即便是人听人说话,而且是母语,也难有100%的准确率。指导过学生毕业论文的老师们,或者带过实习生的职场人士,对此应该不乏深刻体会。准确率不到100%,就意味着必须进行审视和检查。当你输入语音时,盯着屏幕上不断出现的错字儿,你说咋办?不管,怕一会儿忘了;管,思路就断了……
第三,你是输入完毕了,可是上下文(语音),就被丢弃了。你可能认为,既然目标是要输入文字,语音丢了就丢了呗。就如同大楼盖好,为啥还要留着脚手架呢?可别忘了,一个最终的长文本,大都不是一天内写好的。最终整理的时候,你会发现识别的结果不像人话,肯定是某些关键词汇识别错误,但是时间久了,你已经想不起来当初说的是啥了。这情何以堪?
因而,受目前技术所限,一种比较好的语音录入流程,应该包含以下几个必要功能的考虑:
首先,存储语音,不要随意丢弃。这样将来发现有识别错误,可以找到原始语音。人工听几秒钟,立刻就能知道最初的准确含义。
其次,输入的时候,不要立即出现转换文字。这对输入者,是一种干扰。考验自己的毅力,不去管识别错误?那是对自己无端的折磨。
第三,转换要准确和方便。既然语音输入和文字转换不要同时做,那最好可以批量转换语音,避免逐一操作的麻烦。
第四,转换后的结果,最好是细粒度对应的。例如说我点选某个词语,就可以立即跳转到对应的语音段落,方便核对。
第五,导出文本要便捷,便于其他编辑应用接续后面的操作。
这样的流程,是不是有呢?
我确实见到过满足部分要求的工具。
例如 flomo 的微信语音输入。
Flomo 是可以从微信直接输入信息的。前些日子,少楠加了个功能,调用微信语音转换 API,你可以直接在微信里滔滔不绝,那边 flomo 里就一条条涌现出来文本了。说的时候,没有任何的干扰,很方便。
但是,这里有个问题,就是语音被锁在了微信里。这样将来万一手机丢失,原始数据就没了。而且语音和识别的文本分别在不同的应用,缺乏足够的对应关系。
况且,地球人都知道,微信语音输入,是有个 1 分钟长度限制的。
这个方法,还是不能完全满足我的需求。
直到最近,看到了赵赛坡先生的 iPad Power User 会员邮件,我惊喜不已。
赵赛坡先生的工作流程,非常简单。
首先,使用苹果自带的语音备忘录(voice memo)进行记录。
这工具的好处很明显,就是系统自带,免费,而且自动同步所有账号下设备。
如此一来,即便是抬起手臂用 Apple Watch ,你也能迅速输入一段语音了。
所有记录,你可以随时导出到本地的存储设备,或者 Devonthink 上。
其次,采用飞书妙记这款工具,做语音的识别。
我之前在视频里,介绍过如何用飞书妙记做组会记录。现在我基本上离不开它了。就连每次线下组会,我都要叫上学生跟我连线,然后选择录制。
后来才发现,这用法过于幼稚。因为飞书妙记其实支持本地单机录音,方便许多。
不仅如此,你还可以通过网页版,直接导入音频做转换和分析。注意这里可以支持多个语音文件批量上传操作。
转换的结果,就跟飞书的会议记录一样全面。有文本、有时间戳,甚至还有关键词的自动提取。
点击文字,可以自动跳转到对应的语音片段。
导出成文档、文本,甚至是字幕(因为也支持视频上传),也很方便。
这是导出纯文本的效果。
你看,咱们记录语音笔记的几个要求,通过这两款工具的结合,全都得到了满足。
这其实,还不是全部。
别忘了飞书是干啥用的,这是一款团队协作工具啊。
只需导出飞书文档,你就可以立即分享给团队成员。工作安排、内容整合…… 都可以大家协同操作。那工作效率比起一个人单独完成,要高得多。
这时候,原始的语音上下文,就显得更加重要。如果机器识别错了,原先团队成员拿着错误的识别文本,恐怕只有挠头的份儿。然后呢,只好再跟你单独沟通、确认,肯定会拖慢进度。现在只需要鼠标点一下,你彼时彼刻说的是啥,基本上就一清二楚了。
你看,随机安装,开机即用的苹果语音备忘录,我原本没有觉得它有任何的神奇之处,甚至一直弃之不用;至于飞书,我一直只是拿它当成团队协同工具,没想过它可以上传语音转换文本,还能深度融入团队协同工作流。
这两款工具结合在一起时,「1+1>2」 的效应发生了。赵赛坡先生这封邮件,不仅解决了我语音输入的痛点,还帮我找到了语音内容用于团队协作的方便路径。真是及时雨啊。
我不愿意每次分别打开两个应用,于是在 iPad 上面弄了个捷径。
只要对 Siri 一喊「秘书」,iPad 给我打开这个分屏。我就可以欢快地批量上传语音了。
看到我有多懒了吧?哈哈。
希望这篇文章,对改进你语音记录的流程,提高效率,能有帮助。
也欢迎你把自己的使用体验和感受分享给我,咱们一起交流讨论。
延伸阅读
- 【视频】临时笔记(Fleeting Notes)的记录与加工
- Hook:如何高效双向链接不同类型的信息资源?
- 如何高效实践卡片式写作?
- 电子临时笔记做完,想不起回顾怎么办?
- 用得愉快才算好:近期几件数码设备使用感受
如果你觉得本文有用,请点赞。
如果本文可能对你的朋友有帮助,请转发给他们。
欢迎关注我的专栏「科研利器」,以便及时收到后续的更新内容。