按:从播客访谈到深度长视频,越来越多的内容创作者把表达重心放到了音视频里;「先转录、再阅读」也因此成了不少重度信息消费者的日常工作流。。本期「装了啥」,我们请编辑部几位同事分享各自正在使用的转录方案,希望其中至少有一种思路能为你所用。
MacWhisper 的平价替代:TranscribeX
@广陵止息:虽然我很喜欢文字传递的高密度信息,但越来越多的内容创作者已经转向播客和视频;至于多人访谈类节目,音频传达出的现场氛围感也比文字更生动。所以我这些年消费音视频节目的时间也逐渐拉长,但有价值的节目「三心二意」地听一遍远远不够,反复听又没有足够的时间和精力。所以,现在遇到有价值的节目,我都会转录成文本,方便后续检索。

从 Time Machine 里翻了翻,找到了当时的文件夹记录
以前我采用的是 whisper.cpp 配合 OpenAI Whisper Large V3 模型来转录文本,但这个方案有两个问题。一是音视频下载的渠道很多,挨个手动下载很麻烦;二是转录时间偏长的中文视频时,有不小的概率会在转录过半之后出现重复输出、卡字,导致转录失败。
但我实在不想翻 log 和模型仓库找相关讨论了,所以也开始寻找替代方案。首先想到的是 MacWhisper,看了眼当时价格已经涨到完全不考虑的地步。好在后来找到了整体体验和 MacWhisper 很类似的 TranscribeX,除了收录在 Setapp 里,对我没有额外成本外,即使单买也只要 MacWhisper 一半价钱。
和 MacWhisper 类似,TranscribeX 支持本地文件导入转录、麦克风录制、录制特定软件、实时转录、视频网站下载转录和批量转录。其中「下载视频网站」功能主要依赖 yt-dlp 实现,所以基本不用担心国内服务的下载问题。

转录模型方面,TranscribeX 也支持 WhisperKit、Parakeet、千问和 Mistral 的转写模型,必要时还可以调用 ElevenLabs 的在线 API。不过我本地基本只用 Whisper Large V3,别的模型也没用过,所以暂时不评价转录效果。相比 MacWhisper,TranscribeX 支持 Apple Silicon 中的 NPU 加速,这也是我之前选 whisper.cpp 的原因。NPU 虽然不会让转录速度快很多,但至少负载不会全部堆到 GPU 上。设置时需要注意:
- Audio Encoder:主要负责「听懂声音」的环节,可以只用 NPU;
- Text Decoder:主要负责听写的环节,为了转写速度,建议设置为 All。

转写界面其实每个软件大同小异,但还是有一些设置可以说一下。首先是自动检测「说话者」:
- Pyannote:适合会议、访谈等场景相对固定的情况,也更贴合我常用的场景,可以快速调用预定义的模板;
- Sortformer:偏向速度、实时和轻量化的处理方式,适合会议、通话等实时场景。
外语苦手也不必担心,TranscribeX 内置了三种翻译方式:Apple 内置的翻译 API、DeepL API 以及第三方 AI API。Apple 内置「翻译」速度很快,准确率也够用,而且免费;对翻译质量有要求的话也可以调用 DeepL 或者其他 AI。

TranscribeX 也随大流加入了 AI 对话功能,可以针对转录的内容做进一步处理。最后值得一提的是,针对 Setapp 版本的 TranscribeX,所有的在线 AI 额度都可以用 Setapp 的 AI 配额。

但 TranscribeX 还是有自己的问题:没有 CLI 版本,远程使用一定要靠 VNC 连接到 Mac;辅助框架的设计上也有不小的问题,目前还很难配合比较火的 AI 助手。如果你比较在意自动化体验,TranscribeX 可能没有那么适合你。
用 Gemini 整理
@PlatyHsu: 我这里主要谈谈转录后的整理。对于这类任务,我最推荐 Gemini 系列模型。主要原因是,在排名靠前的模型中,Gemini 的多模态支持比较全面,Gemini 3 全系(Pro、Flash 和 Flash Lite)都可以直接接受音频和视频文件输入,免去了先创建音频转录或者视频截图的功夫。我也认为 Gemini 的中文能力在国外模型中相对是比较好的。与此同时,Gemini 的用量给得比较慷慨,AI Pro 方案很少遇到不够用的情况。
我最常用的场景之一是整理播客的录音稿,用来确认一些初听时一闪而过的模糊细节。一个参考提示词是:
转录用户提供的音频,并整理成表达规范、分段清晰的书面格式。区分说话人,并标注在段落之前。将较长的片段合理拆分成若干自然段。可以删除语气词和重复片段或修改病句,不要做其他删减或总结。
具体模型方面,一般可以先从 Flash 开始尝试,对于日常主题的节目来说一般就够了。一小时的播客大约需要四分钟处理,肯定没有本地模型快,但是成品高度可读,值得这个等待时间。不过我也遇到过一些涉及哲学、历史等较专业话题的节目,用 Pro 模型会有更好的表现,可以灵活调整。

当然,如果想节省 token,你也可以先在本地转写一遍,然后用以下提示词整理文本:
将用户给出的音频转录整理成表达规范、分段清晰的书面格式,可以删除语气词和重复片段或修改病句,不要做其他删减或总结。
这个用例一般建议直接使用 Pro 模型,因为本地模型转写的文本一般有很多拼写错误和赘余,Pro 能更好地还原和修复。

除了音频之外,Gemini 也可以用来总结视频。并且由于它可以直接「看到」视频内容,因此即使是那种没有旁白的 TVC,也可以说出个一五一十。例如之前一个项目中,甲方提供的写作素材之一是一条广告片,我就是用这个方法把其中的信息提取成文字描述,然后用在了写作里。
以下是用苹果最近一条 Mac 广告做的演示,提示词是:
详细描述该视频的主题、思路和内容,并列举关键帧的时间戳和画面内容。

因为涉及较多「言外之意」的解读,这个用例也是用 Pro 模型处理为佳。
以上方法在 Gemini 网页版和 AI Studio 都可以使用,但网页版经常会出现「偷懒」的情况,只给出非常简略的输出,因此建议尽量用 AI Studio 来操作。
命令行工具搭配 Agent
@waychane: 由于常有参加线上会议的需求,会中涉及主讲者的介绍、采访以及 QA 等内容,这类会议的时长动辄就有一个小时。在会后创作内容时,如果能有一份观点清晰、结构清楚的要点大纲,会省下不少功夫。
现在可以说是 Agent 时代,我自己也在用 Claude Code 等 Agent 类 AI 工具帮我处理各种工作。因此在挑选特定场景下的 app 时,我会希望它们要么提供 CLI 操作方式,要么就是纯粹的命令行工具:一方面,这样可以在同一个 Agent 界面中高效地调用不同工具;另一方面,许多 app 不仅功能复杂,使用参数也多到难记,用 Agent 调用刚好能解决这些问题。
面对会议音频转录的需求,我选择的是 whisper.cpp 这个命令行工具。它是 OpenAI Whisper 的 C/C++ 移植版本:OpenAI 官方版 Whisper 基于 PyTorch 的 Python 实现,要跑起来得先配好 Python 环境和一整套依赖,在 Mac 上只能依靠 CPU 计算,想用到 GPU 还得自己折腾 PyTorch 的 MPS 后端,体验并不顺畅;whisper.cpp 则用 C/C++ 重写了推理部分,原生接入 Apple 的 Metal 后端和 Accelerate 框架,能有效利用 Apple Silicon 的 GPU 和统一内存架构,模型权重也换成了体积更小、加载更快的 ggml 量化格式。
