装了啥：编辑部用什么转写音视频内容？

按：从播客访谈到深度长视频，越来越多的内容创作者把表达重心放到了音视频里；「先转录、再阅读」也因此成了不少重度信息消费者的日常工作流。本期「装了啥」，我们请编辑部几位同事分享各自正在使用的转录方案，希 ...

按：从播客访谈到深度长视频，越来越多的内容创作者把表达重心放到了音视频里；「先转录、再阅读」也因此成了不少重度信息消费者的日常工作流。。本期「装了啥」，我们请编辑部几位同事分享各自正在使用的转录方案，希望其中至少有一种思路能为你所用。

MacWhisper 的平价替代：TranscribeX

@广陵止息：虽然我很喜欢文字传递的高密度信息，但越来越多的内容创作者已经转向播客和视频；至于多人访谈类节目，音频传达出的现场氛围感也比文字更生动。所以我这些年消费音视频节目的时间也逐渐拉长，但有价值的节目「三心二意」地听一遍远远不够，反复听又没有足够的时间和精力。所以，现在遇到有价值的节目，我都会转录成文本，方便后续检索。

从 Time Machine 里翻了翻，找到了当时的文件夹记录

以前我采用的是 whisper.cpp 配合 OpenAI Whisper Large V3 模型来转录文本，但这个方案有两个问题。一是音视频下载的渠道很多，挨个手动下载很麻烦；二是转录时间偏长的中文视频时，有不小的概率会在转录过半之后出现重复输出、卡字，导致转录失败。

但我实在不想翻 log 和模型仓库找相关讨论了，所以也开始寻找替代方案。首先想到的是 MacWhisper，看了眼当时价格已经涨到完全不考虑的地步。好在后来找到了整体体验和 MacWhisper 很类似的 TranscribeX，除了收录在 Setapp 里，对我没有额外成本外，即使单买也只要 MacWhisper 一半价钱。

和 MacWhisper 类似，TranscribeX 支持本地文件导入转录、麦克风录制、录制特定软件、实时转录、视频网站下载转录和批量转录。其中「下载视频网站」功能主要依赖 yt-dlp 实现，所以基本不用担心国内服务的下载问题。

转录模型方面，TranscribeX 也支持 WhisperKit、Parakeet、千问和 Mistral 的转写模型，必要时还可以调用 ElevenLabs 的在线 API。不过我本地基本只用 Whisper Large V3，别的模型也没用过，所以暂时不评价转录效果。相比 MacWhisper，TranscribeX 支持 Apple Silicon 中的 NPU 加速，这也是我之前选 whisper.cpp 的原因。NPU 虽然不会让转录速度快很多，但至少负载不会全部堆到 GPU 上。设置时需要注意：

Audio Encoder：主要负责「听懂声音」的环节，可以只用 NPU；
Text Decoder：主要负责听写的环节，为了转写速度，建议设置为 All。

转写界面其实每个软件大同小异，但还是有一些设置可以说一下。首先是自动检测「说话者」：

Pyannote：适合会议、访谈等场景相对固定的情况，也更贴合我常用的场景，可以快速调用预定义的模板；
Sortformer：偏向速度、实时和轻量化的处理方式，适合会议、通话等实时场景。

外语苦手也不必担心，TranscribeX 内置了三种翻译方式：Apple 内置的翻译 API、DeepL API 以及第三方 AI API。Apple 内置「翻译」速度很快，准确率也够用，而且免费；对翻译质量有要求的话也可以调用 DeepL 或者其他 AI。

TranscribeX 也随大流加入了 AI 对话功能，可以针对转录的内容做进一步处理。最后值得一提的是，针对 Setapp 版本的 TranscribeX，所有的在线 AI 额度都可以用 Setapp 的 AI 配额。

但 TranscribeX 还是有自己的问题：没有 CLI 版本，远程使用一定要靠 VNC 连接到 Mac；辅助框架的设计上也有不小的问题，目前还很难配合比较火的 AI 助手。如果你比较在意自动化体验，TranscribeX 可能没有那么适合你。

用 Gemini 整理

@PlatyHsu: 我这里主要谈谈转录后的整理。对于这类任务，我最推荐 Gemini 系列模型。主要原因是，在排名靠前的模型中，Gemini 的多模态支持比较全面，Gemini 3 全系（Pro、Flash 和 Flash Lite）都可以直接接受音频和视频文件输入，免去了先创建音频转录或者视频截图的功夫。我也认为 Gemini 的中文能力在国外模型中相对是比较好的。与此同时，Gemini 的用量给得比较慷慨，AI Pro 方案很少遇到不够用的情况。

我最常用的场景之一是整理播客的录音稿，用来确认一些初听时一闪而过的模糊细节。一个参考提示词是：

转录用户提供的音频，并整理成表达规范、分段清晰的书面格式。区分说话人，并标注在段落之前。将较长的片段合理拆分成若干自然段。可以删除语气词和重复片段或修改病句，不要做其他删减或总结。

具体模型方面，一般可以先从 Flash 开始尝试，对于日常主题的节目来说一般就够了。一小时的播客大约需要四分钟处理，肯定没有本地模型快，但是成品高度可读，值得这个等待时间。不过我也遇到过一些涉及哲学、历史等较专业话题的节目，用 Pro 模型会有更好的表现，可以灵活调整。

当然，如果想节省 token，你也可以先在本地转写一遍，然后用以下提示词整理文本：

将用户给出的音频转录整理成表达规范、分段清晰的书面格式，可以删除语气词和重复片段或修改病句，不要做其他删减或总结。

这个用例一般建议直接使用 Pro 模型，因为本地模型转写的文本一般有很多拼写错误和赘余，Pro 能更好地还原和修复。

除了音频之外，Gemini 也可以用来总结视频。并且由于它可以直接「看到」视频内容，因此即使是那种没有旁白的 TVC，也可以说出个一五一十。例如之前一个项目中，甲方提供的写作素材之一是一条广告片，我就是用这个方法把其中的信息提取成文字描述，然后用在了写作里。

以下是用苹果最近一条 Mac 广告做的演示，提示词是：

详细描述该视频的主题、思路和内容，并列举关键帧的时间戳和画面内容。

因为涉及较多「言外之意」的解读，这个用例也是用 Pro 模型处理为佳。

以上方法在 Gemini 网页版和 AI Studio 都可以使用，但网页版经常会出现「偷懒」的情况，只给出非常简略的输出，因此建议尽量用 AI Studio 来操作。

命令行工具搭配 Agent

@waychane: 由于常有参加线上会议的需求，会中涉及主讲者的介绍、采访以及 QA 等内容，这类会议的时长动辄就有一个小时。在会后创作内容时，如果能有一份观点清晰、结构清楚的要点大纲，会省下不少功夫。

现在可以说是 Agent 时代，我自己也在用 Claude Code 等 Agent 类 AI 工具帮我处理各种工作。因此在挑选特定场景下的 app 时，我会希望它们要么提供 CLI 操作方式，要么就是纯粹的命令行工具：一方面，这样可以在同一个 Agent 界面中高效地调用不同工具；另一方面，许多 app 不仅功能复杂，使用参数也多到难记，用 Agent 调用刚好能解决这些问题。

面对会议音频转录的需求，我选择的是 whisper.cpp 这个命令行工具。它是 OpenAI Whisper 的 C/C++ 移植版本：OpenAI 官方版 Whisper 基于 PyTorch 的 Python 实现，要跑起来得先配好 Python 环境和一整套依赖，在 Mac 上只能依靠 CPU 计算，想用到 GPU 还得自己折腾 PyTorch 的 MPS 后端，体验并不顺畅；whisper.cpp 则用 C/C++ 重写了推理部分，原生接入 Apple 的 Metal 后端和 Accelerate 框架，能有效利用 Apple Silicon 的 GPU 和统一内存架构，模型权重也换成了体积更小、加载更快的 ggml 量化格式。