作为一名程序员我有三分之一的时间是在开会、讨论各种功能设计、问题分析。每次讨论之后梳理讨论的内容,整理待办事项又常常让我挠头。

要是在以前,解决这个问题只能靠人力自己来记录和总结。但随着大语言模型的快速发展,我终于可以从这种繁琐的工作中抽身而出。只需要使用iOS捷径配合大语言模型API,就能够实现:

  • 提取出会议录音中的核心讨论项、待办事项,记录到备忘录中
  • 自动创建待办事项,不让会议“白开”

准备工作

要实现这套个性化的会议总结方案,我用到了以下三个工具:

iOS捷径(Shortcuts): 这是一个内置于iOS系统的自动化工具,可以看作是iOS提供的编程语言,可以帮助我们将复杂的工作流程化繁为简。我们可以将录音发送到捷径以实现录音转写、信息提取、纪要生成等一系列任务。

groq 提供的Whisper API: groq被戏称为AI“活菩萨”,这家公司并不训练大语言模型,他们的主业是AI芯片,依赖他们的芯片,让大模型更加快速和便宜。groq提供了多个开源大模型,其中就有OpenAI开源的语音转文本模型Whisper。对于低频使用的个人用户来说,提供的免费额度完全足够使用。

DeepSeek API: DeepSeek是国内一家提供的大语言模型能力的公司,其API价格非常低廉,我们可以智能地总结会议记录,提取关键信息,并以结构化的JSON格式返回。而且DeepSeek的API完全兼容OpenAI的接口,这意味着我们可以以最低的迁移成本享受大模型带来的能力提升。

把录音发给捷径,自动生成总结

只需一步

整个流程分为三步:

  • 将录音文件传递给捷径: 通过iOS的分享功能,将录音文件发送到我们预先设置好的"智能会议记录"捷径。捷径将自动接收音频文件,并启动后续的处理流程。
  • 语音转文字: 捷径调用groq的Whisper API,将录音文件转换为文本。
  • 智能总结与关键信息提取: 捷径将转写后的文本发送给DeepSeek API,请求对会议内容进行智能总结和关键信息提取。为了得到最佳效果,我们需要根据会议的类型和内容,设计合理的提示词和处理规则。

关键是提示词

能够使用自己的提示词是我选择使用快捷命令的重要原因。以下是我当前所使用的提示词,它能够按照我的需求返回总结的内容。

而deepseek提供的json格式结构化返回可以让我们的处理过程更加流畅。比如在这个提示词中,我单独提取了标题、标签、待办事项便于我们修改备忘录的标题,在应用中创建待办事项。

请将以下会议记录总结为JSON格式,包含"title"、"data"、"tags"和"actions"四个主要字段。"title"应该是会议的简短概括,"data"应包含主要讨论点、决策和后续行动项,按时间顺序组织,并突出重要结论,"tags"应是一个标签列表,包含2-5个最相关的标签。这些标签可以描述内容类型(如故事、案例、金句、感受、观点、方法、原理、概念)和涉及的主题。"actions" 应是一个简单的字符串列表,包含所有需要执行的具体行动项,不需要包括负责人或截止日期。
在 data 中,请使用以下子标题组织信息:
1. 主要讨论点
2. 决策
3. 行动项
4. 关键结论


输入示例:
[这里是会议记录的原文]

输出示例:
{
    "title": "微服务架构性能优化讨论",
    "data": "1. 主要讨论点:\n- 分析了慢查询日志,发现索引使用不当\n- 讨论了缓存策略和数据预热方案\n- 评估了服务间通信的优化可能性\n\n2. 决策:\n- 实施读写分离,主库负责写操作,从库负责读操作\n- 引入 Redis 缓存层,缓存热点数据\n- 采用 gRPC 替代当前的 REST 通信\n\n3. 行动项:\n- 本周内优化数据库索引\n- 后端团队下周开始实现缓存层\n- 架构师团队评估 gRPC 迁移计划\n\n4. 关键结论:\n- 性能优化应该是一个持续的过程,而不是一次性工作\n- 需要建立更完善的性能监控和报警机制",
    "tags": ["方法", "原理", "微服务架构"],
    "actions": [
        "优化数据库索引",
        "实现缓存层",
        "评估 gRPC 迁移计划"
    ]
}

总结

探索利用AI实现自动会议总结的过程中,大语言模型的摘要能力起到了至关重要的作用。但我发现身边的小伙伴往往只关注到问答、对话能力而忽视大模型在摘要总结的能力。

利用好大模型在摘要方面的能力,可能更能直接帮助我们提高工作和学习效率。希望能够找到更多大模型使用场景。