这篇文章的前身是一篇偏极客向的技术分享(原文链接)。本文是我把原始草稿和本地十几个项目的代码文件交给 Claude Code,让它自行探索所有仓库后生成初稿,我只负责审阅和提修改意见。核心目的是降低非技术人员的阅读门槛。如果你有技术背景,建议直接看原文,写得更详细。

如果你在阅读过程中遇到不理解的概念,非常建议你把那段话复制给任意一个 AI 助手(比如豆包、ChatGPT、Kimi),问它「这是什么意思?能给我举个例子吗?」——这本身就是 AI 时代最重要的能力之一。


先说结论:这篇文章想告诉你什么

过去一年多,我让 AI 帮我写了十几个小工具。这些工具现在每天 24 小时自动运行,帮我完成信息筛选、内容总结、笔记整理、每日复盘等工作。

既然你会读到这篇文章,说明你已经在积极拥抱 AI 了。所以我想分享的不是「AI 有多厉害」这种老生常谈,而是一种思路——如何让 AI 从「对话工具」变成「24 小时为你工作的系统」。

这篇文章的核心价值在于思路,具体的代码其实没有那么重要。按当前 Coding Agent 的发展速度,恐怕过几个月,当前的这些代码就一文不值了。你不需要用和我一样的工具,但你完全可以借鉴类似的想法,让 AI 帮你长出属于你自己的那一套。

而且现在已经有了 OpenClaw(龙虾) 这样的工具——你可以把各种 API 和能力封装起来,交给 AI Agent,让它 24 小时自主运行、帮你处理各种任务。原则上,每个人都可以拥有一套 24 小时运行的 AI Agent 系统,为你持续地采集信息、处理内容、整理知识。这不再是程序员的专利。


一个比喻:理解整套系统在做什么

在正式介绍之前,我想先用一个比喻帮你理解这套系统的全貌。

想象你是一家小公司的老板,你雇了一个 24 小时工作的私人助理团队

角色对应的工具它在做什么
信息采集员RSS 订阅 + 各平台同步每天帮你「巡逻」上百个信息源,看看有没有新内容
内容编辑AI 信息处理中枢拿到新内容后,快速判断值不值得给你看(打分过滤)
速记员视频转录工具把你感兴趣的视频和播客变成文字,还帮你划重点
剪报员网页剪藏工具看到好文章,一键保存并自动生成摘要
笔记管理员Memo 生态工具帮你把收藏的内容分类、打标签、写批注
日报撰写员每日复盘工具每晚帮你回顾今天做了什么、看了什么
提醒专员每日回顾推送定期把你过去记录的笔记重新翻出来给你看

这个「助理团队」的工作流程大概是这样的:

采集信息 → 筛选过滤 → 转录理解 → 存储管理 → 回顾分析

每一个环节都有对应的工具在支撑。下面我逐个介绍,重点讲它们能帮你解决什么问题


第一部分:信息太多了,怎么办?

你有没有过这样的体验?

  • 打开手机,一堆公众号推送、短视频推荐,刷了半小时也没看到什么有价值的东西
  • 想了解某个领域的动态,但信息散落在微信、微博、YouTube、B站等各个平台
  • 收藏了一堆文章,但从来没有回头看过
  • 别人推荐了一个两小时的播客,但实在没时间听完

这些问题,就是我这套系统主要在解决的。

工具一:AI 信息处理中枢 —— 你的「智能新闻编辑」

一句话介绍:它就像你雇了一个 24 小时值班的新闻编辑,帮你从上百个信息源里筛选出最有价值的 5% 内容。

它在解决什么问题?

每天互联网上产生的信息量是天文数字。光是我自己订阅的信息源就有上百个——科技媒体、行业博客、YouTube 频道、播客节目、微信公众号……如果每篇都看,一天 24 小时也不够。

所以我需要一个「编辑」帮我先过一遍,把不值得看的去掉,把值得看的整理好推送给我。

它具体做了什么?

第一步:自动巡逻——从各个平台收集新内容

系统会定时去检查我订阅的所有信息源有没有更新。就像你每天早上打开新闻 App 一样,只不过这个系统帮你打开了上百个 App,而且一天检查很多次。

这些信息源包括:

  • 科技媒体和博客:36氪、少数派、Hacker News 等
  • YouTube 频道:订阅的 YouTuber 更新了新视频
  • 播客节目:小宇宙、Apple Podcast 上订阅的播客
  • 微信公众号:通过特殊工具把公众号转成可以被系统读取的格式
  • 社交媒体:Twitter / 微博上关注的人发了什么

小知识:什么是 RSS?

RSS 是一种互联网上古老但非常实用的技术。你可以把它理解成一种「信息订阅协议」——就像你订报纸一样,你告诉系统「我要订这些频道」,系统就会定期帮你去取新内容回来。很多网站、播客、YouTube 频道都支持这种订阅方式。

如果你想深入了解,可以问 AI:「RSS 是什么?普通人怎么用 RSS 订阅自己感兴趣的内容?」

一个重要的设计原则:一切转文本

这套系统有一个核心设计原则:不管原始内容是什么形式——文章、图片、音频、视频——都先转换成文本,然后再交给 AI 处理。

为什么?因为尽管现在很多 AI 模型已经具备了「多模态」能力(能直接看图片、听音频),但文本依然是 AI 处理能力最强、成本最低的形式。同样一段内容,用文本让 AI 分析,比直接丢一段视频给它,效果更好、速度更快、花费更少。

所以你会看到,这套系统的前端有大量的「转换器」——语音识别把音频转文字,OCR 把图片转文字,视频先提取音频再转文字。所有这些转换完成后,内容就进入了统一的文本处理管线。

第二步:AI 打分——判断这篇内容值不值得看

每拿到一篇新文章,系统会调用 AI 对它进行分析:

  • 它在讲什么?(自动分类:科技、商业、教育、健康……)
  • 质量怎么样?(打分,0-3 分。有深度分析的加分,纯广告的扣分)
  • 核心观点是什么?(自动提取 5-8 个要点)
  • 有没有什么隐藏的信息?(比如一次访谈里不经意透露的行业动向)
  • 有没有值得记住的金句?

分数不够的内容会被直接过滤掉——就像编辑把不合格的稿件退回去一样。

举个具体例子:假设某天有 100 篇新文章进入系统,AI 可能会:

  • 给其中 20 篇打 2-3 分(值得看),完整推送给我
  • 给其中 30 篇打 1 分(一般),只保留标题和摘要
  • 给剩下 50 篇打 0 分(不值得看),直接过滤掉

第三步:去重——同一件事不需要看五遍

比如某天 OpenAI 发布了新产品,可能 36氪、虎嗅、量子位、机器之心都在报道同一件事。如果每篇都推送给你,你会被淹没。

系统会自动识别这些文章其实在讲同一件事,然后只推送第一篇最完整的,后面的如果有新增信息(比如某篇补充了定价细节),只推送新增的部分。如果完全重复,就直接静默处理。

类比:就像一个好编辑会说「这五篇都在讲同一件事,我把最全的那篇给你,其他的只标注了新增信息」。

第四步:推送——在你最方便的地方阅读

筛选过的内容会自动推送到我常用的平台:

  • 飞书 / 企业微信:在手机上就能随时刷,就像看朋友圈一样。飞书的阅读体验做得比较好,断网也能看之前的内容
  • Obsidian 笔记库:所有内容都会自动存成本地文件,方便后续搜索和整理
  • 网页端:方便复制文本到其他 AI 工具里进一步提问
信息从采集到推送的完整流程

关于内容消费渠道的选择

筛选过的内容,我同时推送到了多个平台。这里简单聊一下各种阅读渠道的体验:

  • Obsidian:比较适合在电脑上进行阅读和处理,但手机端体验一般
  • 飞书:阅读体验是最好的,排版舒服、支持断网阅读。我优先推荐把内容发送到飞书
  • 企业微信:优势在于方便分享到微信,但阅读体验比较一般,安卓端还有样式 bug
  • 网页端:方便复制文本到其他 AI 工具里进一步提问,也方便合并查看同一主题的多篇文章

另一个感受:内容源的质量至关重要

处理了这么多文章之后,会更加感觉到信息源的质量差异巨大。有的信息源十之七八都是有价值的;有的可能只有十之一二。优先选择付费的信息源,如果是免费的信息源,尽量选择一手信息。特别是一些对谈、访谈类内容,里面潜藏的面包屑会更多。

这对你有什么启发?

你可能不需要这么复杂的系统,但核心思路是通用的:

  1. 集中你的信息源:把你关注的内容都集中到一个地方,而不是分散在十几个 App 里
  2. 让 AI 帮你过滤:与其自己一篇篇看标题决定要不要点开,不如让 AI 先帮你筛一遍
  3. 减少重复信息:同一件事看一遍就够了

你可以做什么?

这个系统已经让 AI 高度介入了信息消费的流程。传统的 RSS 阅读器(比如 Inoreader)在 AI 时代已经显得不够用了——它们只能帮你「聚合」,但不能帮你「筛选」和「理解」。

如果你想要类似的效果,可以:

  • 把你感兴趣的信息源列表发给 AI,让它帮你设计一套「信息采集 + AI 过滤 + 推送」的方案
  • 哪怕是最简单的方式——每天让 AI 帮你总结几篇文章——也比手动刷信息流高效得多
  • 告诉 AI:「我对 XX 领域感兴趣,帮我设计一个每天只花 15 分钟了解行业动态的方案」

工具二:社交媒体短文本过滤 —— Twitter 也能筛选

上面的系统主要处理长文章,但社交媒体上的短文本(比如 Twitter / 微博)需要不同的策略。

这个工具会自动订阅我关注的一些博主的更新,用同样的 AI 打分逻辑过滤掉水贴和广告,只把有价值的内容推送给我。

举个例子:我关注了 50 个 Twitter 博主,他们每天可能发 200 条推文。系统会自动筛选出其中 10-15 条最有价值的推送给我——可能是某个行业大佬分享的深度思考,或者某个新产品的第一手体验。


工具三:视频转录工具 —— 两小时的视频,五分钟看完

这个工具已经开源(免费公开了代码),地址:https://github.com/zj1123581321/VideoTranscriptAPI

一句话介绍:你给它一个视频链接,它自动帮你把视频变成文字,还帮你做总结。

它在解决什么问题?

我特别喜欢看访谈类、知识分享类的视频和播客。但问题是:

  • 一个播客动不动就一两个小时,就算开两倍速也要半小时以上
  • 手机上看长视频很占时间,但很多碎片时间又不想浪费
  • 想快速了解一个视频在讲什么,再决定要不要花时间看完整版

它具体做了什么?

整个过程就像你把一个视频链接扔给一个速记员,然后他帮你完成所有工作:

你发送视频链接(比如一个 YouTube 或 B 站视频的网址)
        ↓
系统自动下载视频的音频部分
        ↓
本地语音识别引擎把声音转成文字(就像语音输入法,但可以处理几小时的音频)
        ↓
AI 校对转录结果(修正错别字、规范标点、让文字更好读)
        ↓
AI 生成内容总结(提炼核心观点、划出重点)
        ↓
推送到你的手机(企业微信/飞书通知),同时有网页版可以看全文

一些有意思的细节

它能区分谁在说话:如果是两个人的对谈,系统可以自动标注「主持人说了什么」「嘉宾说了什么」。虽然不是百分百准确,但配合 AI 校对后,可读性已经很高了。

支持多个平台:YouTube、B站、小宇宙播客、抖音、小红书——基本上常见的音视频平台都可以。

可以在手机上一键操作:我在手机上设置了快捷指令(iOS 的「捷径」或 Android 的自动化工具),看到想转录的视频,分享一下就自动提交了。过几分钟手机会收到通知,告诉我总结已经生成好了。

转录结果可以继续向 AI 提问:如果你对转录内容的某个部分特别感兴趣,可以直接把文字复制到 ChatGPT、豆包这些工具里继续深入提问。系统专门提供了一个「导出纯文本」的功能,方便你做这件事。

在手机和电脑上使用视频转录

现在有更简单的替代方案了

随着各大 AI 产品的进化,获取视频文字版已经越来越简单了:

  • 视频号的内容可以转给微信的「元宝」AI 来总结
  • 小红书的内容可以转给「点点」
  • YouTube 视频可以直接丢给 Gemini
  • 抖音部分视频右上角有 AI 总结功能

所以如果你的需求不大,完全不需要自己搭建系统,用现成的工具就能满足大部分需求。我之所以自己做,是因为我每天要处理几十个视频,而且需要和其他工具联动。

你可以做什么?

  • 下次看到感兴趣但没时间看的长视频,试试把链接发给豆包或 Kimi,让它帮你总结
  • 在 YouTube 上,可以直接问 Gemini「帮我总结这个视频的要点」
  • 如果你经常需要处理大量视频,这个工具已经开源了(地址:https://github.com/zj1123581321/VideoTranscriptAPI ),你可以直接把这个项目的 README 文档发给 AI(比如 Claude、ChatGPT),让它指导你一步步完成部署。不需要你自己写代码,AI 会告诉你每一步该做什么

第二部分:看到好东西了,怎么存?

信息筛选只是第一步。更重要的问题是:看到有价值的内容,怎么保存下来?怎么整理?怎么在需要的时候找到它?

工具四:IM 机器人 —— 在聊天窗口里一键收藏

已开源:https://github.com/zj1123581321/Im2Memo

一句话介绍:在飞书、企业微信、Telegram 里转发内容给机器人,就自动保存成笔记了。

它在解决什么问题?

我们每天在各种 IM(即时通讯)平台上看到大量信息。有时候在飞书群里看到一篇好文章,有时候在 Telegram 频道里看到一个有趣的观点,有时候在企业微信里收到一个重要通知。

问题是:收藏分散在各个平台里。飞书的收藏在飞书,微信的收藏在微信,想找的时候根本不记得存在哪了。

它具体做了什么?

我在三个平台(飞书、企业微信、Telegram)各建了一个机器人。不管在哪个平台看到好内容,直接转发给这个机器人,它就会自动保存到一个统一的笔记系统(Memos)里。

关于 Memos

Memos 是一个开源的自部署笔记工具,设计灵感来自 Flomo(一个非常好用的碎片化笔记 App)。它的核心理念是「快速记录碎片化的想法和信息」——不用纠结分类,先记下来,后续再整理。

我选择 Memos 而不是 Flomo,是因为 Memos 是开源的,我可以在上面做很多自定义的开发(比如后面会介绍的自动增强系统)。但如果你只是想要一个好用的碎片化笔记工具,Flomo 、get笔记这类产品的上手体验更好,推荐直接使用

如果你需要「全局收藏」的能力——把各个平台看到的好内容集中保存到一个地方——也可以看看 Karakeep(开源的全局收藏工具)或者 Get 笔记(成熟的商业方案)。

支持的内容类型很丰富:

  • 文字:直接转发就行
  • 图片:截图、照片都可以
  • 富文本:带格式的内容也能保留

最巧妙的设计是「评论合并」:转发内容之后,紧接着发一条 // 你的想法,这条评论会自动合并到同一条笔记里。比如:

你转发了一篇文章给机器人
 → 机器人保存了这篇文章

你紧接着发了:// 这个观点很有意思,可以和上周看到的那篇论文对照
 → 机器人自动把这条评论合并到刚才那条笔记里

最终的笔记长这样:

这个观点很有意思,可以和上周看到的那篇论文对照

---

[原始转发的文章内容]

这样,每一条笔记不仅保存了原始内容,还保留了你当时的思考——这比单纯收藏有价值得多。

在企业微信中转发内容给机器人并添加评论

这对你有什么启发?

核心思路是:把收藏这件事变得极其简单,并且集中到一个地方。不要让收藏散落在十几个 App 里——飞书的收藏在飞书,微信的收藏在微信,想找的时候根本不记得存在哪了。

你可以做什么?

即使不搭建机器人,你也可以:

  • 选择一个统一的收藏工具(Flomo、Karakeep、Get 笔记都可以),把所有值得保存的内容都往那里丢
  • 养成「收藏的时候加一句自己的想法」的习惯——你未来的自己会感谢现在的你
  • 问 AI:「有什么好用的笔记工具可以帮我统一管理多个平台的收藏?」

工具五:笔记自动增强系统 —— 让 AI 帮你整理笔记

一句话介绍:每保存一条笔记,AI 会自动帮你做一系列后处理——摘要、打标签、写评论、找相关笔记。

它在解决什么问题?

很多人都有这样的经历:收藏了一堆东西,但从来不回头看。过段时间再打开,发现根本不记得当时为什么收藏它了。

问题出在哪?收藏只完成了「存储」,但缺少了「整理」和「关联」

这个工具就是在自动帮你做「整理」这一步。

它具体做了什么?

每当有新笔记存进来,系统会自动启动一系列工作流:

1. URL 自动摘要

如果笔记里有网址链接,系统会自动访问这个链接,抓取文章内容,调用 AI 生成摘要,然后回填到笔记里。

这意味着你只需要收藏一个链接,系统会帮你把文章的核心内容也保存下来——即使原文以后被删了,你的笔记里也有完整的摘要。

2. 图片理解

如果笔记里有图片(比如你拍了一张白板上的手写内容),系统会自动进行文字识别(OCR),同时调用 AI 来理解图片的内容。这样即使是图片里的信息,以后也可以通过文字搜索找到。

3. 自动打标签

系统会调用 AI 分析笔记内容,自动给它打上合适的标签。AI 会维护一个标签注册表来保持标签体系的一致性。这个功能更多是方便后续查找,属于「有了不错,没有也行」的类型。

4. AI 写评论——这是我最喜欢的功能

这是整个笔记系统里我觉得最有价值的功能。系统会让 AI 从多个「角度」深度审视你的每一条笔记,然后自动写评论:

  • 事实核查角度:「这篇文章提到的数据是否准确?有没有需要验证的地方?」系统甚至可以调用搜索引擎去核实信息的时效性
  • 发散联想角度:「这个观点让我联想到了什么?有没有相关的其他领域可以借鉴?」
  • 反方视角角度:「如果站在反对的立场,这个观点有什么漏洞?」
  • 深度分析:对于长篇幅、有分析价值的内容,AI 会进行更结构化的多维度分析

我不在乎这个过程消耗多少 Token(AI 调用费用),核心是要提供信息增量。 每一条笔记都经过 AI 的深度审视和评论,日积月累下来,你会发现自己的思考质量在显著提升——因为你不再是一个人在思考,你有了多个「虚拟思考伙伴」。

类比:就像你身边有几个思维方式不同的朋友,每次你分享一个想法,他们都会从各自的角度给你反馈。而且这几个朋友 24 小时在线,不会疲倦,不会敷衍。

5. 相关笔记发现

系统会计算每条笔记和你历史上所有笔记的「相似度」,然后告诉你:「嘿,你之前有这几条笔记和它有关联,要不要一起看看?」

类比:就像图书馆里的智能推荐——你借了一本关于「时间管理」的书,图书管理员告诉你「你三个月前借过一本关于'专注力'的书,要不要一起再看看?」

这种跨时间的关联非常有价值。很多时候,你在不同时期收藏的东西,互相之间是有联系的,只是你自己忘了。系统帮你把这些关联找出来,可能会激发新的思考。

6. 每日回顾推送

系统每天会按照策略选取一些历史笔记,通过企业微信推送给我。策略包括:

  • 随机回顾:从所有笔记里随机挑几条
  • 那年今日:一年前、两年前的今天,你记录了什么?

5 和 6 的想法都来自于 Flomo(一个笔记 App)

URL 摘要、图片识别、自动打标签的效果
相关笔记发现的效果

这对你有什么启发?

核心思路是:笔记不是存完就算了,后续的整理、关联、回顾才是真正产生价值的地方

你可以做什么?

  • 试试 Flomo(免费版就够用),它有内置的「每日回顾」功能
  • 每次收藏内容时,花 10 秒钟写一句自己的想法
  • 定期(比如每周日)花 15 分钟回顾这周的收藏,问自己:这些内容之间有什么关联?
  • 试试把一周的笔记打包发给 AI,让它帮你找关联、做总结

第三部分:我每天到底在做什么?

工具六:每日复盘 —— AI 提供参考,语音输入完成回顾

一句话介绍:AI 自动生成电脑使用报告作为参考材料,然后我通过语音输入来完成真正的每日复盘。

它在解决什么问题?

你有没有过这样的感觉:忙了一整天,但晚上想想好像什么也没做?或者写周报的时候,完全想不起来这周做了什么?

问题不是你没做事,而是你没有记录。而手动记录太麻烦了——谁会每隔半小时写一句「我在做什么」呢?

AI 提供的「参考材料」

首先,我在电脑上安装了一个叫 ManicTime 的软件。这个软件会静默记录你电脑上的所有活动——你什么时候在用什么软件、打开了什么文件、浏览了什么网页。它只是记录,不会影响你的正常使用。

你可以把它理解成一个电脑版的运动手环——手环记录你每天走了多少步、心率怎样;ManicTime 记录你每天在电脑上做了什么。

系统每天晚上会自动运行,把这些原始数据通过 AI 处理成一份结构化的报告:

  1. 获取活动数据:从 ManicTime 拿到今天所有的电脑使用记录
  2. 处理截图:ManicTime 会定时截屏,系统智能去重后进行文字识别
  3. 时间窗口合并:把碎片化的活动按 15-30 分钟的窗口合并
  4. AI 总结:为每个时间窗口生成工作描述,再合并成 3-7 个主要事项

同时系统还会自动同步我在 YouTube、B站、小宇宙上的观看/收听记录,了解「我今天看了什么」。

但这只是参考——真正的复盘靠语音输入

这里要说一个关键点:AI 生成的报告只能覆盖「线上」的部分——你在电脑上做了什么。但它看不到你线下做了什么,更看不到你的内心想法。

所以我的实际做法是:每天在 Obsidian 里运行一个 Skill(可以理解为一个预设的工作流),通过语音输入法讲述今天自己的所作所为和所思所想,AI 生成的电脑活动报告作为辅助参考。

为什么用语音输入?因为语音输入的速度基本上可以比打字快 10 倍。更重要的是,语音输入能极大地激发你的表达欲——当你「说」的时候,思维是流动的、发散的,很多打字时不会写下来的想法,说着说着就自然冒出来了。

我可以用很短的时间输入非常长的内容,而且信息远比电脑记录全面得多——包括线下的会面、散步时的灵感、对某件事的情绪反应……这些才是复盘真正有价值的部分。每周还会进行周复盘,整合一周的每日记录做更高层次的回顾。

手机上也可以通过 HAPI 远程连接到开发机上来完成这个流程——随时随地,掏出手机就能做复盘。

Obsidian 里的每日复盘效果

这对你有什么启发?

核心思路是:AI 负责收集你记不住的客观数据,你负责补充 AI 看不到的主观感受,两者结合才是完整的复盘

你可以做什么?

  • 试试 ManicTime,装上之后不需要做任何事,它会自动记录你的电脑使用情况
  • 强烈推荐试试语音输入做每日复盘:每天睡前花 3-5 分钟,对着手机说说今天做了什么、想了什么、有什么感悟。你会惊讶于自己能说出这么多内容——很多想法是你打字时根本不会写下来的
  • 如果不想搭建复杂系统,最简单的做法是:每天对着 AI 语音说一段今天的回顾,让它帮你整理成结构化的记录
  • 你可以问 AI:「帮我设计一个简单的每日复盘模板,我每天用语音输入来填写」

第四部分:这些工具背后的「基础设施」

上面介绍的工具就像你能看到的「房子」,而下面这些是支撑房子的「地基」和「管道」。如果你不打算自己动手搭建系统,这部分可以快速浏览;如果你感兴趣,每一项都可以深入了解。

视频下载服务

已开源:https://github.com/zj1123581321/youtube_download_api

你可能会问:为什么下载视频还需要专门做一个工具?直接下载不就行了?

答案是:平台不让你这么轻松地下载

YouTube 有一整套防护机制来阻止自动化下载——检测你是不是真人、限制下载频率、封掉频繁下载的 IP 地址。如果你只是偶尔下载一两个视频,用现成的工具就行了。但我每天需要下载几十个视频(用于转录和分析),所以需要一套更智能的方案。

我的做法是三重保险

  1. 首选:用真实的浏览器模拟真人操作去下载(最不容易被检测到)
  2. 备选:用开源的下载工具 yt-dlp(免费但容易被限制)
  3. 最后手段:用付费的第三方 API(每次几分钱,但最稳定)

如果第一种方式被 YouTube 限制了,系统会自动切换到第二种;第二种也不行就用第三种。这样确保我的转录系统不会因为「视频下不下来」而停摆。

图片理解服务

这个服务被多个上层工具调用——它可以「看懂」图片内容,包括:

  • OCR 文字识别:识别图片里的文字(比如截图里的文本内容、照片里的标牌、白板上的手写内容)
  • 图片描述:用 AI 描述图片的内容(「这张图片显示了一个统计图表,展示了2025年各季度的销售增长趋势」)

这些能力被笔记系统(处理图片笔记)、信息处理中枢(理解文章中的配图)等多个工具调用。

音视频转录引擎

我在本地部署了两套语音识别引擎:

  • CapsWriter:速度快,适合大部分场景。一段 20 分钟的音频,大概 1 分钟就能转完
  • FunASR:能区分谁在说话,适合访谈、对话类内容。速度慢一些,但结果更有信息量

这两个引擎都跑在本地电脑上,不需要付费。本地转录的准确率不是 100%,但配合 AI 校对后,可读性非常高——AI 会结合上下文来修正错别字和标点。

LLM API 统一管理

我使用了一个叫 OneAPI 的开源工具来统一管理所有的 AI 模型调用。不管是 ChatGPT、Claude、Gemini 还是国产的大模型,都可以通过同一个接口来调用。

这就像一个万能遥控器——你不需要每换一个电视就换一个遥控器,一个就够了。


第五部分:我使用的基础软件和硬件

Obsidian —— 我的知识总基地

Obsidian 是一个本地笔记工具,所有笔记都以 Markdown 格式存在你的电脑上。在我的体系里,它是所有信息最终沉淀的地方——筛选后的文章、转录的视频内容、每日复盘、网页剪藏,全部汇聚到这里。

为什么选择它?

  • Local First(本地优先):你的数据在你自己的电脑上,不担心服务关停或数据泄露
  • Markdown 格式:这种格式是纯文本的,AI 处理起来特别方便
  • 插件生态:大量社区插件可以扩展功能

语音输入法 —— 说话比打字快 10 倍

这篇文章的草稿本身就是用语音输入完成的。

  • 电脑上LazyTyper(火山引擎,豆包同款语音输入 API)+ CapsWriter(开源项目,我自己魔改过),配合大疆 Mic Mini 收音(建议连接接收器以降低延迟)
  • 手机上:豆包输入法。当下豆包输入法的语音识别准确率是最高的,特别是超长音频的识别——微信输入法在长段语音上经常会出现重复的无意义内容

语音输入的速度基本上可以比打字快 10 倍。 但速度只是一方面——更重要的是,语音输入能极大地激发你的表达欲。当你「说」的时候,思维是流动的、发散的,很多打字时不会写下来的想法,说着说着就自然冒出来了。

强烈建议:如果你的工作涉及大量文字输出(写报告、回邮件、做笔记、做复盘),一定要试试语音输入。一开始可能不习惯,但一旦用熟了,你会回不去的。

网络方案:让你随时随地访问家里的电脑

我用了两个工具来解决「在外面也能访问家里电脑上的服务」的问题:

  • Tailscale:把你所有的设备(手机、笔记本、家里的电脑)组成一个虚拟的局域网。无论你在哪里,都像在家一样访问家里的电脑。免费的
  • Cloudflare Tunnel:如果需要把某个服务暴露到公网上(比如给机器人用的 Webhook 地址),这个工具可以安全地做到,免费且不限流量

提醒:涉及到网络安全,能不暴露到公网的服务就不要暴露。特别是 AI 帮你写的工具软件,可能有安全漏洞。如果必须暴露,建议让 AI 帮你做一次安全检查。

HAPI —— 随时随地连上开发机的 Coding Agent

HAPI 是一个能让你通过手机浏览器连接到家里电脑上的 AI 编程助手(比如 Claude Code)的工具。这意味着我可以在走亲访友的间隙,掏出手机改个 bug、加个功能。

这不是「未来可能」——现在就已经可以了。这个春节假期,我就是走到哪里都能随时远程连到开发环境改 bug、添加功能。网页版天然就是多平台的,手机、平板都能用。

硬件

  • Mac Studio(M1 Max,64G 内存):这是我的「计算中心」,所有需要算力的工具都跑在上面——语音识别、图片理解、OCR 等。二手美版价格不到 8 千,24 小时运行功耗很低
  • NAS(网络存储):运行一些不怎么需要算力但需要一直开着的服务
  • 大疆 Mic Mini:配合语音输入法使用的无线麦克风,收音质量直接影响语音识别的准确率

第六部分:几点想法

言出法随的时代,说出想法就等于开源出代码

对于中小型工具而言,其实说出想法就等于开源出代码。所以有一些基础的组件,大家可以共用的,我就直接开源了,免得大家重新浪费时间。但是一些很私人化的工作流软件,我只分享思路,大家可以把文章丢给 AI,结合自己的需求,探讨出适合自己的架构设计。

这也是这篇文章的初衷。你不需要用和我一样的工具,但你可以用类似的思路,让 AI 帮你长出属于你自己的那一套。

AI First

有问题先问 AI,有需求也先提给 AI。我只愿意回答一些 AI 回答不了的问题,本文如此,其他情况亦然。

给技术小白的补充:这不是傲慢,而是效率。AI 在大多数常见问题上的回答质量已经超过了你随手搜索到的结果,而且它可以根据你的具体情况给出个性化建议。所以遇到任何问题,第一反应应该是问 AI,而不是发朋友圈或者到处问人。AI 回答不了的问题,再找人讨论——这时候你的问题也会更精准。

需求洞察和审美至关重要

这是一个需求洞察和审美至关重要的时代。而自己的需求只有自己最清楚。所以原则上你可以生长出专属于你自己的软件。

技术门槛在 AI 时代已经大幅降低了。以前你得会写代码才能把想法变成工具,现在你只要能把需求描述清楚,AI 就能帮你实现。真正的门槛变成了:你是否清楚自己(目标客户)到底需要什么,以及你对「好用」这件事的品味。

给技术小白的补充:不要觉得「不懂技术就没有发言权」——恰恰相反。一个能准确描述需求、对产品有品味的人,在 AI 时代比一个只会写代码但不知道该做什么的人更有优势。

Skill 快速验证,工程化追求稳定

短期的尝试,或者中间过程中有很多语义化的东西需要判断,可以优先使用 Skill 快速地把相关的流程跑通。但是如果追求稳定性和高并发,那么还是建议将整个流程工程化掉。这样既能让结果输出比较稳定,也可以大幅度降低 Token 的消耗,不占用宝贵的 Coding Plan 额度。

我自己的很多工具就是这么演进的——先用 Skill 验证想法,跑通了再用 AI 写成正式的服务。

Context not Control

这句话在 AI 时代更加重要。充分明确的 Context,和模型的能力一样,都对输出的质量有非常显著的影响。

如果想要 AI 高度介入自己的生活,那么就要尽量把一切可以数据化的东西都充分数据化。日常的工作活动、身体健康数据、环境相关数据,都可以传给它。这也是我为什么要做每日复盘、ManicTime 行为记录、视频消费同步这些工具的原因——本质上都是在给 AI 提供更充分的 Context。

给技术小白的翻译:你给 AI 的信息越充分,它的回答越好。同样是让 AI 帮你写周报——如果你只说「帮我写周报」,它只能给你一个泛泛的模板。但如果你告诉它「这是我这周的工作记录、开的会议、完成的任务……」,它的输出质量会好很多。所以,尽量多给 AI 提供背景信息(Context),而不是试图精确控制它的输出格式(Control)。

顶级模型省下的时间,远比 Token 省的钱更重要

如果不是特别的需求,比如金融和安全行业,那么折腾本地 LLM 对于多数人意义不大。

具体从两方面讲。一方面,顶级模型的能力是其他模型无法比拟的。和顶级模型协作起来,省下的时间远远比 Token 省的几个钱更加重要。能力差的一些模型可能会造成方向性的错误,来回折腾起来反倒更费时间。

另一方面,客观地说,大部分普通人个体和 LLM 的交互数据没有太多商业价值。当然,不要上传密钥这些敏感信息。

给技术小白的补充:简单来说就是——用最好的 AI 模型,别为了省那点钱用差的。用差模型省的钱,远不如用好模型省的时间值钱。

尽量多使用 API

两块。第一块是构建项目的时候,优先调用外部的 API 来处理一些比较复杂的问题,比如说各种平台的风控,会比自己处理起来省事很多,而且随时可以替换备用的方案。

另一方面,自己架设的服务也要尽可能多对内部暴露 API,方便集成到其他的项目里面。我自己的工具之间能互相调用——AI Information Processor 调用 YouTube Download API 下载视频,memo auto 调用 AI Information Processor 的总结 API 富化 URL——很大程度上就是因为每个服务都暴露了 API。

这样做还有一个额外的好处:当每个服务都暴露了 API,你可以把它们封装成 Skill,丢给龙虾(OpenClaw)这样的 AI Agent。它就拥有了处理各种内容格式的能力,可以代替你去上网冲浪。

给技术小白的翻译:API 可以理解成「工具之间的沟通接口」。就像乐高积木的接口是标准化的,所以任何积木都能拼在一起。如果你的每个工具都留好了「接口」,未来它们就能互相配合、自由组合,甚至可以被 小龙虾这种工具直接调用。

AI 漏斗用多了,也需要反哺推荐算法

引入 AI 工具帮我处理内容之后,有一个副作用:很多有价值的内容我是通过转录和总结来消费的,在平台服务端看来,这些内容的完播率和互动数据表现都不会好。久而久之,推荐算法会认为你对这类内容不感兴趣,推荐质量反而会下降。所以平时也需要刻意做一些行为——点赞、完整播放、评论——告诉系统你对这些内容是认可的,顺便也帮助作者多一些传播。

如果内容源有网页版,相对简单,可以让 Chrome CDP 模拟人类操作完成整个内容的消费。但如果只有手机客户端,那就只能靠自己的自觉性了。

LLM 吞噬一切

很明显的一个趋势就是 LLM 吞噬一切。我取消订阅了很多软件服务——Flomo(被 Memo + im2memo + memo auto 取代)、Inoreader 和 Readwise(被 AI Information Processor 取代)、一些音视频总结付费工具(被 Video Transcript API 取代)。不是因为那些工具不好,而是定制化的 AI 工具更适合我的需求。

但省下这些订阅费的同时,非 Coding 的 API 调用每天 Token 消耗均值已经到了七八百万。所以成本上是不降反增,只是从 ROI 角度还是更划算的。

关于 Token 消耗

  • 大部分 LLM 的计费都是以百万 Token 为单位的,所以「七八百万」看起来很震撼,但换算成金额一天也就几十块钱。如果是 DeepSeek 的话大概两三块钱
  • Coding Agent 的 Token 消耗和工程项目里 API 的 Token 消耗有数量级的差异。所以建议把公用的方法抽象成工具 API 调用以降低成本
  • 客观来说,未来每个人的 Token 消耗量可以一定程度上反映他的杠杆能力。对话是消耗不了多少 Token 的,只有当更多的工具和 Agent 在 24 小时运行,Token 消耗量才会真正拉开差距。Token 消耗量本质上是一个中间指标——一个人自己的问题是有限的,只有当你开始帮更多的人解决问题,Token 消耗量才会真正拉开差距

最后,也是最重要的一点:不要给自己设限。 这篇文章里提到的所有东西,都可以去找 AI 聊。哪怕现在做不到的,未来可能也只是时间问题。LLM 在吞噬一切——这不是一句口号,而是正在发生的现实。


写在最后

站在 2026 这个 AI + 机器人的时间节点,某种程度上,未来已来,只是分布不均。

很多人类社会的基层运转逻辑、价值定义都在被彻底重构——以远超上次工业革命的烈度。

匆匆写下此文,也是趁这些内容当下还有一些价值。

想说的远不止这些,但千头万绪,不知从何说起。那便以王菲在今年春晚的歌曲作结吧。

百年长河,不过是你和我在经历着的一刻。
我们从很远的时间就开始存在。

 


本文基于我此前发布的技术向分享文章《LLM 吞噬一切,我用 AI 长出来的那些工具》重新撰写,面向更广泛的读者群体。如果你对技术细节感兴趣,欢迎阅读原文。

本文草稿由我通过语音输入完成,框架设计与校对由 Claude Code 协作完成。

1
0