技术小白版-普通人也能用 AI「长出」自己的工具：我这一年的实践分享

这篇文章的前身是一篇偏极客向的技术分享（原文链接）。本文是我把原始草稿和本地十几个项目的代码文件交给 Claude Code，让它自行探索所有仓库后生成初稿，我只负责审阅和提修改意见。核心目的是降低非技术人员的阅读门槛。如果你有技术背景，建议直接看原文，写得更详细。
如果你在阅读过程中遇到不理解的概念，非常建议你把那段话复制给任意一个 AI 助手（比如豆包、ChatGPT、Kimi），问它「这是什么意思？能给我举个例子吗？」——这本身就是 AI 时代最重要的能力之一。

先说结论：这篇文章想告诉你什么

过去一年多，我让 AI 帮我写了十几个小工具。这些工具现在每天 24 小时自动运行，帮我完成信息筛选、内容总结、笔记整理、每日复盘等工作。

既然你会读到这篇文章，说明你已经在积极拥抱 AI 了。所以我想分享的不是「AI 有多厉害」这种老生常谈，而是一种思路——如何让 AI 从「对话工具」变成「24 小时为你工作的系统」。

这篇文章的核心价值在于思路，具体的代码其实没有那么重要。按当前 Coding Agent 的发展速度，恐怕过几个月，当前的这些代码就一文不值了。你不需要用和我一样的工具，但你完全可以借鉴类似的想法，让 AI 帮你长出属于你自己的那一套。

而且现在已经有了 OpenClaw（龙虾）这样的工具——你可以把各种 API 和能力封装起来，交给 AI Agent，让它 24 小时自主运行、帮你处理各种任务。原则上，每个人都可以拥有一套 24 小时运行的 AI Agent 系统，为你持续地采集信息、处理内容、整理知识。这不再是程序员的专利。

一个比喻：理解整套系统在做什么

在正式介绍之前，我想先用一个比喻帮你理解这套系统的全貌。

想象你是一家小公司的老板，你雇了一个 24 小时工作的私人助理团队：

角色	对应的工具	它在做什么
信息采集员	RSS 订阅 + 各平台同步	每天帮你「巡逻」上百个信息源，看看有没有新内容
内容编辑	AI 信息处理中枢	拿到新内容后，快速判断值不值得给你看（打分过滤）
速记员	视频转录工具	把你感兴趣的视频和播客变成文字，还帮你划重点
剪报员	网页剪藏工具	看到好文章，一键保存并自动生成摘要
笔记管理员	Memo 生态工具	帮你把收藏的内容分类、打标签、写批注
日报撰写员	每日复盘工具	每晚帮你回顾今天做了什么、看了什么
提醒专员	每日回顾推送	定期把你过去记录的笔记重新翻出来给你看

这个「助理团队」的工作流程大概是这样的：

采集信息 → 筛选过滤 → 转录理解 → 存储管理 → 回顾分析

每一个环节都有对应的工具在支撑。下面我逐个介绍，重点讲它们能帮你解决什么问题。

第一部分：信息太多了，怎么办？

你有没有过这样的体验？

打开手机，一堆公众号推送、短视频推荐，刷了半小时也没看到什么有价值的东西
想了解某个领域的动态，但信息散落在微信、微博、YouTube、B站等各个平台
收藏了一堆文章，但从来没有回头看过
别人推荐了一个两小时的播客，但实在没时间听完

这些问题，就是我这套系统主要在解决的。

工具一：AI 信息处理中枢 —— 你的「智能新闻编辑」

一句话介绍：它就像你雇了一个 24 小时值班的新闻编辑，帮你从上百个信息源里筛选出最有价值的 5% 内容。

它在解决什么问题？

每天互联网上产生的信息量是天文数字。光是我自己订阅的信息源就有上百个——科技媒体、行业博客、YouTube 频道、播客节目、微信公众号……如果每篇都看，一天 24 小时也不够。

所以我需要一个「编辑」帮我先过一遍，把不值得看的去掉，把值得看的整理好推送给我。

它具体做了什么？

第一步：自动巡逻——从各个平台收集新内容

系统会定时去检查我订阅的所有信息源有没有更新。就像你每天早上打开新闻 App 一样，只不过这个系统帮你打开了上百个 App，而且一天检查很多次。

这些信息源包括：

科技媒体和博客：36氪、少数派、Hacker News 等
YouTube 频道：订阅的 YouTuber 更新了新视频
播客节目：小宇宙、Apple Podcast 上订阅的播客
微信公众号：通过特殊工具把公众号转成可以被系统读取的格式
社交媒体：Twitter / 微博上关注的人发了什么

小知识：什么是 RSS？
RSS 是一种互联网上古老但非常实用的技术。你可以把它理解成一种「信息订阅协议」——就像你订报纸一样，你告诉系统「我要订这些频道」，系统就会定期帮你去取新内容回来。很多网站、播客、YouTube 频道都支持这种订阅方式。
如果你想深入了解，可以问 AI：「RSS 是什么？普通人怎么用 RSS 订阅自己感兴趣的内容？」

一个重要的设计原则：一切转文本

这套系统有一个核心设计原则：不管原始内容是什么形式——文章、图片、音频、视频——都先转换成文本，然后再交给 AI 处理。

为什么？因为尽管现在很多 AI 模型已经具备了「多模态」能力（能直接看图片、听音频），但文本依然是 AI 处理能力最强、成本最低的形式。同样一段内容，用文本让 AI 分析，比直接丢一段视频给它，效果更好、速度更快、花费更少。

所以你会看到，这套系统的前端有大量的「转换器」——语音识别把音频转文字，OCR 把图片转文字，视频先提取音频再转文字。所有这些转换完成后，内容就进入了统一的文本处理管线。

第二步：AI 打分——判断这篇内容值不值得看

每拿到一篇新文章，系统会调用 AI 对它进行分析：

它在讲什么？（自动分类：科技、商业、教育、健康……）
质量怎么样？（打分，0-3 分。有深度分析的加分，纯广告的扣分）
核心观点是什么？（自动提取 5-8 个要点）
有没有什么隐藏的信息？（比如一次访谈里不经意透露的行业动向）
有没有值得记住的金句？

分数不够的内容会被直接过滤掉——就像编辑把不合格的稿件退回去一样。

举个具体例子：假设某天有 100 篇新文章进入系统，AI 可能会：

给其中 20 篇打 2-3 分（值得看），完整推送给我
给其中 30 篇打 1 分（一般），只保留标题和摘要
给剩下 50 篇打 0 分（不值得看），直接过滤掉

第三步：去重——同一件事不需要看五遍

比如某天 OpenAI 发布了新产品，可能 36氪、虎嗅、量子位、机器之心都在报道同一件事。如果每篇都推送给你，你会被淹没。

系统会自动识别这些文章其实在讲同一件事，然后只推送第一篇最完整的，后面的如果有新增信息（比如某篇补充了定价细节），只推送新增的部分。如果完全重复，就直接静默处理。

类比：就像一个好编辑会说「这五篇都在讲同一件事，我把最全的那篇给你，其他的只标注了新增信息」。

第四步：推送——在你最方便的地方阅读

筛选过的内容会自动推送到我常用的平台：

飞书 / 企业微信：在手机上就能随时刷，就像看朋友圈一样。飞书的阅读体验做得比较好，断网也能看之前的内容
Obsidian 笔记库：所有内容都会自动存成本地文件，方便后续搜索和整理
网页端：方便复制文本到其他 AI 工具里进一步提问

关于内容消费渠道的选择

筛选过的内容，我同时推送到了多个平台。这里简单聊一下各种阅读渠道的体验：

Obsidian：比较适合在电脑上进行阅读和处理，但手机端体验一般
飞书：阅读体验是最好的，排版舒服、支持断网阅读。我优先推荐把内容发送到飞书
企业微信：优势在于方便分享到微信，但阅读体验比较一般，安卓端还有样式 bug
网页端：方便复制文本到其他 AI 工具里进一步提问，也方便合并查看同一主题的多篇文章

另一个感受：内容源的质量至关重要

处理了这么多文章之后，会更加感觉到信息源的质量差异巨大。有的信息源十之七八都是有价值的；有的可能只有十之一二。优先选择付费的信息源，如果是免费的信息源，尽量选择一手信息。特别是一些对谈、访谈类内容，里面潜藏的面包屑会更多。

这对你有什么启发？

你可能不需要这么复杂的系统，但核心思路是通用的：

集中你的信息源：把你关注的内容都集中到一个地方，而不是分散在十几个 App 里
让 AI 帮你过滤：与其自己一篇篇看标题决定要不要点开，不如让 AI 先帮你筛一遍
减少重复信息：同一件事看一遍就够了

你可以做什么？
这个系统已经让 AI 高度介入了信息消费的流程。传统的 RSS 阅读器（比如 Inoreader）在 AI 时代已经显得不够用了——它们只能帮你「聚合」，但不能帮你「筛选」和「理解」。
如果你想要类似的效果，可以：
把你感兴趣的信息源列表发给 AI，让它帮你设计一套「信息采集 + AI 过滤 + 推送」的方案
哪怕是最简单的方式——每天让 AI 帮你总结几篇文章——也比手动刷信息流高效得多
告诉 AI：「我对 XX 领域感兴趣，帮我设计一个每天只花 15 分钟了解行业动态的方案」

工具二：社交媒体短文本过滤 —— Twitter 也能筛选

上面的系统主要处理长文章，但社交媒体上的短文本（比如 Twitter / 微博）需要不同的策略。

这个工具会自动订阅我关注的一些博主的更新，用同样的 AI 打分逻辑过滤掉水贴和广告，只把有价值的内容推送给我。

举个例子：我关注了 50 个 Twitter 博主，他们每天可能发 200 条推文。系统会自动筛选出其中 10-15 条最有价值的推送给我——可能是某个行业大佬分享的深度思考，或者某个新产品的第一手体验。

工具三：视频转录工具 —— 两小时的视频，五分钟看完

这个工具已经开源（免费公开了代码），地址：https://github.com/zj1123581321/VideoTranscriptAPI

一句话介绍：你给它一个视频链接，它自动帮你把视频变成文字，还帮你做总结。

它在解决什么问题？

我特别喜欢看访谈类、知识分享类的视频和播客。但问题是：

一个播客动不动就一两个小时，就算开两倍速也要半小时以上
手机上看长视频很占时间，但很多碎片时间又不想浪费
想快速了解一个视频在讲什么，再决定要不要花时间看完整版

它具体做了什么？

整个过程就像你把一个视频链接扔给一个速记员，然后他帮你完成所有工作：

你发送视频链接（比如一个 YouTube 或 B 站视频的网址）
        ↓
系统自动下载视频的音频部分
        ↓
本地语音识别引擎把声音转成文字（就像语音输入法，但可以处理几小时的音频）
        ↓
AI 校对转录结果（修正错别字、规范标点、让文字更好读）
        ↓
AI 生成内容总结（提炼核心观点、划出重点）
        ↓
推送到你的手机（企业微信/飞书通知），同时有网页版可以看全文

一些有意思的细节

它能区分谁在说话：如果是两个人的对谈，系统可以自动标注「主持人说了什么」「嘉宾说了什么」。虽然不是百分百准确，但配合 AI 校对后，可读性已经很高了。

支持多个平台：YouTube、B站、小宇宙播客、抖音、小红书——基本上常见的音视频平台都可以。

可以在手机上一键操作：我在手机上设置了快捷指令（iOS 的「捷径」或 Android 的自动化工具），看到想转录的视频，分享一下就自动提交了。过几分钟手机会收到通知，告诉我总结已经生成好了。

转录结果可以继续向 AI 提问：如果你对转录内容的某个部分特别感兴趣，可以直接把文字复制到 ChatGPT、豆包这些工具里继续深入提问。系统专门提供了一个「导出纯文本」的功能，方便你做这件事。

现在有更简单的替代方案了

随着各大 AI 产品的进化，获取视频文字版已经越来越简单了：

视频号的内容可以转给微信的「元宝」AI 来总结
小红书的内容可以转给「点点」
YouTube 视频可以直接丢给 Gemini
抖音部分视频右上角有 AI 总结功能

所以如果你的需求不大，完全不需要自己搭建系统，用现成的工具就能满足大部分需求。我之所以自己做，是因为我每天要处理几十个视频，而且需要和其他工具联动。

你可以做什么？
下次看到感兴趣但没时间看的长视频，试试把链接发给豆包或 Kimi，让它帮你总结
在 YouTube 上，可以直接问 Gemini「帮我总结这个视频的要点」
如果你经常需要处理大量视频，这个工具已经开源了（地址：https://github.com/zj1123581321/VideoTranscriptAPI ），你可以直接把这个项目的 README 文档发给 AI（比如 Claude、ChatGPT），让它指导你一步步完成部署。不需要你自己写代码，AI 会告诉你每一步该做什么

第二部分：看到好东西了，怎么存？

信息筛选只是第一步。更重要的问题是：看到有价值的内容，怎么保存下来？怎么整理？怎么在需要的时候找到它？

工具四：IM 机器人 —— 在聊天窗口里一键收藏

已开源：https://github.com/zj1123581321/Im2Memo

一句话介绍：在飞书、企业微信、Telegram 里转发内容给机器人，就自动保存成笔记了。

它在解决什么问题？

我们每天在各种 IM（即时通讯）平台上看到大量信息。有时候在飞书群里看到一篇好文章，有时候在 Telegram 频道里看到一个有趣的观点，有时候在企业微信里收到一个重要通知。

问题是：收藏分散在各个平台里。飞书的收藏在飞书，微信的收藏在微信，想找的时候根本不记得存在哪了。

它具体做了什么？

我在三个平台（飞书、企业微信、Telegram）各建了一个机器人。不管在哪个平台看到好内容，直接转发给这个机器人，它就会自动保存到一个统一的笔记系统（Memos）里。

关于 Memos
Memos 是一个开源的自部署笔记工具，设计灵感来自 Flomo（一个非常好用的碎片化笔记 App）。它的核心理念是「快速记录碎片化的想法和信息」——不用纠结分类，先记下来，后续再整理。
我选择 Memos 而不是 Flomo，是因为 Memos 是开源的，我可以在上面做很多自定义的开发（比如后面会介绍的自动增强系统）。但如果你只是想要一个好用的碎片化笔记工具，Flomo 、get笔记这类产品的上手体验更好，推荐直接使用。
如果你需要「全局收藏」的能力——把各个平台看到的好内容集中保存到一个地方——也可以看看 Karakeep（开源的全局收藏工具）或者 Get 笔记（成熟的商业方案）。

支持的内容类型很丰富：

文字：直接转发就行
图片：截图、照片都可以
富文本：带格式的内容也能保留

最巧妙的设计是「评论合并」：转发内容之后，紧接着发一条 // 你的想法，这条评论会自动合并到同一条笔记里。比如：

你转发了一篇文章给机器人
 → 机器人保存了这篇文章

你紧接着发了：// 这个观点很有意思，可以和上周看到的那篇论文对照
 → 机器人自动把这条评论合并到刚才那条笔记里

最终的笔记长这样：

这个观点很有意思，可以和上周看到的那篇论文对照

---

[原始转发的文章内容]

这样，每一条笔记不仅保存了原始内容，还保留了你当时的思考——这比单纯收藏有价值得多。

这对你有什么启发？

核心思路是：把收藏这件事变得极其简单，并且集中到一个地方。不要让收藏散落在十几个 App 里——飞书的收藏在飞书，微信的收藏在微信，想找的时候根本不记得存在哪了。

你可以做什么？
即使不搭建机器人，你也可以：
选择一个统一的收藏工具（Flomo、Karakeep、Get 笔记都可以），把所有值得保存的内容都往那里丢
养成「收藏的时候加一句自己的想法」的习惯——你未来的自己会感谢现在的你
问 AI：「有什么好用的笔记工具可以帮我统一管理多个平台的收藏？」

工具五：笔记自动增强系统 —— 让 AI 帮你整理笔记

一句话介绍：每保存一条笔记，AI 会自动帮你做一系列后处理——摘要、打标签、写评论、找相关笔记。

它在解决什么问题？

很多人都有这样的经历：收藏了一堆东西，但从来不回头看。过段时间再打开，发现根本不记得当时为什么收藏它了。

问题出在哪？收藏只完成了「存储」，但缺少了「整理」和「关联」。

这个工具就是在自动帮你做「整理」这一步。

它具体做了什么？

每当有新笔记存进来，系统会自动启动一系列工作流：

1. URL 自动摘要

如果笔记里有网址链接，系统会自动访问这个链接，抓取文章内容，调用 AI 生成摘要，然后回填到笔记里。

这意味着你只需要收藏一个链接，系统会帮你把文章的核心内容也保存下来——即使原文以后被删了，你的笔记里也有完整的摘要。

2. 图片理解

如果笔记里有图片（比如你拍了一张白板上的手写内容），系统会自动进行文字识别（OCR），同时调用 AI 来理解图片的内容。这样即使是图片里的信息，以后也可以通过文字搜索找到。

3. 自动打标签

系统会调用 AI 分析笔记内容，自动给它打上合适的标签。AI 会维护一个标签注册表来保持标签体系的一致性。这个功能更多是方便后续查找，属于「有了不错，没有也行」的类型。

4. AI 写评论——这是我最喜欢的功能

这是整个笔记系统里我觉得最有价值的功能。系统会让 AI 从多个「角度」深度审视你的每一条笔记，然后自动写评论：

事实核查角度：「这篇文章提到的数据是否准确？有没有需要验证的地方？」系统甚至可以调用搜索引擎去核实信息的时效性
发散联想角度：「这个观点让我联想到了什么？有没有相关的其他领域可以借鉴？」
反方视角角度：「如果站在反对的立场，这个观点有什么漏洞？」
深度分析：对于长篇幅、有分析价值的内容，AI 会进行更结构化的多维度分析

我不在乎这个过程消耗多少 Token（AI 调用费用），核心是要提供信息增量。 每一条笔记都经过 AI 的深度审视和评论，日积月累下来，你会发现自己的思考质量在显著提升——因为你不再是一个人在思考，你有了多个「虚拟思考伙伴」。

类比：就像你身边有几个思维方式不同的朋友，每次你分享一个想法，他们都会从各自的角度给你反馈。而且这几个朋友 24 小时在线，不会疲倦，不会敷衍。

5. 相关笔记发现

系统会计算每条笔记和你历史上所有笔记的「相似度」，然后告诉你：「嘿，你之前有这几条笔记和它有关联，要不要一起看看？」

类比：就像图书馆里的智能推荐——你借了一本关于「时间管理」的书，图书管理员告诉你「你三个月前借过一本关于'专注力'的书，要不要一起再看看？」

这种跨时间的关联非常有价值。很多时候，你在不同时期收藏的东西，互相之间是有联系的，只是你自己忘了。系统帮你把这些关联找出来，可能会激发新的思考。

6. 每日回顾推送

系统每天会按照策略选取一些历史笔记，通过企业微信推送给我。策略包括：

随机回顾：从所有笔记里随机挑几条
那年今日：一年前、两年前的今天，你记录了什么？

5 和 6 的想法都来自于 Flomo（一个笔记 App）

这对你有什么启发？

核心思路是：笔记不是存完就算了，后续的整理、关联、回顾才是真正产生价值的地方。

你可以做什么？
试试 Flomo（免费版就够用），它有内置的「每日回顾」功能
每次收藏内容时，花 10 秒钟写一句自己的想法
定期（比如每周日）花 15 分钟回顾这周的收藏，问自己：这些内容之间有什么关联？
试试把一周的笔记打包发给 AI，让它帮你找关联、做总结

第三部分：我每天到底在做什么？

工具六：每日复盘 —— AI 提供参考，语音输入完成回顾

一句话介绍：AI 自动生成电脑使用报告作为参考材料，然后我通过语音输入来完成真正的每日复盘。

它在解决什么问题？

你有没有过这样的感觉：忙了一整天，但晚上想想好像什么也没做？或者写周报的时候，完全想不起来这周做了什么？

问题不是你没做事，而是你没有记录。而手动记录太麻烦了——谁会每隔半小时写一句「我在做什么」呢？

AI 提供的「参考材料」

首先，我在电脑上安装了一个叫 ManicTime 的软件。这个软件会静默记录你电脑上的所有活动——你什么时候在用什么软件、打开了什么文件、浏览了什么网页。它只是记录，不会影响你的正常使用。

你可以把它理解成一个电脑版的运动手环——手环记录你每天走了多少步、心率怎样；ManicTime 记录你每天在电脑上做了什么。

系统每天晚上会自动运行，把这些原始数据通过 AI 处理成一份结构化的报告：

获取活动数据：从 ManicTime 拿到今天所有的电脑使用记录
处理截图：ManicTime 会定时截屏，系统智能去重后进行文字识别
时间窗口合并：把碎片化的活动按 15-30 分钟的窗口合并
AI 总结：为每个时间窗口生成工作描述，再合并成 3-7 个主要事项

同时系统还会自动同步我在 YouTube、B站、小宇宙上的观看/收听记录，了解「我今天看了什么」。

但这只是参考——真正的复盘靠语音输入

这里要说一个关键点：AI 生成的报告只能覆盖「线上」的部分——你在电脑上做了什么。但它看不到你线下做了什么，更看不到你的内心想法。

所以我的实际做法是：每天在 Obsidian 里运行一个 Skill（可以理解为一个预设的工作流），通过语音输入法讲述今天自己的所作所为和所思所想，AI 生成的电脑活动报告作为辅助参考。

为什么用语音输入？因为语音输入的速度基本上可以比打字快 10 倍。更重要的是，语音输入能极大地激发你的表达欲——当你「说」的时候，思维是流动的、发散的，很多打字时不会写下来的想法，说着说着就自然冒出来了。

我可以用很短的时间输入非常长的内容，而且信息远比电脑记录全面得多——包括线下的会面、散步时的灵感、对某件事的情绪反应……这些才是复盘真正有价值的部分。每周还会进行周复盘，整合一周的每日记录做更高层次的回顾。

手机上也可以通过 HAPI 远程连接到开发机上来完成这个流程——随时随地，掏出手机就能做复盘。

这对你有什么启发？

核心思路是：AI 负责收集你记不住的客观数据，你负责补充 AI 看不到的主观感受，两者结合才是完整的复盘。

你可以做什么？
试试 ManicTime，装上之后不需要做任何事，它会自动记录你的电脑使用情况
强烈推荐试试语音输入做每日复盘：每天睡前花 3-5 分钟，对着手机说说今天做了什么、想了什么、有什么感悟。你会惊讶于自己能说出这么多内容——很多想法是你打字时根本不会写下来的
如果不想搭建复杂系统，最简单的做法是：每天对着 AI 语音说一段今天的回顾，让它帮你整理成结构化的记录
你可以问 AI：「帮我设计一个简单的每日复盘模板，我每天用语音输入来填写」

第四部分：这些工具背后的「基础设施」

上面介绍的工具就像你能看到的「房子」，而下面这些是支撑房子的「地基」和「管道」。如果你不打算自己动手搭建系统，这部分可以快速浏览；如果你感兴趣，每一项都可以深入了解。

视频下载服务

已开源：https://github.com/zj1123581321/youtube_download_api

你可能会问：为什么下载视频还需要专门做一个工具？直接下载不就行了？

答案是：平台不让你这么轻松地下载。

YouTube 有一整套防护机制来阻止自动化下载——检测你是不是真人、限制下载频率、封掉频繁下载的 IP 地址。如果你只是偶尔下载一两个视频，用现成的工具就行了。但我每天需要下载几十个视频（用于转录和分析），所以需要一套更智能的方案。

我的做法是三重保险：

首选：用真实的浏览器模拟真人操作去下载（最不容易被检测到）
备选：用开源的下载工具 yt-dlp（免费但容易被限制）
最后手段：用付费的第三方 API（每次几分钱，但最稳定）

如果第一种方式被 YouTube 限制了，系统会自动切换到第二种；第二种也不行就用第三种。这样确保我的转录系统不会因为「视频下不下来」而停摆。

图片理解服务

这个服务被多个上层工具调用——它可以「看懂」图片内容，包括：

OCR 文字识别：识别图片里的文字（比如截图里的文本内容、照片里的标牌、白板上的手写内容）
图片描述：用 AI 描述图片的内容（「这张图片显示了一个统计图表，展示了2025年各季度的销售增长趋势」）

这些能力被笔记系统（处理图片笔记）、信息处理中枢（理解文章中的配图）等多个工具调用。

音视频转录引擎

我在本地部署了两套语音识别引擎：

CapsWriter：速度快，适合大部分场景。一段 20 分钟的音频，大概 1 分钟就能转完
FunASR：能区分谁在说话，适合访谈、对话类内容。速度慢一些，但结果更有信息量

这两个引擎都跑在本地电脑上，不需要付费。本地转录的准确率不是 100%，但配合 AI 校对后，可读性非常高——AI 会结合上下文来修正错别字和标点。

LLM API 统一管理

我使用了一个叫 OneAPI 的开源工具来统一管理所有的 AI 模型调用。不管是 ChatGPT、Claude、Gemini 还是国产的大模型，都可以通过同一个接口来调用。

这就像一个万能遥控器——你不需要每换一个电视就换一个遥控器，一个就够了。

第五部分：我使用的基础软件和硬件

Obsidian —— 我的知识总基地

Obsidian 是一个本地笔记工具，所有笔记都以 Markdown 格式存在你的电脑上。在我的体系里，它是所有信息最终沉淀的地方——筛选后的文章、转录的视频内容、每日复盘、网页剪藏，全部汇聚到这里。

为什么选择它？

Local First（本地优先）：你的数据在你自己的电脑上，不担心服务关停或数据泄露
Markdown 格式：这种格式是纯文本的，AI 处理起来特别方便
插件生态：大量社区插件可以扩展功能

语音输入法 —— 说话比打字快 10 倍

这篇文章的草稿本身就是用语音输入完成的。

电脑上：LazyTyper（火山引擎，豆包同款语音输入 API）+ CapsWriter（开源项目，我自己魔改过），配合大疆 Mic Mini 收音（建议连接接收器以降低延迟）
手机上：豆包输入法。当下豆包输入法的语音识别准确率是最高的，特别是超长音频的识别——微信输入法在长段语音上经常会出现重复的无意义内容

语音输入的速度基本上可以比打字快 10 倍。 但速度只是一方面——更重要的是，语音输入能极大地激发你的表达欲。当你「说」的时候，思维是流动的、发散的，很多打字时不会写下来的想法，说着说着就自然冒出来了。

强烈建议：如果你的工作涉及大量文字输出（写报告、回邮件、做笔记、做复盘），一定要试试语音输入。一开始可能不习惯，但一旦用熟了，你会回不去的。

网络方案：让你随时随地访问家里的电脑

我用了两个工具来解决「在外面也能访问家里电脑上的服务」的问题：

Tailscale：把你所有的设备（手机、笔记本、家里的电脑）组成一个虚拟的局域网。无论你在哪里，都像在家一样访问家里的电脑。免费的
Cloudflare Tunnel：如果需要把某个服务暴露到公网上（比如给机器人用的 Webhook 地址），这个工具可以安全地做到，免费且不限流量

提醒：涉及到网络安全，能不暴露到公网的服务就不要暴露。特别是 AI 帮你写的工具软件，可能有安全漏洞。如果必须暴露，建议让 AI 帮你做一次安全检查。

HAPI —— 随时随地连上开发机的 Coding Agent

HAPI 是一个能让你通过手机浏览器连接到家里电脑上的 AI 编程助手（比如 Claude Code）的工具。这意味着我可以在走亲访友的间隙，掏出手机改个 bug、加个功能。

这不是「未来可能」——现在就已经可以了。这个春节假期，我就是走到哪里都能随时远程连到开发环境改 bug、添加功能。网页版天然就是多平台的，手机、平板都能用。

硬件

Mac Studio（M1 Max，64G 内存）：这是我的「计算中心」，所有需要算力的工具都跑在上面——语音识别、图片理解、OCR 等。二手美版价格不到 8 千，24 小时运行功耗很低
NAS（网络存储）：运行一些不怎么需要算力但需要一直开着的服务
大疆 Mic Mini：配合语音输入法使用的无线麦克风，收音质量直接影响语音识别的准确率

第六部分：几点想法

言出法随的时代，说出想法就等于开源出代码

对于中小型工具而言，其实说出想法就等于开源出代码。所以有一些基础的组件，大家可以共用的，我就直接开源了，免得大家重新浪费时间。但是一些很私人化的工作流软件，我只分享思路，大家可以把文章丢给 AI，结合自己的需求，探讨出适合自己的架构设计。

这也是这篇文章的初衷。你不需要用和我一样的工具，但你可以用类似的思路，让 AI 帮你长出属于你自己的那一套。

AI First

有问题先问 AI，有需求也先提给 AI。我只愿意回答一些 AI 回答不了的问题，本文如此，其他情况亦然。

给技术小白的补充：这不是傲慢，而是效率。AI 在大多数常见问题上的回答质量已经超过了你随手搜索到的结果，而且它可以根据你的具体情况给出个性化建议。所以遇到任何问题，第一反应应该是问 AI，而不是发朋友圈或者到处问人。AI 回答不了的问题，再找人讨论——这时候你的问题也会更精准。

需求洞察和审美至关重要

这是一个需求洞察和审美至关重要的时代。而自己的需求只有自己最清楚。所以原则上你可以生长出专属于你自己的软件。

技术门槛在 AI 时代已经大幅降低了。以前你得会写代码才能把想法变成工具，现在你只要能把需求描述清楚，AI 就能帮你实现。真正的门槛变成了：你是否清楚自己（目标客户）到底需要什么，以及你对「好用」这件事的品味。

给技术小白的补充：不要觉得「不懂技术就没有发言权」——恰恰相反。一个能准确描述需求、对产品有品味的人，在 AI 时代比一个只会写代码但不知道该做什么的人更有优势。

Skill 快速验证，工程化追求稳定

短期的尝试，或者中间过程中有很多语义化的东西需要判断，可以优先使用 Skill 快速地把相关的流程跑通。但是如果追求稳定性和高并发，那么还是建议将整个流程工程化掉。这样既能让结果输出比较稳定，也可以大幅度降低 Token 的消耗，不占用宝贵的 Coding Plan 额度。

我自己的很多工具就是这么演进的——先用 Skill 验证想法，跑通了再用 AI 写成正式的服务。

Context not Control

这句话在 AI 时代更加重要。充分明确的 Context，和模型的能力一样，都对输出的质量有非常显著的影响。

如果想要 AI 高度介入自己的生活，那么就要尽量把一切可以数据化的东西都充分数据化。日常的工作活动、身体健康数据、环境相关数据，都可以传给它。这也是我为什么要做每日复盘、ManicTime 行为记录、视频消费同步这些工具的原因——本质上都是在给 AI 提供更充分的 Context。

给技术小白的翻译：你给 AI 的信息越充分，它的回答越好。同样是让 AI 帮你写周报——如果你只说「帮我写周报」，它只能给你一个泛泛的模板。但如果你告诉它「这是我这周的工作记录、开的会议、完成的任务……」，它的输出质量会好很多。所以，尽量多给 AI 提供背景信息（Context），而不是试图精确控制它的输出格式（Control）。

顶级模型省下的时间，远比 Token 省的钱更重要

如果不是特别的需求，比如金融和安全行业，那么折腾本地 LLM 对于多数人意义不大。

具体从两方面讲。一方面，顶级模型的能力是其他模型无法比拟的。和顶级模型协作起来，省下的时间远远比 Token 省的几个钱更加重要。能力差的一些模型可能会造成方向性的错误，来回折腾起来反倒更费时间。

另一方面，客观地说，大部分普通人个体和 LLM 的交互数据没有太多商业价值。当然，不要上传密钥这些敏感信息。

给技术小白的补充：简单来说就是——用最好的 AI 模型，别为了省那点钱用差的。用差模型省的钱，远不如用好模型省的时间值钱。

尽量多使用 API

两块。第一块是构建项目的时候，优先调用外部的 API 来处理一些比较复杂的问题，比如说各种平台的风控，会比自己处理起来省事很多，而且随时可以替换备用的方案。

另一方面，自己架设的服务也要尽可能多对内部暴露 API，方便集成到其他的项目里面。我自己的工具之间能互相调用——AI Information Processor 调用 YouTube Download API 下载视频，memo auto 调用 AI Information Processor 的总结 API 富化 URL——很大程度上就是因为每个服务都暴露了 API。

这样做还有一个额外的好处：当每个服务都暴露了 API，你可以把它们封装成 Skill，丢给龙虾（OpenClaw）这样的 AI Agent。它就拥有了处理各种内容格式的能力，可以代替你去上网冲浪。

给技术小白的翻译：API 可以理解成「工具之间的沟通接口」。就像乐高积木的接口是标准化的，所以任何积木都能拼在一起。如果你的每个工具都留好了「接口」，未来它们就能互相配合、自由组合，甚至可以被小龙虾这种工具直接调用。

AI 漏斗用多了，也需要反哺推荐算法

引入 AI 工具帮我处理内容之后，有一个副作用：很多有价值的内容我是通过转录和总结来消费的，在平台服务端看来，这些内容的完播率和互动数据表现都不会好。久而久之，推荐算法会认为你对这类内容不感兴趣，推荐质量反而会下降。所以平时也需要刻意做一些行为——点赞、完整播放、评论——告诉系统你对这些内容是认可的，顺便也帮助作者多一些传播。

如果内容源有网页版，相对简单，可以让 Chrome CDP 模拟人类操作完成整个内容的消费。但如果只有手机客户端，那就只能靠自己的自觉性了。

LLM 吞噬一切

很明显的一个趋势就是 LLM 吞噬一切。我取消订阅了很多软件服务——Flomo（被 Memo + im2memo + memo auto 取代）、Inoreader 和 Readwise（被 AI Information Processor 取代）、一些音视频总结付费工具（被 Video Transcript API 取代）。不是因为那些工具不好，而是定制化的 AI 工具更适合我的需求。

但省下这些订阅费的同时，非 Coding 的 API 调用每天 Token 消耗均值已经到了七八百万。所以成本上是不降反增，只是从 ROI 角度还是更划算的。

关于 Token 消耗：
大部分 LLM 的计费都是以百万 Token 为单位的，所以「七八百万」看起来很震撼，但换算成金额一天也就几十块钱。如果是 DeepSeek 的话大概两三块钱
Coding Agent 的 Token 消耗和工程项目里 API 的 Token 消耗有数量级的差异。所以建议把公用的方法抽象成工具 API 调用以降低成本
客观来说，未来每个人的 Token 消耗量可以一定程度上反映他的杠杆能力。对话是消耗不了多少 Token 的，只有当更多的工具和 Agent 在 24 小时运行，Token 消耗量才会真正拉开差距。Token 消耗量本质上是一个中间指标——一个人自己的问题是有限的，只有当你开始帮更多的人解决问题，Token 消耗量才会真正拉开差距

最后，也是最重要的一点：不要给自己设限。 这篇文章里提到的所有东西，都可以去找 AI 聊。哪怕现在做不到的，未来可能也只是时间问题。LLM 在吞噬一切——这不是一句口号，而是正在发生的现实。

写在最后

站在 2026 这个 AI + 机器人的时间节点，某种程度上，未来已来，只是分布不均。

很多人类社会的基层运转逻辑、价值定义都在被彻底重构——以远超上次工业革命的烈度。

匆匆写下此文，也是趁这些内容当下还有一些价值。

想说的远不止这些，但千头万绪，不知从何说起。那便以王菲在今年春晚的歌曲作结吧。

百年长河，不过是你和我在经历着的一刻。
我们从很远的时间就开始存在。

本文基于我此前发布的技术向分享文章《LLM 吞噬一切，我用 AI 长出来的那些工具》重新撰写，面向更广泛的读者群体。如果你对技术细节感兴趣，欢迎阅读原文。
本文草稿由我通过语音输入完成，框架设计与校对由 Claude Code 协作完成。