为什么我觉得 Codex 更接近通用 AI Agent 的理想形态

Codex 的频繁更新让它越来越出圈了，作为一个 AI 自媒体 Worker，我也尝试了很多像 Claude Code 、Codex 、Trae 、Cusor 这样的 AI 编程工具。

但一圈体验下来，Codex 就是比别的 Agent 好用一截。接下来我想聊聊，为什么它这么好用——或者说，为什么它有机会成为 AI 通用助手里第一个真正的杀手级应用。

在前面声明一下，我不是开发者，只是用 Codex 辅助日常工作的普通用户，这篇文章更多是从「通用 AI 助手」的视角出发的，说一些用户能感知到的层面，因为像其他偏技术底层我作为小白也不太懂，编程的部分会讲得少一点，也欢迎大家看到有遗漏的补充不同的意见。

在前文总结，我觉得它的优势主要集中在这三点：

强大的模型能力 + 极高的 token 效率，这是吸引用户进来的关键；

优秀的产品体验设计，包括权限、异步工作流、UI/UX的设计，确保用户在使用过程中感受到的心流体验，用起来顺手。

丰富的插件生态，把用户牢牢留在自己的系统里。

够强，够便宜，够能用

众所周知，Codex 会员订阅，官方是在亏钱的，200 美元的订阅费用如果能够用满，相当于 8600 美元的 API 费用，说奥特曼在做慈善也不为过。

尽管最近 Claude 发布的 Fable 5 确实在自媒体上掀起了一阵狂潮，但其高昂的价格还是劝退了不少开发者用户。在我发文时，Fable5 又因为美国安全政策已经被迫下架，真是让人哭笑不得。

迄今为止，GPT 的 pro 20x 依然是我觉得目前最有性价比的 AI 套餐（前提是你能用完），T0 的模型性能，量大管饱的使用额度，而且 Codex 负责人 Tibo 还时不时地重置 Codex 的限额，收获了不少路人和开发者的好感。

过去几个月，Claude Code 因为额度收紧、价格和使用限制调整，引发了不少开发者的不满。相比之下，Codex 几乎做了完全相反的动作：听取开发者反馈，优化产品体验，并在额度重置、使用规则上给用户更多灵活性。

再加上近期关于 OpenAI 可能进一步降低 token 成本的消息，每一刀，都精准地捅在 Claude 的痛点上。

就我在网上看到的帖子而言，确实不乏大量开发者转投 Codex 阵营的例子，在 OpenAI 最新一期的统计中， 500w 周活的 Codex 用户里，约有 20% 是非开发者群体，增速是开发者群体的3倍，这也意味着很大一部分知识工作者，看中了 Codex 作为通用 AI 助手的潜力，这与 OpenAI 对 Codex 的官方定义高度一致。

Codex 的 AI 自动化能力正在快速出圈，而且 Open AI 现在也明确地将 Codex 定义为 AI 通用助手，这是一个比 Coding 更大的市场。

在模型能力上，大家几乎公认 GPT 5.5 的指令编码能力力压 Opus 4.6 一头，特别是在规定好的原则和指令下，GPT 给人的感觉更像一个勤勤恳恳的工程师，对于指令遵循、细节把控、bug处理的能力是更好的。

我的体验也和这个反馈吻合，我的工作流程中，有几个 skill 常常有超过 400-500 行的规则，但是大部分情况下 Codex 都能做得很好，GPT 模型加上 Harness 框架本身的约束，最大程度上发挥了 GPT 5.5 自身的实力。

当然， Claude 模型也有自己的优势，在这里只是先不做讨论，后续大家有兴趣的话我考虑单出一期来讲。

极致的性能加上合理的价格，让 Codex 在前期就俘获了不少开发者的心，有了跟 Claude Code 这样强大的对手硬碰硬的底气。

如果只比较模型能力，Claude 和 Codex 当然各有强项。但真正让我觉得 Codex 开始拉开差距的，是它在产品设计上的野心：它不只是想做一个更会写代码的助手，而是试图变成一个能连接工具、管理任务、执行工作流的通用 AI 助手。

真正拉开差距的，也正是这一点。

不打断心流的产品体验

在 Codex 桌面端的图形界面设计和使用体验上，Codex 比 Claude 明显要高出一个身位。

这体现在定位上的不同，Claude 早期的设计更像是一个结对编程的伙伴，而 Codex 更像一个能同时调度多个任务，做后台工作的 AI 工作台。奥特曼在一次采访中就提到，短视频的逻辑是吸引你的注意力，而未来的 AI Agent 则相反，是在尽可能不打扰你的情况下完成任务。

Codex 刚推出不久，就对啰嗦的权限管理做出了很好的约束，用自动判断审查来代替频繁的权限弹出，给新手解决了很多不必要的烦恼，很明显是吸收了 Claude Code 前期遇到的权限弹出过多的教训。

在上下文压缩上，Codex 的工程化也显然是做得更好，上下文压缩几乎没有太多损失，哪怕是处理很长的 session ，依然知道任务的重点是什么。

在 Codex 所有功能里，最让我觉得“好用到离不开”的，是它内置的浏览器和文件查看系统。

过去用 Claude 最大的问题，就是生成的文件需要复制路径，跳出 Claude Code 去查询，不仅效率低，还不能针对专门的点进行修改，一来一回要浪费很多时间。

而 Codex “稳稳地接住了”这个问题，不仅生成的各种文件、excel、pdf、md文档、HTML页面等可以直接在 codex 里面打开，还能用评论功能直接更改，真正做到了指哪打哪。

这个改动从用户角度特别好理解：大多数 AI 生成的文件，都不是一次就能满意的。你一定会反复看、反复改、反复和 AI 沟通。

Codex 把浏览器预览、文件查看和评论修改放在同一个环境里，本质上就是减少用户来回跳转，让你始终停留在 Codex 的工作流里。

尤其是评论模式，对我来说几乎是“用过就回不去”的功能。看到某个 UI 不顺眼、某段文字不对、某个元素要调整，直接在对应位置评论就行，不需要重新描述一大段上下文。

人和 AI 的协作本来就一定是多轮修改，Codex 把这个过程做得足够直观、足够顺手，所以它带来的不是某个小功能的提升，而是整个使用感受的跃迁。

我之前用的很多其他 AI Agent，都因为没有这个功能直观好用，让我转投到Codex的阵营了，就是因为这个功能带来直观的效率提升和使用感受真的是太强烈了。

Codex 在产品功能的设计上，还有很多亮点，我个人很喜欢。

以桌面宠物为例，它并不只是个装饰，而是可以放到前端持续地看到任务运行状态，多个任务则会并排显示，让用户很直观的观察到 Agent 的使用状态，切换不用的应用也能随时看到。

如此多完整的体验整合在一个桌面端应用中，可以看出 Open AI 做产品的能力确实不弱。

甚至可以说，OpenAI 正在定义 AI Agent 这个品类的基本形态和使用方式。在 Codex 出现之前，我没见过任何一个产品能做到如此完整的使用体验。

之后出现的同类工具，几乎都带着 Codex 的影子。Claude Code 确实很强，但在产品使用体验和设计上，特别是面向新手的使用上，还是有明显差距。

大家不要觉得大厂能做到这些是理所当然的，你看看谷歌的 Antigravity 做成什么样子。所以关键不仅是技术力，还在于有没有花心思去好好打磨。

插件系统成了 Codex 的生态壁垒

Codex 能够出圈，我觉得另外很重要的一个原因，在于其丰富的插件系统。

OpenAI 最早并不是只想做聊天机器人。GPT-4 发布后不久，它就推出 Plugins，试图让 ChatGPT 连接外部世界；随后又推出 GPTs 和 GPT Store，让普通人不用写代码也能创建 AI 应用；再到 Apps SDK 。

而现在的 Codex 插件系统，可以说是之前尝试的集大成者，它聪明的地方在于，把 skill、App/Connector、MCP、工具说明和权限入口统一等复杂分散的概念统一打包，用户不需要理解底层怎么连接，只需要知道这个插件能帮自己完成什么任务。

在实际使用中，插件的存在让用户可以用 Codex 连接自己平时用的各种生产力工具，比如直接连接到 Gmail 看邮箱甚至操作邮箱内容，连接 Notion 查阅并修改文件等等，操作 Figma 生成原型，俨然已经成为 AI 时代的基础操作平台。

一旦用户习惯了通过 codex 来连接不同的应用，这种习惯就很容易固化下来，通过一个 AI 枢纽，来操作查看不同的应用内容，再也不需要在多个工具中来回反复粘贴。

这种“不跳出Codex也能查看数据”的体验，跟前面讲到的 Codex 内置浏览器和文件查看的逻辑一脉相承，都是为了让用户在一个应用中有完整的生态体验，不打断心流。

除了基础的应用连接和 skill 固定工作流程以外，Open AI 自己上场也做了不少有用的的插件，因为我个人对插件的使用并不算特别的多，这里以 Computer Use 和 Chrome 这两个最出圈的插件来举例。

在我印象中，Computer Use 这个插件就是在 Codex 推出这个功能后有了一次小范围的破圈，用户第一次看到现实版的电脑贾维斯，也是在这个插件上看到的可能。

之前 Agent 想要操作电脑上软件，基本上要通过后端CLI或者 API 接口，但对于一些比较不提供接口的软件或应用就不那么友好了，而 Computer Use 这个插件可以让 Codex 暂时突破 API 或后端的束缚，提供一种类似人点击并去移动窗口操作应用的感觉，配合 skill 的工作流程已经能完成一些相当不错的工作。

Claude 此前也推出了相关的功能，但是做得并不完整，更像是半成品，相比之下，Codex 提供的已经是相对可用的工程产品了。

而 Chrome 插件的推出更是让 Codex 可以真正意义上地接管浏览器，用来翻阅查找对比不同的网站，在实际工作中我喜欢用它来帮我查阅不同网站的资料信息，进行一些截图、字段填写、等等，串联起不同的工作流，使用率也大大提高。

之前 Claude 也做过 Computer Use 这个插件，但是显然没那么成功。

从 Computer Use、Chrome 插件，到各种应用连接器，OpenAI 想在插件这一层做的，不只是给 Codex 增加几个功能，而是搭建一个尽可能完整的工作生态：让你不必频繁跳出 Codex，就能把内容输入、资料查找、表格填写、邮件发送、表单提交、网页测试、文档整理等环节串起来，形成一条连续的工作流。

作为程序员，你可以在这里同时发指令，看到并行跑的项目，读项目，改文件，跑测试，并且接入 GitHub/IDE/终端等；作为非程序员，Codex 把这一切整合到一起，提供了一个工作从输入指令到完整验收的全流程环境，体验是非常完整且不割裂的。

下一代 AI Agent，拼的不只是模型，而是 Harness 能力

最后总结来看，Codex 借助其强大 harness 和模型能力，首先能把事情做对，且提供了一个有竞争力的价格，吸引用户，这是不可动摇的根基。

再借助友好的产品交互和设计，优秀的异步工作流设计打造了一个良好的交互和使用体验，让用户愿意留下，这是锦上添花。

最后借助强大的生态，让用户尽可能多得通过 codex 连接不同的使用工具，牢牢将用户圈在自己的池子里，这是难以复制的生态壁垒。

通过这套组合拳，OpenAI 把 Codex 做成了一个相当有竞争力的 AI Agent 产品：它既能覆盖开发者的代码工作流，也能延伸到内容、设计、数据、办公等更广泛的场景。某种程度上，Codex 已经展示出一种更成熟的 AI Agent 交互范式，应该会成为不少 AI Agent 产品模仿的对象。

或许这个形态就是 Harness 产品的最优解？我不知道，但是很期待国产模型在这方面的表现。

从 Deepseek 开始招聘 harness 产品经理，到 TRAE、Kimi Work、MIniMax Agent、WorkBuddy、Qoder 等产品的出现，大家或多或少地意识到，目前光有一个好模型，还无法发挥自家模型的全部优势。

模型厂商之间的比拼，也会从单一的模型能力转向更多元的 harness 工程，生态壁垒等等，这是一个更残酷的挑战。

我大胆预测，国内会有一两家做出像 Codex 这样的通用 AI Agent 的公司，从移动互联网的路径来看，通用产品历来都是大厂的舒适区，其他厂商则大多会改道垂类 Agent 赛道做差异化竞争，目前来看，腾讯和字节都很有可能坐上这个生态位，那么像智谱、Kimi、Minimax 这样的原生模型厂商有可能吗？我不知道，但很值得期待。

以上就是我对 Codex 为什么好用的全部理解。

作为一个非开发者，这篇文章是从通用 AI 助手的视角出发的——Claude Code 在编程上的强项我没有过多涉及，那也不是我的领域。所以这注定是一篇带有个人偏好的体验分享，不是客观横评。

如果你有不同的使用感受，或者看到了我没观察到的点，欢迎在评论区补充——这会让这篇文章的价值更完整。