Codex 的频繁更新让它越来越出圈了,作为一个 AI 自媒体 Worker,我也尝试了很多像 Claude Code 、Codex 、Trae 、Cusor 这样的 AI 编程工具。
但一圈体验下来,Codex 就是比别的 Agent 好用一截。接下来我想聊聊,为什么它这么好用——或者说,为什么它有机会成为 AI 通用助手里第一个真正的杀手级应用。
在前面声明一下,我不是开发者,只是用 Codex 辅助日常工作的普通用户,这篇文章更多是从「通用 AI 助手」的视角出发的,说一些用户能感知到的层面,因为像其他偏技术底层我作为小白也不太懂,编程的部分会讲得少一点,也欢迎大家看到有遗漏的补充不同的意见。
在前文总结,我觉得它的优势主要集中在这三点:
强大的模型能力 + 极高的 token 效率,这是吸引用户进来的关键;
优秀的产品体验设计,包括权限、异步工作流、UI/UX的设计,确保用户在使用过程中感受到的心流体验,用起来顺手。
丰富的插件生态,把用户牢牢留在自己的系统里。

够强,够便宜,够能用
众所周知,Codex 会员订阅,官方是在亏钱的,200 美元的订阅费用如果能够用满,相当于 8600 美元的 API 费用,说奥特曼在做慈善也不为过。
尽管最近 Claude 发布的 Fable 5 确实在自媒体上掀起了一阵狂潮,但其高昂的价格还是劝退了不少开发者用户。在我发文时,Fable5 又因为美国安全政策已经被迫下架,真是让人哭笑不得。

迄今为止,GPT 的 pro 20x 依然是我觉得目前最有性价比的 AI 套餐(前提是你能用完),T0 的模型性能,量大管饱的使用额度,而且 Codex 负责人 Tibo 还时不时地重置 Codex 的限额,收获了不少路人和开发者的好感。
过去几个月,Claude Code 因为额度收紧、价格和使用限制调整,引发了不少开发者的不满。相比之下,Codex 几乎做了完全相反的动作:听取开发者反馈,优化产品体验,并在额度重置、使用规则上给用户更多灵活性。
再加上近期关于 OpenAI 可能进一步降低 token 成本的消息,每一刀,都精准地捅在 Claude 的痛点上。
就我在网上看到的帖子而言,确实不乏大量开发者转投 Codex 阵营的例子,在 OpenAI 最新一期的统计中, 500w 周活的 Codex 用户里,约有 20% 是非开发者群体,增速是开发者群体的3倍,这也意味着很大一部分知识工作者,看中了 Codex 作为通用 AI 助手的潜力,这与 OpenAI 对 Codex 的官方定义高度一致。
Codex 的 AI 自动化能力正在快速出圈,而且 Open AI 现在也明确地将 Codex 定义为 AI 通用助手,这是一个比 Coding 更大的市场。
在模型能力上,大家几乎公认 GPT 5.5 的指令编码能力力压 Opus 4.6 一头,特别是在规定好的原则和指令下,GPT 给人的感觉更像一个勤勤恳恳的工程师,对于指令遵循、细节把控、bug处理的能力是更好的。

我的体验也和这个反馈吻合,我的工作流程中,有几个 skill 常常有超过 400-500 行的规则, 但是大部分情况下 Codex 都能做得很好,GPT 模型加上 Harness 框架本身的约束,最大程度上发挥了 GPT 5.5 自身的实力。
当然, Claude 模型也有自己的优势,在这里只是先不做讨论,后续大家有兴趣的话我考虑单出一期来讲。
极致的性能加上合理的价格,让 Codex 在前期就俘获了不少开发者的心,有了跟 Claude Code 这样强大的对手硬碰硬的底气。
如果只比较模型能力,Claude 和 Codex 当然各有强项。但真正让我觉得 Codex 开始拉开差距的,是它在产品设计上的野心:它不只是想做一个更会写代码的助手,而是试图变成一个能连接工具、管理任务、执行工作流的通用 AI 助手。
真正拉开差距的,也正是这一点。
不打断心流的产品体验
在 Codex 桌面端的图形界面设计和使用体验上,Codex 比 Claude 明显要高出一个身位。
这体现在定位上的不同,Claude 早期的设计更像是一个结对编程的伙伴,而 Codex 更像一个能同时调度多个任务,做后台工作的 AI 工作台。奥特曼在一次采访中就提到,短视频的逻辑是吸引你的注意力,而未来的 AI Agent 则相反,是在尽可能不打扰你的情况下完成任务。
Codex 刚推出不久,就对啰嗦的权限管理做出了很好的约束,用自动判断审查来代替频繁的权限弹出,给新手解决了很多不必要的烦恼,很明显是吸收了 Claude Code 前期遇到的权限弹出过多的教训。

在上下文压缩上,Codex 的工程化也显然是做得更好,上下文压缩几乎没有太多损失,哪怕是处理很长的 session ,依然知道任务的重点是什么。
在 Codex 所有功能里,最让我觉得“好用到离不开”的,是它内置的浏览器和文件查看系统。
过去用 Claude 最大的问题,就是生成的文件需要复制路径,跳出 Claude Code 去查询,不仅效率低,还不能针对专门的点进行修改,一来一回要浪费很多时间。
而 Codex “稳稳地接住了”这个问题,不仅生成的各种文件、excel、pdf、md文档、HTML页面等可以直接在 codex 里面打开,还能用评论功能直接更改,真正做到了指哪打哪。
这个改动从用户角度特别好理解:大多数 AI 生成的文件,都不是一次就能满意的。你一定会反复看、反复改、反复和 AI 沟通。
Codex 把浏览器预览、文件查看和评论修改放在同一个环境里,本质上就是减少用户来回跳转,让你始终停留在 Codex 的工作流里。
尤其是评论模式,对我来说几乎是“用过就回不去”的功能。看到某个 UI 不顺眼、某段文字不对、某个元素要调整,直接在对应位置评论就行,不需要重新描述一大段上下文。

人和 AI 的协作本来就一定是多轮修改,Codex 把这个过程做得足够直观、足够顺手,所以它带来的不是某个小功能的提升,而是整个使用感受的跃迁。
我之前用的很多其他 AI Agent,都因为没有这个功能直观好用,让我转投到Codex的阵营了,就是因为这个功能带来直观的效率提升和使用感受真的是太强烈了。
Codex 在产品功能的设计上,还有很多亮点,我个人很喜欢。
以桌面宠物为例,它并不只是个装饰,而是可以放到前端持续地看到任务运行状态,多个任务则会并排显示,让用户很直观的观察到 Agent 的使用状态,切换不用的应用也能随时看到。

如此多完整的体验整合在一个桌面端应用中,可以看出 Open AI 做产品的能力确实不弱。
甚至可以说,OpenAI 正在定义 AI Agent 这个品类的基本形态和使用方式。在 Codex 出现之前,我没见过任何一个产品能做到如此完整的使用体验。
之后出现的同类工具,几乎都带着 Codex 的影子。Claude Code 确实很强,但在产品使用体验和设计上,特别是面向新手的使用上,还是有明显差距。
大家不要觉得大厂能做到这些是理所当然的,你看看谷歌的 Antigravity 做成什么样子。所以关键不仅是技术力,还在于有没有花心思去好好打磨。
插件系统成了 Codex 的生态壁垒
Codex 能够出圈,我觉得另外很重要的一个原因,在于其丰富的插件系统。
OpenAI 最早并不是只想做聊天机器人。GPT-4 发布后不久,它就推出 Plugins,试图让 ChatGPT 连接外部世界;随后又推出 GPTs 和 GPT Store,让普通人不用写代码也能创建 AI 应用;再到 Apps SDK 。
而现在的 Codex 插件系统 ,可以说是之前尝试的集大成者,它聪明的地方在于,把 skill、App/Connector、MCP、工具说明和权限入口统一等复杂分散的概念统一打包,用户不需要理解底层怎么连接,只需要知道这个插件能帮自己完成什么任务。

在实际使用中,插件的存在让用户可以用 Codex 连接自己平时用的各种生产力工具,比如直接连接到 Gmail 看邮箱甚至操作邮箱内容,连接 Notion 查阅并修改文件等等,操作 Figma 生成原型,俨然已经成为 AI 时代的基础操作平台。
一旦用户习惯了通过 codex 来连接不同的应用,这种习惯就很容易固化下来,通过一个 AI 枢纽,来操作查看不同的应用内容,再也不需要在多个工具中来回反复粘贴。
这种“不跳出Codex也能查看数据”的体验,跟前面讲到的 Codex 内置浏览器和文件查看的逻辑一脉相承,都是为了让用户在一个应用中有完整的生态体验,不打断心流。
除了基础的应用连接和 skill 固定工作流程以外,Open AI 自己上场也做了不少有用的的插件,因为我个人对插件的使用并不算特别的多,这里以 Computer Use 和 Chrome 这两个最出圈的插件来举例。

在我印象中,Computer Use 这个插件就是在 Codex 推出这个功能后有了一次小范围的破圈,用户第一次看到现实版的电脑贾维斯,也是在这个插件上看到的可能。
之前 Agent 想要操作电脑上软件,基本上要通过后端CLI或者 API 接口,但对于一些比较不提供接口的软件或应用就不那么友好了,而 Computer Use 这个插件可以让 Codex 暂时突破 API 或后端的束缚,提供一种类似人点击并去移动窗口操作应用的感觉,配合 skill 的工作流程已经能完成一些相当不错的工作。
Claude 此前也推出了相关的功能,但是做得并不完整,更像是半成品,相比之下,Codex 提供的已经是相对可用的工程产品了。
而 Chrome 插件的推出更是让 Codex 可以真正意义上地接管浏览器,用来翻阅查找对比不同的网站,在实际工作中我喜欢用它来帮我查阅不同网站的资料信息,进行一些截图、字段填写、等等,串联起不同的工作流,使用率也大大提高。
之前 Claude 也做过 Computer Use 这个插件,但是显然没那么成功。
从 Computer Use、Chrome 插件,到各种应用连接器,OpenAI 想在插件这一层做的,不只是给 Codex 增加几个功能,而是搭建一个尽可能完整的工作生态:让你不必频繁跳出 Codex,就能把内容输入、资料查找、表格填写、邮件发送、表单提交、网页测试、文档整理等环节串起来,形成一条连续的工作流。

作为程序员,你可以在这里同时发指令,看到并行跑的项目,读项目,改文件,跑测试,并且接入 GitHub/IDE/终端等;作为非程序员,Codex 把这一切整合到一起,提供了一个工作从输入指令到完整验收的全流程环境,体验是非常完整且不割裂的。
下一代 AI Agent,拼的不只是模型,而是 Harness 能力
最后总结来看,Codex 借助其强大 harness 和模型能力,首先能把事情做对,且提供了一个有竞争力的价格,吸引用户,这是不可动摇的根基。
再借助友好的产品交互和设计,优秀的异步工作流设计打造了一个良好的交互和使用体验,让用户愿意留下,这是锦上添花。
最后借助强大的生态,让用户尽可能多得通过 codex 连接不同的使用工具,牢牢将用户圈在自己的池子里,这是难以复制的生态壁垒。
通过这套组合拳,OpenAI 把 Codex 做成了一个相当有竞争力的 AI Agent 产品:它既能覆盖开发者的代码工作流,也能延伸到内容、设计、数据、办公等更广泛的场景。某种程度上,Codex 已经展示出一种更成熟的 AI Agent 交互范式,应该会成为不少 AI Agent 产品模仿的对象。
或许这个形态就是 Harness 产品的最优解?我不知道,但是很期待国产模型在这方面的表现。
从 Deepseek 开始招聘 harness 产品经理,到 TRAE、Kimi Work、MIniMax Agent、WorkBuddy、Qoder 等产品的出现,大家或多或少地意识到,目前光有一个好模型,还无法发挥自家模型的全部优势。

模型厂商之间的比拼,也会从单一的模型能力转向更多元的 harness 工程,生态壁垒等等,这是一个更残酷的挑战。
我大胆预测,国内会有一两家做出像 Codex 这样的通用 AI Agent 的公司,从移动互联网的路径来看,通用产品历来都是大厂的舒适区,其他厂商则大多会改道垂类 Agent 赛道做差异化竞争,目前来看,腾讯和字节都很有可能坐上这个生态位,那么像智谱、Kimi、Minimax 这样的原生模型厂商有可能吗?我不知道,但很值得期待。
以上就是我对 Codex 为什么好用的全部理解。
作为一个非开发者,这篇文章是从通用 AI 助手的视角出发的——Claude Code 在编程上的强项我没有过多涉及,那也不是我的领域。所以这注定是一篇带有个人偏好的体验分享,不是客观横评。
如果你有不同的使用感受,或者看到了我没观察到的点,欢迎在评论区补充——这会让这篇文章的价值更完整。

