Claude 4 发布，再忙也要看一下都更新了啥

直接在Anthropic官网的Announcements版块可以看到完整的Claude 4介绍。

总结一下官方发出的更新内容，大致有：

新发布两款大模型 Claude Opus 4 和 Claude Sonnet 4
Anthropic 宣称 Claude Opus 4 是目前市面上最强的代码模型（Claude Opus 4 is the world’s best coding model）；Sonnet 4 是 Sonnet 3.7 的提升版，主要是在编程和推理领域能更精准地理解用户意图
两款大模型都是混合架构模型，也就是在实时响应和深度推理之间来回切换，很像人脑的直觉和慢思考推理
Pro、Max、团队和企业套餐的用户都可以使用两款模型的扩展思维功能（extended thinking），而且已经全面登陆 Anthropic API、Amazon Bedrock 和 Vertex AI 平台
Sonnet 4 向免费用户开放
API 定价延续 Opus 和 Sonnet 系列的标准：Opus 4 是每百万 tokens 15（输入）和 75（输出）美元，Sonnet 4 是每百万 tokens 3（输入）和 15（输出）美元

除了这两个模型，还有4个更新：

工具增强型扩展思维（目前还是测试版）：两款模型都能在推理和使用工具间灵活切换
两款模型都支持并行调用工具。而且当用户开放本地文件权限后，Claude 4 会大幅增强记忆能力，可以提取和存储本地文件的关键信息，甚至构建隐性知识体系
Claude 代码助手正式发布（Claude Code is now generally available）。Claude Code 现在支持通过 Github Actions 执行后台任务，能和 VS Code、JetBrains 实现原生集成，直接连接开发环境实时展示代码修改
全新API：Anthropic API 新增了四大能力：代码执行工具（the code execution tool），（MCP 连接器）MCP connector，文件 API 接口（Files API），最长1小时的提示词缓存功能（the ability to cache prompts for up to one hour）

从昨晚发布后我看到很多人在夸 Claude 4 的代码能力，尤其是那个连续7小时的自主开源重构项目。本着对一切保持质疑的态度，我去官网看了一下介绍代码能力部分原文，一些重点内容说的是：

Claude Opus 4 在 SWE-bench 和 Terminal-bench 上分别以72.5%和43.2%的得分领跑行业基准。这个是其宣称全球顶尖编程模型的依据。两份榜单我都去搜了一下，公开的榜单暂时还没有更新；Anthropic 贴出的跑分结果图片如下。网上疯传的7小时连续自主开发项目在原文中是 Rakuten validated its capabilities with a demanding open-source refactor running independently for 7 hours with sustained performance（乐天通过耗时7小时的自主开源重构项目验证了其持续性能优势），具体的项目过程等我答辩结束后研究一下（还有3天就答辩可焦虑死我了）。

但是当我拿经典的七边形+20小球模拟项目测试后，Claude Sonnet 4 生成的代码跑出的效果却是...（对不起 Anthropic，我不是故意要黑你的）

Claude Opus 4 现在用的人太多了一直卡着出不了结果，等过两天我再试试。Sonnet 4 在这个项目上和之前的 Gemini 2.5 Pro 比稍微差一点，但也算领先；所以这次更新对我来说可能更是一次正常的产品迭代，更多其他项目的测试还可以等两天看各位大神们的实测结果。

（好了我真的要去 all in 毕业答辩了，许愿26号顺利通过！