直接在Anthropic官网的Announcements版块可以看到完整的Claude 4介绍。


总结一下官方发出的更新内容,大致有:
- 新发布两款大模型 Claude Opus 4 和 Claude Sonnet 4
- Anthropic 宣称 Claude Opus 4 是目前市面上最强的代码模型(Claude Opus 4 is the world’s best coding model);Sonnet 4 是 Sonnet 3.7 的提升版,主要是在编程和推理领域能更精准地理解用户意图
- 两款大模型都是混合架构模型,也就是在实时响应和深度推理之间来回切换,很像人脑的直觉和慢思考推理
- Pro、Max、团队和企业套餐的用户都可以使用两款模型的扩展思维功能(extended thinking),而且已经全面登陆 Anthropic API、Amazon Bedrock 和 Vertex AI 平台
- Sonnet 4 向免费用户开放
- API 定价延续 Opus 和 Sonnet 系列的标准:Opus 4 是每百万 tokens 15(输入)和 75(输出)美元,Sonnet 4 是每百万 tokens 3(输入)和 15(输出)美元
除了这两个模型,还有4个更新:
- 工具增强型扩展思维(目前还是测试版):两款模型都能在推理和使用工具间灵活切换
- 两款模型都支持并行调用工具。而且当用户开放本地文件权限后,Claude 4 会大幅增强记忆能力,可以提取和存储本地文件的关键信息,甚至构建隐性知识体系
- Claude 代码助手正式发布(Claude Code is now generally available)。Claude Code 现在支持通过 Github Actions 执行后台任务,能和 VS Code、JetBrains 实现原生集成,直接连接开发环境实时展示代码修改
- 全新API:Anthropic API 新增了四大能力:代码执行工具(the code execution tool),(MCP 连接器)MCP connector,文件 API 接口(Files API),最长1小时的提示词缓存功能(the ability to cache prompts for up to one hour)
从昨晚发布后我看到很多人在夸 Claude 4 的代码能力,尤其是那个连续7小时的自主开源重构项目。本着对一切保持质疑的态度,我去官网看了一下介绍代码能力部分原文,一些重点内容说的是:
Claude Opus 4 在 SWE-bench 和 Terminal-bench 上分别以72.5%和43.2%的得分领跑行业基准。这个是其宣称全球顶尖编程模型的依据。 两份榜单我都去搜了一下,公开的榜单暂时还没有更新;Anthropic 贴出的跑分结果图片如下。网上疯传的7小时连续自主开发项目在原文中是 Rakuten validated its capabilities with a demanding open-source refactor running independently for 7 hours with sustained performance(乐天通过耗时7小时的自主开源重构项目验证了其持续性能优势),具体的项目过程等我答辩结束后研究一下(还有3天就答辩可焦虑死我了)。


但是当我拿经典的七边形+20小球模拟项目测试后,Claude Sonnet 4 生成的代码跑出的效果却是...(对不起 Anthropic,我不是故意要黑你的)

Claude Opus 4 现在用的人太多了一直卡着出不了结果,等过两天我再试试。Sonnet 4 在这个项目上和之前的 Gemini 2.5 Pro 比稍微差一点,但也算领先;所以这次更新对我来说可能更是一次正常的产品迭代,更多其他项目的测试还可以等两天看各位大神们的实测结果。
(好了我真的要去 all in 毕业答辩了,许愿26号顺利通过!
