网易首页 > 网易号 > 正文 申请入驻

全球首个混合推理模型:Claude 3.7 Sonnet,真实编码力压一切对手

0
分享至


机器之心报道

编辑:杜伟

就在昨晚,Anthropic 要发新模型的消息开始在 AI 社区广泛发酵,不过并不是期待中的 Claude 4.0,而是 3.7 Sonnet 版本。

图源:https://x.com/btibor91/status/1893970824484581825

今天凌晨,Anthropic 的新旗舰模型如约而至,正式发布了其迄今为止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet

Claude 3.7 Sonnet 可以产生近乎即时的响应或者向用户展示扩展的、逐步的思考。按照 Anthropic 的说法,「一个模型,两种思考方式」(One model, two ways to think.),即标准和扩展思考模式。另外 API 用户还可以对模型的思考时间进行细粒度控制。

在发布 Claude 3.7 Sonnet 之外,Anthropic 还推出了用于智能编码的命令行工具 Claude Code。它目前作为有限的研究预览版本使用,使开发人员能够直接从他们的终端将大量工程任务委托给 Claude。

在编码方面,Anthropic 还改进了 Claude.ai 上的编码体验,其 GitHub 集成现已在所有 Claude 计划中提供,使开发人员能够将他们的代码存储库直接连接到 Claude。通过更深入地了解个人、工作和开源项目,Claude 将成为用户在 GitHub 项目中修复错误、开发功能和构建文档的更强大合作伙伴。

因此,得益于编码和前端 web 开发方面的功能与改进,Claude 3.7 Sonnet 成为 Anthropic 迄今为止最好的编码模型

目前,新模型 Claude 3.7 Sonnet 可以通过所有 Claude 计划(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用。除了免费用户之外,所有其他用户均可体验扩展思考模式。

在标准和扩展思考模式下,Claude 3.7 Sonnet 的价格与其前代(Claude 3.5 Sonnet)相同,每百万输入 token 3 美元,每百万输出 token 15 美元(包括思考 token)

正如一位网友所评价的那样,「Anthropic 的每次发布都能让人微笑并感到兴奋!」

最强 Claude 3.7 Sonnet

让前沿推理触手可及

Anthropic 表示,其开发 Claude 3.7 Sonnet 的理念与市面上其他推理模型不同。正如人类使用单个大脑进行快速反应和深度思考一样,Anthropic 认为推理应该体现前沿模型的综合能力,而不再是完全独立的模型。这种统一的方法将为用户创造更无缝的体验。

遵循上述理念,Claude 3.7 Sonnet 形成了很多独有优势。

首先,Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型。你可以选择何时希望模型正常回答,何时希望它在回答之前思考更长时间。在标准模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升级版。在扩展思维模式下,它会在回答之前进行自我反思,从而提高其在数学、物理、指令遵循、编码和许多其他任务上的表现。Anthropic 发现,两种模式下,模型的提示词工作方式类似。

其次,当通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考预算。你可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值,其输出限制为 128K 个 token。这允许用户在速度(和成本)和答案质量之间进行权衡。

第三,在开发自家的推理模型时,Anthropic 对数学和计算机科学竞赛问题的优化较少,而是将重点转向更能反映企业实际使用 LLM 方式的现实任务

我们来看下 Claude 3.7 Sonnet 的基准测试结果,其中在 SWE-bench Verified(评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集)上,Claude 3.7 Sonnet 实现了 SOTA 性能,远远超过了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1

在 TAU-bench(评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台)上,Claude 3.7 Sonnet 同样实现了 SOTA 性能,超过了 Claude 3.5 Sonnet 和 OpenAI 的 o1。

Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码方面表现出色,扩展思考在数学和科学方面实现了显著提升,但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。

可以看到,对于 Claude Sonnet 3.7,Anthropic 将重点放在了编码能力上,其他领域似乎并不特别重要。很明显,Anthropic 想将 Sonnet 定位为编码 AI(已经是了)。

图源:https://x.com/kimmonismus/status/1894098443859079609

另外,除了传统基准之外,Claude 3.7 Sonnet 甚至可以在宝可梦(Pokémon)游戏测试中超越所有以前的模型。

Anthropic 已经与合作伙伴进行了非常多的早期测试,证明了 Claude 在编码能力方面的全面领先地位。

其中,Cursor 指出 Claude 再次成为现实世界编码任务的最佳选择,从处理复杂代码库到高级工具使用都有显著改进。Cognition 发现,Claude 在规划代码更改和处理全栈更新方面远远优于任何其他模型。

Vercel 强调了 Claude 在复杂代理工作流程中的出色精确度,而 Replit 已成功部署 Claude 从头开始构建复杂的 Web 应用程序和仪表板,而其他模型则停滞不前。在 Canva 的评估中,Claude 始终如一地编写出具有卓越设计品味且可投入生产的代码,并大幅减少了错误。

Claude Code

智能编码让开发更便捷

自 2024 年 6 月以来,Sonnet 一直是全球开发者的首选模型。今天,Anthropic 推出了其首款智能编码工具 Claude Code(有限的研究预览版本),进一步增强开发者的能力

在功能上,Claude Code 是一个积极的协作者,可以搜索和阅读代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub,以及使用命令行工具。

我们来看下它的几个使用示例,比如解释项目结构:

编写测试:

构建应用:

虽然是一款早期产品,Claude Code 对于 Anthropic 团队来说已经变得不可或缺,尤其是用于测试驱动开发、调试复杂问题和大规模重构。

在早期测试中,Claude Code 可以一次性完成通常需要 45 分钟以上手动工作才能完成的任务,从而减少了开发时间和开销

在接下来的几周内,Anthropic 计划根据自身的使用情况不断改进 Claude Code,包括增强工具调用可靠性、增加对长时间运行命令的支持、改进应用内渲染以及扩展 Claude 对其功能的理解。

Claude Code 的目标是更好地了解开发人员如何使用 Claude 进行编码,以便为未来的模型改进提供参考。通过加入此预览版,用户将可以使用 Anthropic 用于构建和改进 Claude 的相同强大工具。

负责任构建与未来展望

Anthropic 对 Claude 3.7 Sonnet 进行了广泛的测试和评估,并与外部专家合作,以确保其符合其安全性和可靠性标准。

同时,Claude 3.7 Sonnet 还对有害请求和良性请求进行了更细微的区分。与前代相比,不必要的拒绝减少了 45%。

CoT 忠实度评估结果。

在 Claude 3.7 Sonnet 的模型卡中,Anthropic 详细细分了自身的负责任扩展策略评估以及其他 AI 实验室和研究人员应用于他们工作的情况。另外,模型卡中还概览了计算机使用带来的新风险,特别是快速注入攻击,并解释了 Anthropic 如何评估这些漏洞并训练 Claude 抵御和缓解这些漏洞。

此外,模型卡中还研究了推理模型的潜在安全优势,以及理解模型如何做出决策、模型推理是否真正值得信赖和可靠。

系统卡地址:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf

对于此次发布的 Claude 3.7 Sonnet 和 Claude Code,Anthropic 认为它们标志着 AI 系统迈出了重要一步,开始向着真正增强人类能力迈进。凭借着深度推理、自主工作和有效协作的能力,我们更接近了 AI 丰富和扩展人类能力的未来。

Anthropic 还展示了一个真正令人兴奋的发展图景,希望在 2025 年 Claude 可以成为独立自主工作数小时的专家级智能体;到 2027 年,希望 Claude 能够解决人工团队花费数年才能解决的挑战性难题。

博客地址:https://www.anthropic.com/news/claude-3-7-sonnet

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武契奇夫人到上海轻纺面料市场定制西服,老板娘:我们用英语交流,她点名要用国产羊毛

武契奇夫人到上海轻纺面料市场定制西服,老板娘:我们用英语交流,她点名要用国产羊毛

潇湘晨报
2026-05-27 18:52:24
法拉利首款电车遭前主席抨击:把跃马标志去掉,中国企业都不会借鉴这个设计

法拉利首款电车遭前主席抨击:把跃马标志去掉,中国企业都不会借鉴这个设计

金融界
2026-05-27 15:55:24
男子将窗帘系在身上从六层下落,窗帘断裂后坠亡 保险公司被判赔保险金10万余元

男子将窗帘系在身上从六层下落,窗帘断裂后坠亡 保险公司被判赔保险金10万余元

红星新闻
2026-05-27 20:17:40
国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

垚垚分享健康
2026-05-27 11:20:11
真假难辨!多位媒体人曝怀特塞德缺席G1因兴奋剂问题 等官方澄清

真假难辨!多位媒体人曝怀特塞德缺席G1因兴奋剂问题 等官方澄清

醉卧浮生
2026-05-27 16:41:55
拼多多美股跌幅扩大至12%

拼多多美股跌幅扩大至12%

澎湃新闻
2026-05-27 22:32:08
官媒俄乌网用“人渣败类”回怼中国网民批评

官媒俄乌网用“人渣败类”回怼中国网民批评

辇毂
2026-05-27 22:11:11
余华谈“草台班子”,全网刷屏!张雪机车力挺,影视飓风、罗永浩留言回应,于正发文“我听着就想笑”

余华谈“草台班子”,全网刷屏!张雪机车力挺,影视飓风、罗永浩留言回应,于正发文“我听着就想笑”

鲁中晨报
2026-05-27 16:36:15
全新一代问界M9正式上市!余承东:我不是很谦虚 它是地球上性能最强SUV

全新一代问界M9正式上市!余承东:我不是很谦虚 它是地球上性能最强SUV

快科技
2026-05-27 17:10:27
雷军回应武契奇说小米车很漂亮但买不起:总统先生 YU7标准版定价23.35万

雷军回应武契奇说小米车很漂亮但买不起:总统先生 YU7标准版定价23.35万

快科技
2026-05-27 01:13:07
荷兰世界杯大名单:范戴克领衔,德容、德佩在列,弗林蓬落选

荷兰世界杯大名单:范戴克领衔,德容、德佩在列,弗林蓬落选

懂球帝
2026-05-27 20:28:41
每秒可击落30多只蚊子 众筹超250万美元 中国造“激光灭蚊神器”海外爆单

每秒可击落30多只蚊子 众筹超250万美元 中国造“激光灭蚊神器”海外爆单

封面新闻
2026-05-27 15:24:09
国际原油短线下挫 美油大跌超5%

国际原油短线下挫 美油大跌超5%

财联社
2026-05-27 20:24:53
徐帆离婚后首次回应,冯小刚近况曝光

徐帆离婚后首次回应,冯小刚近况曝光

晓肂爱八卦
2026-05-27 14:16:28
湖北大娘硬讹收割机后续!警方介入,当地人再曝恶行,根本不敢惹

湖北大娘硬讹收割机后续!警方介入,当地人再曝恶行,根本不敢惹

米果说识
2026-05-27 14:27:31
深圳南坪快速路突发火情,交警通报

深圳南坪快速路突发火情,交警通报

界面新闻
2026-05-27 18:36:36
黑海舰队航空总部遭摧毁!曝乌克兰地面部队强登克里米亚

黑海舰队航空总部遭摧毁!曝乌克兰地面部队强登克里米亚

项鹏飞
2026-05-27 20:21:40
为什么往死里扫黄?网友分享太真实了,一次说透

为什么往死里扫黄?网友分享太真实了,一次说透

另子维爱读史
2026-05-27 20:16:03
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

天马幸福的人生
2026-05-26 11:05:02
亏损超62亿,一代空调大王爆雷!

亏损超62亿,一代空调大王爆雷!

蒋东文
2026-05-26 21:05:52
2026-05-28 00:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13097文章数 142653关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

房产
艺术
亲子
公开课
军事航空

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

艺术要闻

这个夏天去苏州过几天清闲安逸的日子

亲子要闻

韩国孩子4岁就要考英语幼儿园是家长停不下来的教育焦虑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以军称已打死哈马斯新任军事领导人

无障碍浏览 进入关怀版