网易首页 > 网易号 > 正文 申请入驻

Claude3 发布!全面超越 GPT-4

0
分享至

刚刚,Anthropic 宣布推出 Claude 3模型系列,该系列在广泛的认知任务中树立了新的行业基准。该系列包括三种最先进的模型,按能力递增排列:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续模型都提供了越来越强大的性能,允许用户为其特定应用程序选择最佳的智能、速度和成本平衡。

Opus 和 Sonnet 现已可在 claude.ai 和 Claude API 中使用,后者目前已在159个国家/地区全面提供。Haiku 将很快推出。

Claude 3模型系列

智能的新标准

Opus,Anthropic 最智能的模型,在大多数常见的 AI 系统评估基准上表现优异,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基本数学(GSM8K)等。它在复杂任务上表现出接近人类水平的理解和流畅度,引领着通用智能的前沿。

所有 Claude 3模型在分析和预测、细致的内容创建、代码生成以及使用西班牙语、日语和法语等非英语语言进行对话方面都显示出增强的能力。

以下是 Claude 3模型与 Anthropic 同行在多个能力基准 [1] 上的比较:

近乎即时的结果

Claude 3模型可以支持即时客户聊天、自动完成和数据提取任务,其中响应必须是即时的和实时的。

在其智能类别中,Haiku 是市场上速度最快、性价比最高的模型。它可以在不到三秒的时间内阅读一篇信息密集的 arXiv 研究论文(~10k 个标记),其中包含图表和图形。随着推出,Anthropic 预计性能还会进一步提高。

对于绝大多数工作负载而言,Sonnet 比 Claude 2和 Claude 2.1快2倍以上,并且具有更高水平的智能。它擅长于需要快速响应的任务,如知识检索或销售自动化。Opus 的速度与 Claude 2和2.1相似,但具有更高水平的智能。

强大的视觉能力

Claude 3模型具有与其他领先模型相当的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。Anthropic 特别激动地向企业客户提供这种新的模态,其中一些客户的知识库中有多达50%的内容以各种格式编码,例如PDF、流程图或演示幻灯片。

拒绝减少

以前的 Claude 模型经常做出不必要的拒绝,表明缺乏上下文理解。在这方面 Anthropic 已经取得了实质性进展:Opus、Sonnet 和 Haiku 拒绝回答那些接近系统警戒线的提示的可能性明显降低,比以前的模型更少。如下图所示,Claude 3模型对请求有更加细致入微的理解,识别出真正的危害,并且拒绝回答无害提示的频率明显降低。

提高的准确性

各种规模的企业都依赖于 Anthropic 的模型为他们的客户服务,这使得 Anthropic 的模型输出在规模上保持高准确性至关重要。为了评估这一点,Anthropic 使用了一套大量的复杂、事实性问题,针对当前模型的已知弱点。Anthropic 将响应分类为正确答案、错误答案(或幻觉)和不确定性的承认,其中模型表示不知道答案而不是提供错误信息。与 Claude 2.1相比,Opus 在这些具有挑战性的开放式问题上的准确性(或正确答案)实现了两倍的提高,同时还减少了错误答案的水平。

除了产生更可信的响应外,Anthropic 很快将在 Anthropic 的 Claude 3模型中启用引用,以便它们可以指向参考资料中的精确句子来验证其答案。

长上下文和几乎完美的召回

Claude 3系列模型在推出时将提供一个20万标记的上下文窗口。但是,所有三个模型都能够接受超过100万标记的输入,Anthropic 可能会将此提供给需要增强处理能力的特定客户。

为了有效地处理长上下文提示,模型需要强大的召回能力。‘Needle In A Haystack’(NIAH)评估测量模型从大量数据语料库中准确召回信息的能力。Anthropic 通过对每个提示使用30个随机针/问题对之一,并在多样化的众包语料库文档上进行测试,增强了这一基准的稳健性。

Claude 3 Opus 不仅实现了近乎完美的召回,超过了99%的准确性,而且在某些情况下,它甚至通过识别“针”句似乎是人为插入到原始文本中的来识别评估本身的局限性。

负责任的设计

Anthropic 开发了 Claude 3系列模型,使其在能力的同时也具备了可信赖性。Anthropic 有几个专门的团队跟踪和减轻各种风险,从错误信息和CSAM到生物滥用、选举干扰和自主复制技能等。Anthropic 不断开发方法,例如《宪法 AI 》,以提高 Anthropic 模型的安全性和透明度,并调整 Anthropic 的模型以减轻由新模态可能引发的隐私问题。

解决越来越复杂模型中的偏见是一项持续努力,Anthropic 在这个新版本中取得了进展。如模型卡所示,根据问答偏见基准(BBQ),Claude 3显示出比 Anthropic 先前的模型更少的偏见。Anthropic 始终致力于推进减少偏见并促进模型更大中立性的技术,确保它们不偏向于任何特定的党派立场。

虽然与以前的模型相比,Claude 3模型系列在生物知识、网络相关知识和自主性方面有所进步,但根据 Anthropic 的负责任扩展政策,它仍然处于AI安全等级2(ASL-2)。Anthropic 的红队评估(与 Anthropic 的白宫承诺和2023年美国行政命令一致进行)得出结论,目前模型对灾难性风险的潜在性可以忽略不计。Anthropic 将继续密切监视未来的模型,以评估它们与ASL-3门槛的接近程度。Claude 3模型卡中提供了更多安全细节。

更易于使用

Claude 3模型在遵循复杂的多步指令方面表现更好。它们特别擅长遵循品牌语音和响应指南,并开发用户可以信赖的面向客户的体验。此外,Claude 3模型在生成流行结构化输出方面表现更佳,例如JSON格式——这样就更容易对Claude进行指导,用于自然语言分类和情感分析等用例。

模型细节

Claude 3 Opus 是 Anthropic 最智能的模型,在高度复杂的任务上表现出市场最佳性能。它可以在开放式提示和未见情况下出色地流畅进行,并具有类似人类的理解能力。Opus 向 Anthropic 展示了生成式 AI 所能实现的极限。

Claude 3 Sonnet 在智能和速度之间取得了理想的平衡——特别是对于企业工作负载而言。与同行相比,它以较低的成本提供强大的性能,并且专为大规模AI部署的高耐用性而设计。

Claude 3 Haiku 是 Anthropic 最快、最紧凑的模型,可实现几乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建无缝的 AI 体验,模拟人类交互。

模型可用性

Opus 和 Sonnet 今天就可以在 Anthropic 的 API 中使用,该 API 现在已经普遍可用,开发人员可以立即注册并开始使用这些模型。Haiku 将很快推出。Sonnet 正在为 claude.ai 上的免费体验提供支持,而 Opus 则适用于 Claude Pro 订阅用户。

Sonnet 也可以通过亚马逊的 Bedrock 和 Google Cloud 的 Vertex AI 模型花园进行使用,Opus 和 Haiku 很快也将推出。

更智能、更快、更安全

Anthropic 认为模型智能远未达到极限,并计划在接下来的几个月内频繁更新 Claude 3模型系列。Anthropic 还很高兴地发布了一系列功能,以增强 Anthropic 模型的能力,特别是针对企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为 REPL)以及更先进的代理能力等。

PS:本号也开启了订阅专栏 ,内容涵盖一线投资人以及海外独角兽公司 CXO 的最新洞察与对谈。

责任编辑:郜雪丹_NT5097

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比亚迪之后,又一家主机厂希望供应商降价?业内人士称“明年价格战已开始酝酿”

比亚迪之后,又一家主机厂希望供应商降价?业内人士称“明年价格战已开始酝酿”

每日经济新闻
2024-11-28 17:57:08
美籍健身教练自曝与1242名中国年轻漂亮女孩交往,并且有视频为证

美籍健身教练自曝与1242名中国年轻漂亮女孩交往,并且有视频为证

真实故事汇
2024-11-25 15:12:16
被封杀4年的中国APP,印度政府还在用

被封杀4年的中国APP,印度政府还在用

观察者网
2024-11-29 11:38:07
俾路支恐怖分子傻眼了吧?直接被龙哥上了一堂现代化战争课。

俾路支恐怖分子傻眼了吧?直接被龙哥上了一堂现代化战争课。

现代小青青慕慕
2024-11-30 00:06:06
泽连斯基:北约应让“未被占领土”入约 以结束热战阶段

泽连斯基:北约应让“未被占领土”入约 以结束热战阶段

财联社
2024-11-30 07:14:33
叙反对派武装近10年来首次攻入阿勒颇,政府军加强行动封锁道路

叙反对派武装近10年来首次攻入阿勒颇,政府军加强行动封锁道路

澎湃新闻
2024-11-30 10:00:28
曼联太子爷耍横:故意将手套扔地上,让同事去捡 球迷怒批:人渣

曼联太子爷耍横:故意将手套扔地上,让同事去捡 球迷怒批:人渣

风过乡
2024-11-30 10:13:39
不是迷信!明日十一月初一,最不能做的“4件事”,别忘告诉家人

不是迷信!明日十一月初一,最不能做的“4件事”,别忘告诉家人

神牛
2024-11-30 07:36:30
太难了!曝长沙邮政门口多人聚集高喊讨薪,有人称一年被欠8万元

太难了!曝长沙邮政门口多人聚集高喊讨薪,有人称一年被欠8万元

小人物看尽人间百态
2024-11-29 21:41:28
欧冠输球仅1天!皇马变天,解雇安帅,52岁传奇接手,激活姆巴佩

欧冠输球仅1天!皇马变天,解雇安帅,52岁传奇接手,激活姆巴佩

绿茵舞着
2024-11-29 23:32:13
武汉对二孩、三孩家庭奖补6万、12万,网友:这个补贴比例很高了

武汉对二孩、三孩家庭奖补6万、12万,网友:这个补贴比例很高了

火山诗话
2024-11-30 05:32:29
传“江西年度最恐怖彩礼返还”,女方泡夜店搂人跳舞,判决19万彩礼退6万5

传“江西年度最恐怖彩礼返还”,女方泡夜店搂人跳舞,判决19万彩礼退6万5

小星球探索
2024-11-29 13:35:25
汪峰官宣新恋情,本以为森林北才是赢家,谁料马伊琍成最大获益人

汪峰官宣新恋情,本以为森林北才是赢家,谁料马伊琍成最大获益人

十二生肖运势分析
2024-11-30 08:50:03
2025春晚进入倒计时,主题已官宣,赵本山、宋丹丹回归呼声高

2025春晚进入倒计时,主题已官宣,赵本山、宋丹丹回归呼声高

追风小狗
2024-11-29 16:20:24
网传东莞一家注册4.2亿元企业发函,要求供应商2025年全面降价20%

网传东莞一家注册4.2亿元企业发函,要求供应商2025年全面降价20%

火山诗话
2024-11-29 20:33:31
刘洋大校再添一星,最牛女性航天员,晋升女将军已经在路上

刘洋大校再添一星,最牛女性航天员,晋升女将军已经在路上

Thurman在昆明
2024-11-30 08:35:41
惋惜!北京一男子因吃驴打滚窒息身亡,网友:抛弃这种垃圾小吃

惋惜!北京一男子因吃驴打滚窒息身亡,网友:抛弃这种垃圾小吃

小淇言说
2024-11-29 23:12:45
震惊!网传特斯拉降价后,有车主天天去4S店里搬水,表示很难受

震惊!网传特斯拉降价后,有车主天天去4S店里搬水,表示很难受

火山诗话
2024-11-29 07:34:51
女子将两斤泥鳅倒进下水道疏通管道 有点效果 泥鳅们还在努力

女子将两斤泥鳅倒进下水道疏通管道 有点效果 泥鳅们还在努力

闪电新闻
2024-11-21 11:59:18
继卫生巾之后,粑粑柑也塌房了!网友:难道今年我就非死不可吗?

继卫生巾之后,粑粑柑也塌房了!网友:难道今年我就非死不可吗?

王大健美食日常
2024-11-29 18:17:24
2024-11-30 10:55:00
有新Newin
有新Newin
分享前沿科技资讯与商业洞察
359文章数 28关注度
往期回顾 全部

科技要闻

"AGI不是大杀器,是普通人每天在用的产品"

头条要闻

上海一业主将价值20万自行车放楼道 结果车"消失"了

头条要闻

上海一业主将价值20万自行车放楼道 结果车"消失"了

体育要闻

穆雷与德约科维奇能凑成王炸组合吗?

娱乐要闻

一夜爆火的丁真,不进娱乐圈他后悔吗

财经要闻

雪松爆雷前实控人张劲在香港抛售房产

汽车要闻

比亚迪方程豹豹8推送首次OTA 新增暴力模式

态度原创

艺术
家居
数码
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

家居要闻

现代设计感 温馨两居室

数码要闻

iQOO Neo10系列发布:天玑9400+超声波3D指纹 到手价2299元起

公开课

一块玻璃,如何改变人类世界?

军事要闻

针对朝鲜半岛 韩美核咨商小组兵棋推演将举行

无障碍浏览 进入关怀版