网易首页 > 网易科技 > 网易科技 > 正文

Claude 3为何能媲美GPT-4?

0
分享至

出品丨网易科技《态度》

作者丨赵芙瑶

编辑丨丁广胜

GPT-4劲敌来了?“杀手锏”总是来的静悄悄,Anthropic 默默发布了Claude3,在业界引起了一次“大地震”。

Claude 3为何能媲美GPT-4?

Anthropic声称,此次发布的模型在一系列认知任务中设定了新的行业基准,甚至在某些情况下达到了“接近人类”水平。如果是其它模型这样“自吹自擂”,怕是早就被喷的体无完肤了,但是Anthropic的创始团队来源于OpenAI,2021年因观念不和才退出公司并自立门户,可以说是OpenAI的最强对手之一了,实力不容小觑。

Anthropic 这次一口气发布了三个人工智能语言模型,这三个模型的复杂性和参数数量排序依次为:Claude 3 Haiku,Claude 3 Sonnet和Claude 3 Opus。

其中Haiku响应速度快、成本最低,包含多模态能力;Sonnet的成本和性能较为平衡,适合有预算使用AI,但预算不多的群体。Opus拥有接近人类的理解能力,适用于需要高度智能和复杂任务处理的场景,想要使用Opus的话需要订阅“Claude Pro”服务,每月收费20美元。

Claude的三个模型都具有20万标记上下文窗口,而GPT-4 Turbo的上下文窗口为12.8万,也就是说,Claude一次性能处理的文本量是远远高于GPT的,同时,它也提供API给开发者使用。

我们再来看看Claude官网透露的最新价格。其中MTok表示百万Token,Opus每100万条token收费15美元,相比之下,GPT-4 Turbo模型的每百万token的收费仅为10美元。不过,Haiku的价格低于GPT3.5,可以说使用Claude的话,丰俭由人了。

依靠合成数据 安全性强于GPT?

2023年3月,Claude问世,7月Claude 2发布,但是彼时并未引起太大的水花。因为每次,Anthropic在性能方面都略微落后于OpenAI的最佳模型,但在上下文窗口长度方面超过OpenAI。随着Claude 3的发布,Anthropic的性能或许可以与OpenAI一较高下了。

根据Anthropic的说法,Claude 3 Opus在10个AI基准测试中超过了GPT-4,包括MMLU(本科水平知识)、GSM8K(小学数学)、HumanEval(编码)以及名为HellaSwag(常识)的基准测试。其中一些测试只是“险胜”,例如在MMLU的五次试验中,Opus以86.8%战胜了GPT-4的86.4%,而有些测试则是“赢很大”,例如在HumanEval上,Opus的90.7%超过了GPT-4的67.0%。但这到底对用户来说意味着什么,还很难界定。

“一如既往,应该对LLM基准持一些怀疑态度。”AI研究员Simon Willison公开评价道。“模型在基准测试中的表现并不能告诉你模型在使用中‘感觉’如何。但这仍然是一件大事—没有其他模型在一系列广泛使用的基准测试中击败GPT-4。”

与其前身相比,Claude 3模型还具有增强的视觉能力,使其能够处理照片、图表和图解等视觉格式,类似于ChatGPT的DALLE-3和Google的Gemini。

除此之外,Anthropic在Claude 3通过在训练过程中使用合成数据实现其能力提升,也就是说,Claude 3的原创能力没有那么强。

据外媒实测,Opus在能力上类似于ChatGPT-4,它不能编写原创的笑话(所有笑话似乎都来自网络),在总结信息和以各种风格撰写文本方面表现得相当不错,对于逻辑分析单词问题也表现得相当好,而且幻觉似乎确实相对较低(但在询问一些更为晦涩的话题时,还是看到了一些错误的回答)。

Anthropic在安全性方面可以说做足了功课,也正是因为重视AI安全,Anthropic当年才与OpenAI分家。Anthropic表示将确保安全措施与AI性能的进步保持同步,并且Claude 3模型“目前几乎没有潜在的灾难风险”。Anthropic也一直在进行红队测试,并且制定了一套框架,用于评估和减轻 AI 模型可能带来的潜在风险,路线比GPT更保守。

支持图像输入 努力避免人工智能偏见

Anthropic此次推出的三个模型都支持图像输入,这是一项需求量很大的功能,特别是对于图像中的文本识别等应用。许多企业需要从图像、文档、图表和图表中提取信息的用例,Claude 3可以来帮忙了。

“许多客户的数据要么是高度非结构化的,要么是某种视觉格式的,仅仅必须手动复制这些信息才能使其与生成式人工智能工具交互的过程就相当麻烦了。”Anthropic 总裁兼联合创始人 Daniela 道出了如今用户的痛点。

此前,人们发现谷歌的Gemini在生成图像时存在一些BUG。例如,用户让Gemini生成过歧视性照片。谷歌的回应是禁用 Gemini 的图像生成功能并发表道歉,称正在努力进行改善。但是有专家表示,这种情况说明了人工智能偏见依然存在。

导致人工智能存在偏见的原因很简单,主要是因为训练数据偏见、算法偏见、特征选择偏见和标签偏见,也有可能是因为数据缺乏多样性。

Daniela也承认,用目前的方法可能无法实现完全无偏见的人工智能:“我认为,创建一个完全中立的生成式人工智能工具几乎是不可能的,不仅在技术上,而且还因为并不是每个人都同意什么是中立。”

那么Anthropic如何减少人工智能偏见带来的影响呢? 其战略的一部分是“宪法人工智能”,也就是说模型经过调整以遵循“宪法”中定义的原则。2023年4月,Anthropic开源宪法人工智能(Constitutional AI)引起了大范围讨论,Anthropic一直都在争做“遵纪守法”的AI。

微软携手OpenAI Anthropic“背靠”亚马逊?

背靠大树好乘凉,Anthropic也深谙此理,Claude 3发布后,亚马逊也透露了更多和Anthropic合作的细节。

亚马逊AWS宣布,Anthropic的Claude 3系列最先进模型将在Amazon Bedrock上提供,增强了各种规模的客户快速测试、构建和部署生成人工智能(AI)应用程序的能力。Claude 3模型具有高级视觉能力,能够处理各种数据格式,分析图像数据,满足客户对更好理解图表、图表、技术图解、照片等视觉资产的需求。

Amazon Bedrock的客户,包括ADP、Intuit、Pfizer等,已经在构建生成AI应用程序方面使用Anthropic的Claude技术,并将在未来几周内获得Claude 3模型。Anthropic的Claude 3模型扩展了Amazon Bedrock的生成AI模型范围,提供了更多的模型选择。

Amazon Bedrock的客户也已经在使用Claude构建生成AI应用程序,包括从体育到旅行再到生命科学等各个行业的组织。这些组织使用Claude模型自动化任务、创建新的用户界面应用程序。

Anthropic还表示将使用AWS Trainium和Inferentia芯片构建、训练和部署其未来的基础模型,并表示AWS将成为Anthropic的主要云提供商。Anthropic的Claude 3模型将进一步丰富Amazon Bedrock的生成AI模型选择,给客户更多的模型选择权。

结语

无论如何,Claude3模型发布都标志着人工智能领域的又一次巨大飞跃,这不仅是技术的竞赛,更是有关创新和安全的一场“持久战”。

不同公司和团队的竞争推动了技术的不断演进,也让我们见证了人工智能在不同领域的广泛应用。在技术进步的同时,与之相伴的挑战是其安全性和道德性。Anthropic对于人工智能偏见的关注以及对模型安全性的强调,或许会成为其与OpenAI竞争的重要筹码。

一面是追求商业利益、采取激进的发展策略、还陷入与马斯克纷争的OpenAI,一面是保守派、遵纪守法、团队同样强大的Anthropic,你看好哪家公司呢?

延伸阅读
相关推荐
热点推荐
俄媒:乌军指挥官在前线接连殒命

俄媒:乌军指挥官在前线接连殒命

参考消息
2025-01-03 14:24:20
梁晓声:阶层决定生存法则,底层靠能力,中层靠关系,高层靠血缘

梁晓声:阶层决定生存法则,底层靠能力,中层靠关系,高层靠血缘

清风拂心
2025-01-04 15:15:03
放弃中国国籍?谷爱凌摊牌发声,官宣新决定,七字表态

放弃中国国籍?谷爱凌摊牌发声,官宣新决定,七字表态

保持热爱0263
2025-01-02 15:55:01
宋仲基谈二婚,妻子婚后住娘家对婆婆不尊重,1岁儿子说意大利语

宋仲基谈二婚,妻子婚后住娘家对婆婆不尊重,1岁儿子说意大利语

古今历史记
2025-01-03 13:53:12
冷空气频繁,山东连续4天有雪!青岛最低-7℃,降雪主要在→

冷空气频繁,山东连续4天有雪!青岛最低-7℃,降雪主要在→

鲁中晨报
2025-01-04 09:18:59
每天 2.7 亿砸向技改,苏州工业最强势一年来了

每天 2.7 亿砸向技改,苏州工业最强势一年来了

奔流财经社
2025-01-04 07:57:07
住建部一锤定音!预制板房符合这2项要求,或“全面拆除”

住建部一锤定音!预制板房符合这2项要求,或“全面拆除”

巢客HOME
2025-01-04 10:15:02
“雷军也要输给你”,大学生皮包简历火了,主打一个未来可“欺”

“雷军也要输给你”,大学生皮包简历火了,主打一个未来可“欺”

熙熙说教
2025-01-03 16:12:12
海底捞全国首家纯“包间店”落户西安 快你的饭搭子来干饭

海底捞全国首家纯“包间店”落户西安 快你的饭搭子来干饭

椰青美食分享
2025-01-04 00:27:22
吴敬平教练晒24年与樊振东聊天截图,鼓励樊振东活出自己

吴敬平教练晒24年与樊振东聊天截图,鼓励樊振东活出自己

澎湃新闻
2025-01-04 15:02:32
建议停止佩戴这东西,辐射超强,戴一天相当于做近百次胸片?

建议停止佩戴这东西,辐射超强,戴一天相当于做近百次胸片?

蜉蝣说
2024-07-31 20:40:31
搞笑图片第760期:第一次去东北搓澡的朋友记得和搓澡师傅商量好

搞笑图片第760期:第一次去东北搓澡的朋友记得和搓澡师傅商量好

今天的快乐
2025-01-03 19:53:17
曾经一车难求,现在降价5万,车长4965,配2.0T+8AT,7座布局

曾经一车难求,现在降价5万,车长4965,配2.0T+8AT,7座布局

沙雕小琳琳
2025-01-03 22:21:50
2024年爆火的8位网红:莫名走红,却个个赚得盆满钵满!

2024年爆火的8位网红:莫名走红,却个个赚得盆满钵满!

祝晓塬
2025-01-04 02:28:17
1月4日,CBA联赛今晚安排了5场比赛,全部都是强强对话颇有看点

1月4日,CBA联赛今晚安排了5场比赛,全部都是强强对话颇有看点

三石记
2025-01-04 09:52:43
黄晓明坐高铁时和乘务员的合照,这位工作人员比叶珂漂亮多了!​

黄晓明坐高铁时和乘务员的合照,这位工作人员比叶珂漂亮多了!​

人情皆文史
2024-11-28 01:02:07
杀得差不多了,俄开始收复失地,美军这才反应过来:乌克兰赢不了

杀得差不多了,俄开始收复失地,美军这才反应过来:乌克兰赢不了

小lu侃侃而谈
2024-09-28 21:25:12
探长:郭士强抵达纽约探望崔永熙 前者还将考察几个旅美球员

探长:郭士强抵达纽约探望崔永熙 前者还将考察几个旅美球员

直播吧
2025-01-04 10:31:18
国际乒联成立调查组!刘诗雯被排除大名单外,刘国梁真要下课了?

国际乒联成立调查组!刘诗雯被排除大名单外,刘国梁真要下课了?

三十年莱斯特城球迷
2025-01-03 19:46:08
小学生画下“妈妈睡姿”,过于真实被老师打满分,家长不要面子吗

小学生画下“妈妈睡姿”,过于真实被老师打满分,家长不要面子吗

熙熙说教
2025-01-02 18:32:33
2025-01-04 18:40:49

科技要闻

华为车BU业务装入引望 上汽有望入伙

头条要闻

媒体:尹锡悦硬刚"逮捕令" 保守党团疑开始全面发功

头条要闻

媒体:尹锡悦硬刚"逮捕令" 保守党团疑开始全面发功

体育要闻

库明加一数据成倍增长 追梦:他定会成超巨

娱乐要闻

张颂文风波后露面,多位业内导演力挺

财经要闻

左江退市前疯涨 寒武纪更猛却尚无退市征兆

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

本地
艺术
健康
教育
数码

本地新闻

云游中国|冰雪“祁”缘照进现实,谁懂多震撼

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

抑郁症患者称好的“乌托邦”宝地

教育要闻

复试英文口语题第二题

数码要闻

销量连跌11个月 智能音箱为啥越来越不受欢迎了

无障碍浏览 进入关怀版
×