网易首页 > 网易号 > 正文 申请入驻

全球最强模型一夜易主?Anthropic声称新模型Claude 3性能超越GPT-4接近人类|钛媒体AGI

0
分享至

图片来源:Anthropic

一夜之间,全球最强 AI 模型易主。大模型行业又变天了。

钛媒体AGI获悉,3月5日凌晨,OpenAI竞争对手、谷歌、亚马逊投资支持的Anthropic公司发布最新Claude 3系列模型,多个领域的性能超越了OpenAI的GPT-4。

Claude 3系列模型主要包括Haiku(中杯)、Sonnet(大杯)与Opus(超大杯)三款,能力依次从低到高。在推理、数学、编码、多语言理解和视觉等多个领域的20款测试中,Claude 3 Opus在14个性能指标下超越了GPT-4、谷歌Gemini等一系列模型。

Anthropic 表示,Claude 3 Opus 拥有人类本科生水平的知识。同时 Opus也已经跃升成为全球最强大的AI 大模型。

此外,Claude还首次公布对多模态能力的支持(Opus 版本的 MMMU 得分为 59.4%,超过 GPT-4V,与Gemini 1.0 Ultra持平)。用户现在可以上传照片、图表、文档和其他类型的非结构化数据,让 AI 进行分析和解答。

目前,Claude 3Opus和Sonnet已经在claude.ai以及全球159个国家和地区的Claude API上使用。而“中杯”Haiku模型也即将推出。

有网友戏称,Claude 3来了。OpenAI,你打算拿什么来抢一下热度?Altman,GPT-5什么时候推出?

单词处理能力是ChatGPT近50倍,Claude 3到底有多强?

实际上,这家刚刚超越ChatGPT-4的大模型公司仅成立不到3年。

Anthropic AI成立于2021年,由OpenAI 前研究副总裁达里奥·阿莫迪(Dario Amodei)、GPT-3论文一作Tom Brown等人建立。

成立的原因是,Amodei领导的研究人员在对公司的发展方向存在分歧后离开了OpenAI,他们担心微软对OpenAI的投资会使其走上更加商业化的道路,偏离公司最初想法。

2022年12月,在ChatGPT发布不久,Anthropic团队在arxiv上发布了一篇题为《Constitutional AI: Harmlessness from AI Feedback》论文,描述了一个基于无监督方式训练、520亿参数的模型 AnthropicLM v4-s3,直接挑战OpenAI的GPT-3模型。

2023年1月,Anthropic发布基于AnthropicLM v4-s3、AI 聊天机器人模型产品Claude,被认为是ChatGPT的有力竞争者。

融资方面,整个2023年,Anthropic共完成五笔融资,总融资额约73亿美元,投资方包括谷歌、Salesforce、亚马逊以及韩国SK Telecom等。其中,亚马逊向Anthropic投资高达 40 亿美元、谷歌投资超过20亿美元,均持有Anthropic的少数股权。

Anthropic联合创始人丹妮拉·阿莫迪(Daniela Amodei)曾透露,公司有60至80人参与了核心人工智能模型的开发工作,而120至150人则参与了技术方面的研发。阿莫迪去年表示,AI 模型Claude的最新一次迭代由30至35人组成的团队直接参与,并有大约150人提供支持。

当地时间3月4日,Anthropic正式发布最新一代模型Claude 3,同时还是目前行业最强大的 AI 模型。

Claude 3系列模型主要包括Haiku(中杯)、Sonnet(大杯)与Opus(超大杯)三个型号,在性能基准、实时结果、视觉能力、长上下文、多语言、工作负载、使用体验等方面都有重要的突破进展,尤其单词处理能力是ChatGPT近50倍。

上下文方面,Anthropic表示,此次全系列大模型可提供200k上下文窗口,相当于150000个单词,单词处理能力是ChatGPT接近50倍,大约是英文版《白鲸》或《哈利・波特与死亡圣器》的长度。用户可以输入大量数据集,并要求其以备忘录、信件或故事的形式进行摘要。

性能基准方面,Claude 3 Opus在本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等多个测试中都优于同行业模型。

例如,在MMLU方面,Claude 3 Opus达到86.8%,超越了GPT、Gemini等一众模型;在研究生水平专家推理 (GPQA)得分是50.4%,优于GPT-4的35.7%,在基础数学 (GSM8K) 上Claude 3 Opus得分是95.0%,优于GPT-4的92.0%。而且,Claude 3 Haiku甚至可以与Gemini 1.0 Pro相抗衡。

视觉能力方面,Claude 3系列模型具备与其他领先模型相媲美的高级视觉识别能力。它们能够处理各种视觉格式,包括照片、图表、图形和技术绘图等。在部分视觉能力上Claude 3系列模型性能刷新SOTA。如在技术图表(AI2D)上,Claude 3 Opus得分为88.1%,远超GPT-4V的78.2%。另外,Anthropic称,这将为企业客户提供这种新的能力,支持高达50%用PDF、流程图或演示文稿等多种格式存储的企业知识库。

多语言方面,Claude 3系列模型增强了西班牙语、日语和法语等非英语语言对话方面的能力。

实时结果和工作负载方面,对于绝大多数场景,Haiku 市场上速度最快且最具成本效益的模型,它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文;Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高,它擅长执行需要快速响应的任务,如知识检索或销售自动化等;最强大的Opus 模型的速度与 Claude 2 和 2.1 相似,但智能水平更高。

Anthropic还在Claude 3系列模型论文中表示,这些模型都是使用亚马逊AWS和谷歌云的硬件进行训练的。目前,Claude3已在AWS模型库Bedrock和谷歌的VertexAI中上线。

此外,在负责任能力、使用体验等方面,Anthropic表示,Claude 3系列模型不仅功能强大,而且值得信赖。

不过,Anthropic也坦言,虽然与之前的模型相比,Claude 3 模型系列在生物知识、网络相关知识和自主性的关键指标方面取得了进步,但根据其负责任的扩展政策,它仍处于 AI 安全级别 2 (ASL-2) ,低于美国白宫的超强大 AI 模型标准的阈值界限。

整体来看,Anthropic长文本能力、多个性能指标都非常强大,与GPT-4一较高下也不为过。

Dario Amodei 近期公开表示,2023 年是专家级 AI ,到2025-2026 年Anthropic的模型技术将成功超越人类,届时AI将能够真正帮助人类工作,大大加速产业发展。

GPT-5即将到来?

随着最强 AI 大模型Claude 3发布,引发了 AI 行业内的关注。

“硅谷钢铁侠”、亿万富翁、特斯拉CEO马斯克(ElonMusk)最新回应称,这个成果非常感人。

最近刚刚离职OpenAI的开发者关系负责人Logan称,祝贺Anthropic团队,很高兴看到编码能力发挥作用。

也有网友称,这些数学基准还是0样本的Claude 3,击败了训练了5-8个样本的GPT-4。

在 Anthropic 官宣之后,不少得到试用机会的研究者也晒出了自己的体验。有网友称,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解开的谜题。

不过也有人质疑,Claude幻觉问题很严重,尤其是对于中文的支持程度很低。而且,在定价上Claude 3 也比 GPT-4 Turbo 要贵得多。

据悉,GPT-4 Turbo 每百万 token 输入 / 输出收费为 10/30 美元,而 Claude 3 Opus 为 15/75 美元。

英伟达高级科学家Jim Fan则表示,他非常期待GPT-5的发布。

“谁是今天的最强大模型,没有意义。这件事不是闪电战,是军备战和加长超时战。当然Claude 3 确实很牛。”

那么,GPT-5现在最新的情况怎么样呢?

3月4日,网上疯转了一份最新长达53页的PDF文件,曝光了OpenAI公司最新计划和进展,其中包括公司预计在2027年前打造出人类级别通用人工智能(AGI)计划等。

早在2023年11月OpenAI CEO奥特曼(Sam Altman)就透露,OpenAI已经开发出了比GPT-4更强大、更难以想象的东西,远超人们的期待。

“模型的能力将会有一个无人预料到的飞跃。与人们的预期不同,这个飞跃是惊人的……这在OpenAI的历史上有四次 ,而最近一次,就是在过去几周内。在拨开无知的面纱和探索未知的边界时,我有幸在场,这是我职业生涯中的荣幸。”奥特曼表示。

斯坦福博士Silas Alberti就猜测,所谓GPT-5的Q*很可能是基于AlphaGo式蒙特卡罗树搜索token轨迹。下一个合乎逻辑的步骤是以更有原则的方式搜索token树。这在编码和数学等环境中尤为合理。

图灵奖得主LeCun则非常担心,一旦这些大模型公司游说政府监管开源 AI,将他们的模型除去标准以内,将使整个 AI 模型行业不复存在。

如果GPT-5消息这两天将发布,那今年,我们人类无疑将看到一场 AI 新热战,并无限接近AGI时代。

(本文首发钛媒体App,作者|林志佳、任颖文,编辑|林志佳)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
儿子说想给自己做床蚕丝被,一家三口网购了1万粒蚕卵!如今12000条蚕宝宝每天要吃30斤桑叶……妈妈:崩溃并快乐着

儿子说想给自己做床蚕丝被,一家三口网购了1万粒蚕卵!如今12000条蚕宝宝每天要吃30斤桑叶……妈妈:崩溃并快乐着

都市快报橙柿互动
2026-05-19 00:29:55
为什么75寸电视才2500?不是买不起,是真的没必要买

为什么75寸电视才2500?不是买不起,是真的没必要买

老特有话说
2026-05-18 16:32:15
特朗普:可能不得不再给伊朗猛烈一击!北约也设下最后期限:若霍尔木兹海峡7月初未开放,将考虑护航

特朗普:可能不得不再给伊朗猛烈一击!北约也设下最后期限:若霍尔木兹海峡7月初未开放,将考虑护航

每日经济新闻
2026-05-20 00:56:10
万万没想到,特朗普又立“大功”,大量顶尖人才被他“送回”中国

万万没想到,特朗普又立“大功”,大量顶尖人才被他“送回”中国

爱意随风起呀
2026-05-19 20:14:30
女人最吃的这几种肢体触摸,第二种一摸就心动,五十岁以上更管用

女人最吃的这几种肢体触摸,第二种一摸就心动,五十岁以上更管用

匹夫来搞笑
2026-05-20 00:56:06
情侣遛狗时发现湖里鸭子发出喵喵叫,一看竟是鸭子驮着幼猫在游动

情侣遛狗时发现湖里鸭子发出喵喵叫,一看竟是鸭子驮着幼猫在游动

半岛晨报
2026-05-19 13:15:03
生意太好被处处刁难,屠夫6天杀13人,公安部A级通缉犯石悦军落网

生意太好被处处刁难,屠夫6天杀13人,公安部A级通缉犯石悦军落网

易玄
2026-05-18 23:06:35
爆雷!知名品牌天津店跑路?全国多地消费者维权!收了钱不回复!

爆雷!知名品牌天津店跑路?全国多地消费者维权!收了钱不回复!

天津生活通
2026-05-19 21:05:01
商家称校园买家购45把雨伞全损退货!校方:好像有班级运动会用了 具体还需再核实

商家称校园买家购45把雨伞全损退货!校方:好像有班级运动会用了 具体还需再核实

闪电新闻
2026-05-19 21:34:39
随着马刺胜雷霆,1-0领先,我必须承认5个现实:总冠军失去悬念

随着马刺胜雷霆,1-0领先,我必须承认5个现实:总冠军失去悬念

篮球扫地僧
2026-05-19 14:00:14
深度科普:狗交配过程为何会很难分开?下次看到狗交配请默默离开

深度科普:狗交配过程为何会很难分开?下次看到狗交配请默默离开

宇宙时空
2026-05-18 17:30:14
美国百万颜值网红出庭受审,却被英俊法官气场碾压,引全网热议

美国百万颜值网红出庭受审,却被英俊法官气场碾压,引全网热议

译言
2026-05-19 08:18:57
35万的玛莎拉蒂,刺痛了多少豪车玩家!

35万的玛莎拉蒂,刺痛了多少豪车玩家!

蒋东文
2026-05-19 21:24:32
垃圾食品清单已列出,燕麦片排第2,排第1的很多人喜欢吃

垃圾食品清单已列出,燕麦片排第2,排第1的很多人喜欢吃

路医生健康科普
2026-05-17 19:35:03
2026必知:强奸、通奸、嫖娼,法律定性与处罚全解读

2026必知:强奸、通奸、嫖娼,法律定性与处罚全解读

周哥一影视
2026-05-19 14:15:11
在岸人民币兑美元较周一夜盘收盘跌127点

在岸人民币兑美元较周一夜盘收盘跌127点

财联社
2026-05-20 03:10:12
马斯克再放话:年底全美铺开无人出租车,德州仅30辆

马斯克再放话:年底全美铺开无人出租车,德州仅30辆

碳基打工人
2026-05-19 00:42:10
上次夺冠还是大帝时代,阿森纳传奇亨利转发球队夺冠海报

上次夺冠还是大帝时代,阿森纳传奇亨利转发球队夺冠海报

懂球帝
2026-05-20 06:25:33
8黄代价!海港“脏”战术击倒成都蓉城,急了:刘殿座转身射门

8黄代价!海港“脏”战术击倒成都蓉城,急了:刘殿座转身射门

足球大腕
2026-05-19 23:27:04
黄仁勋贴身女助理身份曝光!哈佛毕业年薪125万美金,亚裔学霸

黄仁勋贴身女助理身份曝光!哈佛毕业年薪125万美金,亚裔学霸

魔都姐姐杂谈
2026-05-18 19:18:22
2026-05-20 06:36:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
133792文章数 862170关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

洁丽雅硬刚豪门内斗传言

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

数码
家居
时尚
教育
军事航空

数码要闻

谷歌推出Gemini 3.5系列模型

家居要闻

观山隐秀 心灵沉淀

57岁恶女出手整治浪姐,全网拍手叫好

教育要闻

最帅体育老师高颜值引发学生尖叫,从高中调到初中,家长:调小学

军事要闻

特朗普暂缓打击伊朗 称系应中东三国请求

无障碍浏览 进入关怀版