网易首页 > 网易号 > 正文 申请入驻

全球大模型前十座次重排:DeepSeek占2席,还有3款国产大模型上榜

0
分享至

2025年2月消息:全球知名的AI模型评测平台Chatbot Arena(大模型竞技场)公布了最新一期榜单(Chatbot Arena LLM Leaderboard)。这是业界公认的最公正、最权威榜单之一,采用匿名方式将大模型两两组队,交给用户进行盲测(提出任何相同问题),根据真实对话体验对模型能力进行投票。如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;如果在对话中透露了模型的身份,则不会计算投票。

公开资料显示:Chatbot Arena于2023年5月推出,由大型模型系统组织(Large Model Systems Organization)创建,目前集成190多种AI模型。LMYSY Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡耐基梅隆大学的学生与教职员工共同组建的公开性质的研究团体,旨在使大型模型技术更加普及和可访问。

大年初一(1月29日)正式升级发布的Qwen2.5-Max,领先DeepSeek V3、OpenAI O1-Mini、谷歌Gemini 2.0 Flash-Lite (Preview) 等模型,以1332分排在全球第七名,也是非推理类的中国大模型冠军。与此同时,数学和编程等单项能力排名第一,在硬提示(Hard prompts)方面位居第二。【注:硬提示是由人工手动设计的文本提示,包含离散的输入标记,与软提示是指导大语言模型行为的两种不同方法】

Qwen2.5-Max是阿里云通义千问旗舰版模型,采用超大规模MoE(Mixture of Experts,混合专家)架构,基于超过20万亿token(词元)的预训练数据及精心设计的后训练方案进行训练。结合监督微调(SFT)和强化学习人类反馈(RLHF),在长文本生成、指令遵循等任务中表现更贴近人类偏好。【注:tokens是自然语言处理NLP领域中的重要概念,指文本中最小的有意义的单元,可以是单词、数字、标点符号或其他字符】

值得一提的是,就在Qwen2.5-Max发布的前一天,阿里云通义千问开源了全新的视觉理解模型Qwen2.5-VL,推出3B、7B、72B三个尺寸版本。自2023年8月开源以来,其相继推出Qwen、Qwen1.5、Qwen2、Qwen2.5等四代模型,涵盖大语言模型、多模态模型、数学模型、代码模型等数十款产品,率先实现“全尺寸、全模态、多场景”的开源布局。全球基于Qwen的衍生模型超过9万个,已超越Llama成为全球最大的人工智能模型族群。

近日,“AI教母”李飞飞团队以通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块英伟达H100 GPU上监督微调26分钟,便训练出性能比肩OpenAI O1和DeepSeek R1等AI推理模型s1-32B。训练成本仅50美元,神奇“低成本”是建立在已具备强大能力的通义千问开源基础模型等“巨人肩膀”之上完成的。

DeepSeek(深度求索)无疑是今年春节假期最火爆的话题之一。这家人工智能公司由幻方量化在2023年出资设立,总部位于杭州,与登上春晚的宇树科技、《黑神话:悟空》发行商游戏科学、强脑科技、云深处科技、群核科技并称为“杭州六小龙”。

2024年12月26日推出的DeepSeek-V3,采用高达6710亿参数的MoE架构,每秒能够处理60个token,比V2快了3倍。时隔不到一个月,2025年1月20日公司又发布其首个通过强化学习 (RL) 训练的推理模型 DeepSeek-R1。

其训练成本仅为557.6万美元,使用的还是H800 GPU(英伟达针对中国市场的低配版GPU)。相比之下,同为开源模型的Meta Llama-3.1模型训练成本超过6000万美元,OpenAI GPT-4o模型训练成本高达1亿美元,且使用的是性能更加优异的H100 GPU集群。

除了深度求索和阿里云通义千问,StepFun(阶跃星辰)的Step-2-16K-Exp和智谱AI的GLM-4-Plus-0111跻身前十。有业内人士分析认为,随着越来越多国产大模型的崛起,低成本开发模式和极具竞争力的使用价格,动摇了美国AI领军企业的巨额研发预算,将让整个AI产业加速变革。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国必将打击伊朗的13个理由

美国必将打击伊朗的13个理由

跟着老李看世界
2026-02-22 00:31:42
“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

行者马生的笔记
2026-01-27 21:15:41
一夜三连击 乌军突袭克里米亚 俄军舰机同时中招

一夜三连击 乌军突袭克里米亚 俄军舰机同时中招

桂系007
2026-02-21 23:57:45
同学会班花炫耀副总老公,我闷头吃饭,散场时她老公一巴掌打懵她

同学会班花炫耀副总老公,我闷头吃饭,散场时她老公一巴掌打懵她

晓艾故事汇
2026-02-04 10:08:15
已开播!央视30集年代剧王炸来袭

已开播!央视30集年代剧王炸来袭

情感大头说说
2026-02-21 22:13:48
打脸太快!印度突然宣布:不许再抵制,必须从中国进口!

打脸太快!印度突然宣布:不许再抵制,必须从中国进口!

达文西看世界
2026-02-21 16:06:46
待了几天唐山 我要曝光一下 当地人的素质 全然颠覆我此前的认知

待了几天唐山 我要曝光一下 当地人的素质 全然颠覆我此前的认知

原广工业
2026-02-21 19:31:58
美学者预测:美可全面轰炸中国,迫其重返1840年屈辱

美学者预测:美可全面轰炸中国,迫其重返1840年屈辱

老头的传奇色彩
2026-02-03 04:46:06
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
3-3大冷门,西甲倒数第一逼平西甲第8,31岁曼联旧将力挽狂澜救主

3-3大冷门,西甲倒数第一逼平西甲第8,31岁曼联旧将力挽狂澜救主

侧身凌空斩
2026-02-21 23:00:12
两性关系:女人可以让你搂、让你亲,但别全信她说的话

两性关系:女人可以让你搂、让你亲,但别全信她说的话

青苹果sht
2026-02-13 06:20:11
最大“骗局”是山姆超市,靠一张 260 元的会员卡一年狂揽 660 亿

最大“骗局”是山姆超市,靠一张 260 元的会员卡一年狂揽 660 亿

南权先生
2026-01-19 15:38:30
美国研究发现饭量和寿命的关系:饭量减少1/3延寿20年,靠谱吗?

美国研究发现饭量和寿命的关系:饭量减少1/3延寿20年,靠谱吗?

医学原创故事会
2026-02-13 23:46:06
强化学习之父最新演讲:大模型是一时狂热,AI的真正时代还没开始

强化学习之父最新演讲:大模型是一时狂热,AI的真正时代还没开始

DeepTech深科技
2026-02-19 20:15:12
iOS 27 发布时间曝光!将大幅提升续航时间

iOS 27 发布时间曝光!将大幅提升续航时间

XCiOS俱乐部
2026-02-21 21:22:53
炸锅!特朗普,输了!

炸锅!特朗普,输了!

中国基金报
2026-02-20 23:23:35
香港“最乖富二代”邓兆尊,27年不动本金,利息滚到17亿,太清醒

香港“最乖富二代”邓兆尊,27年不动本金,利息滚到17亿,太清醒

娱说瑜悦
2026-01-23 19:23:09
网飞特离谱的黄暴美剧,偏偏还很火,真是独一份了

网飞特离谱的黄暴美剧,偏偏还很火,真是独一份了

来看美剧
2026-02-01 19:51:56
港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

鬼菜生活
2026-02-03 18:35:49
呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

呆呆全家关门走人了!警察成排围着看守,很多地方拉起了警戒线!

好贤观史记
2026-01-13 18:08:50
2026-02-22 02:51:00
火星人杂谈 incentive-icons
火星人杂谈
追踪科技、制造业、大消费领域最新动向
2588文章数 305关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

数码
游戏
艺术
公开课
军事航空

数码要闻

物理销毁SSD:结果根本没贯穿PCB!直接就扔到垃圾桶了

卡婊总算玩明白了,《安魂曲》双主角盘活生化30周年

艺术要闻

他的肖像画和人体画,竟让人赞叹不已!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版