为什么李飞飞团队经常cue通义千问？|维度|大模型|人工智能|云计算费用

为什么李飞飞团队经常cue通义千问？

2025-04-12 10:13:10　来源: 硅星人

北京举报

分享至

　　作者｜ summer
邮箱｜ huangxiaoyi@pingwest.com

　　Qwen 3还未发布，但已发布的Qwen系列含金量还在上升。

　　2个月前，李飞飞团队基于Qwen2.5-32B-Instruct 模型，以不到50美元的成本训练出新模型 S1-32B，取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果。如今，他们的视线再次投向了这个国产模型。

　　在李飞飞联合领导的斯坦福大学以人为本人工智能研究所（Stanford HAI）最新发布的《2025年人工智能指数报告》（Artificial Intelligence Index Report 2025）中，Qwen系列再度引人注目。

　　作为人工智能最权威的资源之一，AI Index已经发布了八版，随着人工智能对社会、经济和全球治理的影响力不断加强，今年的报告也成为迄今为止最为全面的版本。其中，提到的一个重要观察就是：中美顶级大模型的差距急剧缩小。

　　结合多个榜单来看，在MMLU测试中，中美性能差异从2023年底的17.5%，锐减至2024年底的0.3%；数学能力测试MATH差异从24.3%缩至1.6%；代码能力评估HumanEval差异从31.6%降至仅3.7%；在Chatbot Arena平台上，2024年1月的9.26%差距，到2025年2月仅剩1.70%。

　　而DS 和Qwen，就是中国模型性能提升的重要力量。

　　报告评选出的2024年重要大模型（Notable Models）中，国产大模型一共5家，分别是阿里、字节、DeepSeek、腾讯、智谱。其中，阿里以6款模型入选，位列全球贡献第三，仅次于谷歌和OpenAI的7款。

　　在多个维度的全球AI发展比较中，Qwen都占据着重要位置，成为了继DeepSeek之后被提及最多的中国AI模型。

　　不断被Cue的Qwen，正在凭借模型性能、开源力度、生态适配赢得更多的认可。

　　多个模型被评，Qwen扛起国产大旗

　　该报告由Research and Development、Technical Performance、Responsible Al、Economy、Science and Medicine、Policy and Governance、Education、Public Opinion十个核心章节构成，每个章节深入分析了AI领域的特定维度，并提炼出相应领域的关键趋势结论。

　　总体来看，AI发展呈现出明显的“更大、更多、更强”趋势，但中美模型在技术路径上却展现出不同特点。

　　参数维度上，自2010 年代初以来，参数数量始终在急剧增加。这反映了大模型的架构日益复杂、数据可用性的提高、硬件的改进以及Scaling Law的有效性。特别是，相比学术和产学结合领域，大参数模型在工业领域尤为引人注目，显示出工业界有着充足的可覆盖训练成本的资金实力。

　　随着模型参数数量的增加，用于训练 AI 系统的数据量也在暴涨。从时间线来看，引发了大型语言模型革命的Transformer模型于2017年发布，使用了约 20 亿个tokens进行训练，2020年支撑原始 ChatGPT 模型之一的GPT-3，使用了3740亿tokens，再到2024年Llama 3.3，使用了15万亿tokens。据Epoch AI统计，LLM训练数据集大小约每8个月翻一番。

　　在报告列出的重要大模型中，Llama3.1-405B和Qwen2.5-72B、DeepSeek-V3训练数据量几乎并列第一。

　　在这一背景下，一个有趣的现象出现了：美国顶级AI模型的训练计算资源通常远高于中国模型。根据Epoch AI的数据，中国前10名模型的计算资源扩张速度约为每年3倍，显著低于全球平均水平的每年5倍。

　　广为人知的是DeepSeek V3的出圈，正是因为其极高的性能，但只需要远少于许多领先LLM的计算资源。实际上，不止V3，国产模型中的Qwen2.5-72B、Doubao-pro都显著低于Claude 3.5 Sonnet、Grok-2等等。

　　除此之外，Qwen2.5-Coder-32B、Qwen2.5-plus-1127的代码领域，Qwen-Max-0428的复杂任务处理、Qwen2 (72B)的上下文能力，Qwen1.5 Chat (72B)的模型安全性领域，均获得了关注。

　　有一个值得讨论的模型还不够，Qwen有一堆。

　　曾经Qwen和Llama二分的天下，现在是Qwen的了？

　　比起冰冷的数据说明，开发者堆Qwen的偏爱来得更早更直接。

　　李飞飞团队基于Qwen模型复刻R1的成员之一Niklas也曾在社交平台上赞叹：“Qwen is amazing!”

　　此外，在R1的复现方案里，大部分都是基于Qwen的，包括simpleRL-reason、open-r1、tinyzero、oatzero、open-thought、logit-rl和Open-Reasoner-Zero等等。这一现象不仅体现了研究人员对Qwen基础能力的高度认可，也从侧面证明了其在推理能力上的优越性。

　　在更广泛的开源社区中，Qwen系列模型几乎占据了热门榜单前列，成为开发者的首选工具。截至目前，Qwen在全球的衍生模型数量已突破10万，超越美国Llama成为世界第一开源大模型。

　　这一成就不仅体现在数量上，更反映在多样性上。自2023年8月首次开源以来，阿里通义实验室已推出200多款模型，覆盖了从基础模型、对话模型到强化学习模型和多模态模型的全方位布局，覆盖从0.5B到110B等的“全尺寸”，几乎囊括了所有可能的应用场景，获得了企业端客户的青睐。

　　“我们在各个场景都用到了Qwen系列的模型。”汇智智能提到，按模型和业务的匹配程度划分，“Qwen-Turbo作为性价比超高的模型，适用于构建使用量大的聊天助手；Qwen-Max最为旗舰产品，回答效果与能力突出，适用于B端商户，提升服务质量；Qwen-QwQ用于推理场景，而且尺寸32B适用于企业的本地化部署；Qwen-VL和Qwen-Audio、Qwen-Omni识别多模态信息，和用户互动。”

　　特别是丰富的小尺寸模型选择，为实际开发提供了极高的性价比方案。

　　“模型太大跑不动，也没有必要，100B以下的模型在实际应用中更具优势。比如QwQ-32B，对很多企业场景而言，已经够用了，并且部署资源是DeepSeek R1的1/10。”一位中小企业技术人员提到。

　　年初，DeepSeek的出现，推动了市场需求的爆发和商业化落地的进程，但在实际场景中，Qwen的尺寸灵活性成为显著优势。“以前，企业端的模型市场基本是Qwen和Llama的天下，但Llama已经比不上Qwen了。"一位企业开发者说道。

　　模型尺寸的灵活选择、基础能力的可靠表现、生态工具的完善支持、企业级应用中的实际效果......这种偏好背后是多种因素的综合考量，企业们在选择或切换模型时，比起性能指标，更看重与业务场景的适配性和长期的迭代潜力。

　　而这恰恰是Qwen的优势，开发者们正在用脚投票做出自己的选择。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.