斯坦福456页AI报告划重点：中美AI竞争格局变了！|美国|大陆|机器人|人工智能|云计算费用|查尔斯·维利尔斯·斯坦福

分享至

智东西4月8日报道，今天，斯坦福大学以人为本AI研究院（HAI）发布长达456页的《AI指数报告2025》，全面介绍了中美AI竞争态势、开源模型、模型技术性能、大模型投融资、AI for Science等领域的最新数据和进展，其中DeepSeek被提及45次。

《AI指数报告2025》中写道：“美国在顶尖AI模型产出上仍保持领先——但中国正快速缩小性能差距。”

报告以DeepSeek-V3为典型代表，论证了大模型推理、训练成本的骤降；来自清华大学、北京智源研究院的数十篇科研成果被纳入全球Top100；来自阿里、字节、DeepSeek、腾讯、智谱等企业的15款模型被选为过去一年中的重要AI模型。

整体而言，中国大陆的AI研究论文在全球总发表量中占比23.2%，被引量占全球总量的22.6%。不过，美国在研究成果在影响力上更胜一筹，且依旧是重要AI模型的主要来源地。2024年，美国机构开发了40个重要AI模型，远超中国大陆的15个和欧洲的3个。过去十年美国开发的机器学习模型数量居全球之首。

算力作为驱动AI发展的重要因素，也在迅速变化。以16位浮点运算为基准，2008-2024年间机器学习硬件性能年均增长约43%（每1.9年翻番），固定性能水平的硬件成本正以每年30%的幅度下降。

AI正对经济产生深刻影响。在麦肯锡的调研中，已有至多49%的企业称AI为企业实现了降本，其中，中国大陆企业在AI采用率上提升迅速，已达75%，与北美地区差距缩小到7%。

2024年，全球AI投资达到2523亿美元，其中私人投资增长44.5%，生成式AI领域的投资达到339亿美元，2024年美国AI投资额达到1091亿美元，几乎是中国大陆投资额93亿美元（折合人民币约682亿元）的12倍。

我们还首次见证了AI研究获得2项诺贝尔奖，并在生物医药领域展现出巨大的应用潜力。

一、产业界主导大模型开发，中国AI专利量全球领先

全球AI领域呈现出多维度的快速发展态势。AI已成为计算机科学中的主要研究领域，产业界在AI大模型开发中扮演着关键角色，学界则在高被引论文上表现突出。过去1年，重要AI模型的数量虽有所减少，但产业界开发的模型占比显著上升。

硬件成本的持续下降为AI的发展提供了有力的支持。同时，AI学术会议参会人数的增长也反映出学界、业界对AI研究的热情高涨，整个行业正处于蓬勃发展的关键时期。

1、中美AI科研影响力持续提升

总体来看，AI研究论文的总量持续增长，并已主导计算机科学领域。2013-2023年间，AI研究论文的数量从10.2万篇增至24.2万篇，在计算机科学论文中的占比从21.6%升至41.8%。学术界贡献了更多的高被引研究。

从地区来看，中国大陆AI论文发表总量领先，2023年，中国大陆机构的AI论文在全球总发表量中占比23.2%，被引量占22.6%。

美国则发表了更多高影响力研究。2021年-2023年，美国分别贡献了AI领域Top100高被引论文中的64篇、59篇与50篇，中国大陆分别贡献了33篇、34篇与34篇。

按机构来看，在2021年-2023年的Top100高被引论文中，谷歌、清华大学、卡耐基梅隆大学、微软、北京智源人工智能研究院、香港科技大学、上海人工智能实验室、中国科学院、Meta、英伟达的表现较为抢眼。

2、重要AI模型（Notable AI models）由产业界主导

AI指数数据提供商Epoch AI根据是否为最新技术进步、是否具有历史意义或引用率等标准，定义了一个囊括900余个重要AI模型的数据库。

过去数年来，重要AI模型的参数规模、数据集大小、训练时长等数据都呈现增长态势。产业界正持续加大AI投入，并主导了重要模型的开发工作，2024年，由产业界开发的重要模型占比达90%（2023年为60%）。

重要AI大模型的数量出现了明显减少，由2023年的105个减少至2024年的61个。同时，有越来越多的大模型选择了API、托管获取权限等非开源方式进行发布。

美国仍是重要AI模型的主要来源地。2024年，美国机构开发了40个重要AI模型，远超中国大陆的15个和欧洲的3个。过去十年美国开发的机器学习模型数量居全球之首。

2024年，几乎所有重要AI模型都来自产业界，其中谷歌和OpenAI凭借7款重要模型位列榜首，阿里凭借6款模型位居第三。字节、DeepSeek、腾讯、智谱AI分别凭借2款模型上榜。

回顾2014年-2024年的数据，谷歌贡献了最多的重要AI模型，其次是Meta、微软、OpenAI等企业。多所美国计算机强校登上这一榜单，清华大学和阿里分别贡献了22个与14个重要AI模型。

美国顶级AI模型的算力需求普遍远超中国大陆模型。根据Epoch AI数据，自2021年底以来，中国大陆训练算力排名前十的语言模型年均增长约3倍，显著低于2018年以来全球其他地区年均5倍的增速。

3、开源AI项目数量陡增

自2011年以来，代码托管平台GitHub上的开源AI项目数量持续增长，从2011年的1549个激增至2024年的约430万个。特别值得注意的是，仅过去一年内，GitHub AI项目总量就实现了40.3%的陡增。

截至2024年，美国贡献GitHub中23.4%的AI项目，占据最大份额；印度以19.9%的占比位居第二；欧洲紧随其后，贡献了19.5%的项目。美国开发者和中国大陆开发者在GitHub开源AI项目中的占比都出现不同比例的下降。

4、硬件成本每年下降30%

报告强调，硬件进步是推动人工智能发展的核心驱动力。尽管模型规模扩大和海量数据训练带来了显著性能提升，但这些突破本质上都依赖于硬件技术的革新——尤其是更强大、更高效的图形处理器（GPU）的发展。

根据Epoch AI测算，以16位浮点运算为基准，2008-2024年间机器学习硬件性能年均增长约43%（每1.9年翻番）。这一进步主要源于晶体管数量持续增加、半导体制造工艺革新和专用AI计算硬件的演进。

固定性能水平的硬件成本正以每年30%的幅度下降。以2022年3月发布的H100为例，其每美元可实现220亿次浮点运算，性价比较2020年6月发布的A100提升1.7倍，较2016年4月的P100更是提升16.9倍。

5、中国大陆AI专利授权量领先

过去10余年，AI专利申请量激增。2010-2023年AI专利从3833件增至122511件，年增幅29.6%。中国大陆以69.7%的授权量领先，韩国和卢森堡人均专利产出最高。

6、AI学术会议参会人数增长

自2014年以来，全球主要AI学术会议的参会人数增加了6万多人，AI研究热情不断增长。数据显示，NeurIPS仍然是参会人数最多的AI学术会议，2024年吸引了近2万名参与者。在主要的AI学术会议中，NeurIPS、CVPR、ICML、ICRA、ICLR、IROS和AAAI在过去一年中参会人数都有所增加。

二、开源模型迎头赶上，中美大模型质量差距缩小到0.3%

2024年，AI模型的性能实现诸多突破。AI在多项基准测试中表现优异，超越人类或与人类差距迅速缩小，并攻克了2023年新提出的多项基准测试。

开源模型在2024年迎头赶上，顶尖开源模型与顶尖闭源模型的差距大幅缩小，前沿AI模型的性能分布趋于收敛，小模型的能力也在不断增强。此外，AI Agent等新技术展现出初步潜力。

1、2024年AI领域重要发布

以下是报告中列举的2024年最具代表性的模型、数据集和功能发布，由业内专家组成的AI指数指导委员会选出。来自阿里的Qwen2、Qwen2.5和来自DeepSeek的DeepSeek-V3上榜，Cohere、北京智源人工智能研究院等发布的提示词数据集也被认为具有重要意义。

2、AI在多项基准测试中领先人类

截至2024年，人类能力超过AI的任务类型已经非常少，即使在这些任务上，AI与人类之间的表现差距也在迅速缩小。

例如，在MATH（竞赛级别数学的基准测试）上，最先进的AI系统现在已经领先人类表现7.9%，而2024年时这一差距仅为0.3%。同样，在MMMU（复杂、多学科、专家级问题的基准测试）上，2024年表现最佳的模型o1得分为78.2%，仅比人类基准的82.6%低4.4%。

2023年，AI研究人员引入了几项具有挑战性的新基准测试，包括MMMU、GPQA和SWE-bench，旨在测试日益AI模型的极限。

到2024年，AI模型在这些基准测试中的表现取得了显著进步，分别在MMMU和GPQA上实现了18.8%和48.9%的提升。在SWE-bench上，AI模型在2023年只能解决4.4%的编程问题，而这一比例在2024年跃升至71.7%。

4、开放权重模型迎头赶上

去年的AI指数报告揭示，领先的开放权重模型远远落后于其封闭权重的同类产品。到2024年，这一差距几乎消失。

2024年1月初，领先的封闭权重模型在聊天机器人竞技场排行榜上比顶级开放权重模型高出8.0%。到2025年2月，这一差距缩小至1.7%。

5、中美模型差距缩小

2023年，领先的美国模型显著优于其中国大陆同类产品——这种优势已不复存在。2023年底，在MMLU、MMMU、MATH和HumanEval等基准测试中，性能差距分别为17.5%、13.5%、24.3%和31.6%。到2024年底，这些差距大幅缩小至0.3%、8.1%、1.6%和3.7%。在大模型竞技场上，中美大模型的差距缩小至30分以内。

6、AI模型性能在前沿领域趋于收敛

根据去年的AI指数报告，聊天机器人竞技场排行榜上前十名模型与排名第一的模型之间的Elo评分差距为11.9%。到2025年初，这一差距缩小至5.4%。同样，排名前两名的模型之间的差距从2023年的4.9%缩小到2024年的0.7%。人工智能领域的竞争日益激烈，越来越多的开发者提供了高质量的模型。

7、小模型能力日益增长

2022年，在MMLU上得分超过60%的最小AI模型是PaLM，拥有5400亿个参数。到2024年，微软的Phi-3-mini仅拥有38亿个参数，就达到了相同的阈值，后者的参数量仅为前者的0.7%。

8、AI Agent展现出初步潜力

2024年推出的RE-Bench可用于评估AI Agent在复杂任务上的能力，测试标准较为严格。

在短时间（2小时）内，顶级AI系统的得分是人类专家的4倍，但随着时间的增加，人类的表现超过了AI。

例如，在32小时的时间范畴上，人类的得分是AI的2倍。AI Agent已经在某些特定任务（如编写Triton内核）上与人类专家相匹配，同时能够更快地交付结果且成本更低。

三、全球投资热蔓延，中国大陆工业机器人部署全球第一

2024年，AI领域的投资和应用迎来诸多变化，但存在明显区域差异。全球企业AI投资创下历史新高，美国投资规模一骑绝尘，北美地区AI采用率领先全球，但中国的采用铝也迅速提升。

AI正给企业带来一定的经济效益，尽管大多数受访者的成本节省不到10%，但这一趋势仍具有重要意义。

1、全球AI投资创历史新高

2024年企业AI投资达到2523亿美元，其中私人投资增长44.5%，这是自2021年以来首次同比增长。

2024年生成式AI领域的投资达到339亿美元，比2023年增长18.7%，是2022年水平的8.5倍以上。该领域如今占所有AI相关私人投资的20%以上。

2、美国在全球AI投资中的领先优势扩大

2024年美国AI投资额达到1091亿美元，几乎是中国大陆投资额93亿美元（折合人民币约682亿元）的12倍。在生成式AI领域，美国的投资超过了中国大陆、欧盟和英国的254亿美元（折合人民币约1864亿元）总和。

3、AI采用率水平前所未有

2024年，该报告提到，其关于使用AI的调查受访者比例从2023年的55%跃升至78%。同样，受访者在至少一项业务职能中使用生成式AI的数量翻了一倍多，从2023年的33%升至去年的71%。

4、AI开始降本增效

49%的受访者称使用AI进行服务运营为其节省了成本，其次是43%受访者将AI用于供应链管理和41%受访者用于软件工程，此外大多数受访者的成本节省不到10%。

5、中国AI采用率迎头赶上

按地区来看，AI的采用率出现明显变化，中国迎头赶上。尽管北美的组织和企业在AI采用率方面仍保持领先地位，但中国具有最显著的年度增长率，组织使用AI的比例增加了27%。欧洲紧随其后，增加了23%。

6、中国大陆在工业机器人领域的主导地位延续

中国大陆安装工业机器人的数量超过世界其他国家的总和。2023年中国大陆安装了276300台工业机器人，是日本的6倍、美国的7.3倍。自2013年超过日本以来，中国大陆在全球安装量中的占比已从20.8%上升到51.1%。

四、更精准蛋白质测序模型亮相，AI临床表现优于医生

2024年，AI在生物医学领域取得了重大突破，推动了科学研究和临床应用的快速发展。模型的规模、准确性不断提升，应用领域从实验室扩展到临床。AI研究更是在2024年斩获两项诺贝尔奖，获得学界认可。

1、更大、更好的蛋白质测序模型出现

2024年出现了包括SM3、AlphaFold 3等在内的几种大规模、高性能蛋白质测序模型。随着时间推移，这些模型规模显著增大，蛋白质预测准确率不断提升。

其中ESM3集成了多模态输入（序列、结构和交互数据），再加上其参数规模更大，提高了模型预测的代表性和准确性。随着ESM系列规模的扩大，蛋白质预测性能也得到了提高，2o04年发布的较新的模型ESM C在结构预测关键评估（CASP15）挑战中对蛋白质结构的预测准确性更高。

2、AI在科学进步中的作用不断扩大

2022年、2023年是AI驱动科技进步突破的早期阶段，但2024年AI应用在学术研究中获得了显著的关注，包括为生物任务训练Agent的Aviary和显著增强野火预测的FireSat。

3、AI临床应用增加

MedQA基准测试中，OpenAI o1得分达到96.0%的最高水平，比2023年的最高分数高出5.8个百分点，相比2022年底成绩提高了28.4个百分点。MedQA是评估临床知识的关键基准。

4、AI在关键临床任务上的表现优于医生

一项新研究发现，GPT-4本身在诊断复杂临床病例方面的表现优于医生。其他近期研究表明，AI在癌症检测和识别高死亡风险患者方面超越了医生。

5、合成数据在医学领域显示出巨大前景

2024年发布的研究表明，AI生成的合成数据可以帮助模型更好地识别健康的社会决定因素，增强隐私保护的临床风险预测，并促进新药物化合物的发现。

6、基础模型进入医学领域

2024年，一波大规模医学基础模型发布，从Med-Gemini等通用多模态模型到用于超声心脏病学的 EchoCLIP和用于放射学的ChexAgent等专用模型。

7、AI研究获得两项诺贝尔奖

谷歌DeepMind的Demis Hassabis和John Jumper因其使用AlphaFold在蛋白质折叠方面的开创性工作而获得诺贝尔化学奖。约翰·霍普菲尔德和杰弗里·辛顿因其对神经网络的奠基性贡献而获得诺贝尔物理学奖。

五、30%国家将计算机科学教育列为必修课

2024年，全球约有2/3的国家提供或计划提供计算机科学教育，30%的国家将计算机科学教育列为小学和/或中学的必修课程，其中欧洲是此类国家最多的地区。

2023年美国获得AI硕士学位的学生数量急剧增加，毕业生数量翻番。

2023年AI专业毕业生人数最多的美国高等院校中，卡内基梅隆大学数量最多。

结语：中国大陆民众整体对AI持乐观态度

AI正以前所未有的速度渗透到千行百业之中，调查显示，全球约2/3的人认为，AI驱动的产品和服务将在未来三到五年内显著改变日常生活。全球60%的受访者认为AI将在五年内改变工作方式，但仅36%担心其岗位会被取代。

绝大多数中国大陆民众（83%）认为，AI技术利大于弊，而在加拿大（40%）、美国（39%）和荷兰（36%），持此观点者仍占少数，但比例有所上升。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.