网易首页 > 网易号 > 正文 申请入驻

谷歌Gemini 2.5 Pro上线即“屠榜”!每经记者实测:可轻松模拟火星登陆,快速制作小游戏,但审美能力有待提升

0
分享至

每经记者:岳楚鹏 每经编辑:兰素英


图片来源:谷歌博客

当地时间3月25日,谷歌正式揭开其下一代AI模型系列——Gemini 2.5的神秘面纱,宣称这是其迄今为止“最智能的AI模型”。

首个发布的版本被命名为Gemini 2.5 Pro Experimental(以下简称“Gemini 2.5 Pro”)。谷歌表示,Gemini 2.5 Pro支持100万个token的上下文窗口,这意味着AI模型能一次性处理相当于两本《红楼梦》字数的文本量。

该模型一经发布,便在各大基准测试上全面“屠榜”,在所有测试中都稳居第一名的位置,包括常见的编程、数学和科学基准测试。

谷歌Deepmind首席技术官Koray Kavukcuoglu在博客中写道:“现在,通过Gemini 2.5,我们结合了显著增强的基础模型和改进后的后续训练,实现了全新的性能水平。未来,我们将把这种思维能力直接构建到我们所有的模型中,使其能够处理更复杂的问题,并支持更强大、更具情境感知能力的智能体。”

《每日经济新闻》记者(以下简称“每经记者”)也在第一时间对Gemini 2.5 Pro进行了测试,测试包括数学、火星登陆模拟测试、网页开发和小游戏制作。

测试结果显示,该模型在科学类问题和编程方面实力强大,用户只要会打字,就能进行编程。而且,生成速度极快,质量良好。与每经记者之前测试的多款大模型相比,Gemini 2.5 Pro在测试过程中几乎没有出现bug。不过,在网页设计审美和玩家体验等方面,该模型还有提升的空间。


Gemini 2.5 Pro上线即“屠榜”

当地时间3月25日,谷歌宣布推出全新AI模型系列——Gemini 2.5。谷歌首席科学家Jeff Dean表示,Gemini 2.5是该公司最智能的模型,具有令人印象深刻的高级推理和编码能力。

Gemini 2.5系列属于“思考模型”,这意味着该模型在生成最终回应之前,能够进行内部的“思考”或推理过程。谷歌表示,这种能力旨在显著提升模型的性能表现和答案的准确性,是谷歌在强化学习、思维链提示技术领域长期深耕,以及对早期 “思考” 模型(如 Gemini 2.0 Flash Thinking )持续探索的重要成果。

Gemini 2.5 Pro是这一系列模型的首发产品。谷歌表示,Gemini 2.5 Pro支持100万个token的上下文窗口,这意味着它一次性能处理相当于两本《红楼梦》字数的文本量。并且,谷歌承诺,Gemini 2.5 Pro很快将支持两倍的上下文窗口(即200万个token)。

目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中推出,向Gemini Advanced用户开放,并将很快在Vertex AI上推出。

一经发布,Gemini 2.5 Pro便以出色的性能吸引了外界的广泛关注。谷歌在博客中强调,Gemini 2.5 Pro在一系列行业基准测试中达到了“最先进水平”(state-of-the-art),包括常见的编程、数学和科学基准测试。

在“人类的最后考试”测试中,它获得了18.8%的最高分数,这是目前为止所有未使用(外接工具)的大模型中最好的成绩。“人类最后的考试”是一个由全球近千名专家共同设计的多模态基准测试,旨在评估大型语言模型的能力极限。该测试包含3000道涵盖数学、人文学科和自然科学等多个领域的前沿问题。


“人类的最后考试”测试 图片来源:谷歌官网

在专注于人类理解的大模型竞技场测试中,Gemini 2.5 Pro也以创纪录的优势拔得头筹,创下了历史最大的分数跨越,比Grok-3和GPT-4.5高出40多分。


图片来源:大模型竞技场

具体来看,在代号为“nebula”的测试中,Gemini 2.5 Pro横扫所有类别,夺得第一,独揽数学、创意写作、指令遵循、长查询和多轮对话这五大领域的冠军;


图片来源:X平台截图

在人类偏好测试中,Gemini 2.5 Pro同样是在所有类别中问鼎榜首,只在困难提示和编码领域与Grok-3/GPT-4.5拿到并列冠军。


人类偏好测试 图片来源:大模型竞技场

在网页开发领域,Gemini 2.5 Pro也是脱颖而出,在WebDev Arena上排名第二,它较上一代Gemini有了巨大的飞跃,超越了Claude 3.5 Sonnet,是第一款能与Claude抗衡的模型,但仍低于Claude 3.7 Sonnet。


WebDev Arena测试 图片来源:大模型竞技场

在Vision Arena(视觉竞技场)测试中,作为多模态模型的Gemini 2.5 Pro也处于领先的位置。


Vision Arena测试 图片来源:大模型竞技场


记者实测:编程方面实力强大,但审美及玩家体验待提升

每经记者第一时间对Gemini 2.5 Pro进行了测试,测试包括数学、火星登陆模拟测试、网页开发和小游戏制作。

数学问题

每经记者抛出的是一个博士资格考试的群论数学问题:有多少个147阶的非同构群?

Gemini 2.5 Pro在数量和具体的非同构群上都给出了完美的解答。值得一提的是,此前记者也用这一问题对其他大模型进行了测试,Grok3、o3-mini和DeepSeek-R1都或多或少出现了错误,不是数量没找对,就是具体的非同构群出错。


火星登陆模拟

接下来,每经记者测试的是Gemini 2.5 Pro在数学和物理方面的综合能力。测试选择的是马斯克的经典问题:绘制一个登陆火星并返回的火箭轨道图。

Gemini 2.5 Pro给出了一个完成度超高的动态图像,包含任务天数、具体轨道示意图等要素。并且,它还称,这只是一个简单版本,如果允许它接入天体数据库的话,它还可以制作一个更准确的版本出来。


网页开发

在前端设计方面,每经记者要求它设计一个有互动性的世界风光介绍网站。

Gemini 2.5 Pro输出了一个完整的网站,并且带有景点介绍和互动地图探索相关功能。但是,在具体细节上,它犯了很多小错误,例如,景点介绍的图片不仅单一,而且还都是不相关的内容。此外,整体网页设计的色调也不甚美观。




小游戏制作

最后,每经记者让Gemini 2.5 Pro制作一个类似于flappy bird的小游戏,标准是卡通画风,背景要随游玩时间变换,玩家主角要是一个小飞象,要有有趣的玩法创新。

在短暂的思考后,Gemini 2.5 Pro输出了完成这个游戏需要的500多行代码。这一游戏非常完美地契合了每经记者给出的描述,并且对玩法创新的模糊描述也给出了良好的回应,自行思考出了无敌道具玩法,吃下金花生就可以在短时间内无敌。

更重要的是,这一游戏并没有出现任何bug,只需要复制粘贴就可以流畅运行。

在此前的大模型测试中,第一次的输出结果或多或少会出现一些bug,影响游戏体验。不过,还是要指出的一点是,Gemini 2.5 Pro只考虑了背景变化的要求,却没注意到其生成的游戏背景图案中,云朵变化速度过快,太费眼睛。


综上,每经记者认为,Gemini 2.5 Pro在科学类问题和编程等硬实力上实力满满,但在审美和玩家体验等软实力上还有一点欠缺。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

“对等关税”落地,市场有望利空出尽!重视三大方向投资机会!

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
CBA最新消息!琼斯离开吉林男篮,周琦复出时间确定,孙铭徽回归

CBA最新消息!琼斯离开吉林男篮,周琦复出时间确定,孙铭徽回归

体坛瞎白话
2025-04-02 16:10:05
俄罗斯提醒中国:若解放军军武力收台,首先要摧毁美军西太基地

俄罗斯提醒中国:若解放军军武力收台,首先要摧毁美军西太基地

盒子里的密探
2025-01-10 10:00:11
“这位国务卿先生,为什么睁眼说瞎话?”

“这位国务卿先生,为什么睁眼说瞎话?”

新京报政事儿
2025-04-03 15:53:32
没有任何的歉意,缅甸军方出来回应:救援车队事前没有沟通!

没有任何的歉意,缅甸军方出来回应:救援车队事前没有沟通!

小企鹅侃世界
2025-04-03 09:48:47
蒋圣龙:斯卢茨基中场更衣室点名特谢拉,上海德比全队知道怎样做

蒋圣龙:斯卢茨基中场更衣室点名特谢拉,上海德比全队知道怎样做

雷速体育
2025-04-02 21:32:06
张子强团伙中,唯一听了李嘉诚建议买28套豪宅的青年,后来如何了

张子强团伙中,唯一听了李嘉诚建议买28套豪宅的青年,后来如何了

霹雳炮
2025-03-27 23:34:24
李泽钜辞去政协常委,李家备战未来布局引关注。

李泽钜辞去政协常委,李家备战未来布局引关注。

小晨同学啊
2025-03-29 23:04:09
那年当辅警去扫黄,我私下放走一个西装男,2天后领导叫我去办公室

那年当辅警去扫黄,我私下放走一个西装男,2天后领导叫我去办公室

红豆讲堂
2025-03-23 11:47:34
多家黄金珠宝品牌首饰金价突破960元/克大关

多家黄金珠宝品牌首饰金价突破960元/克大关

财联社
2025-04-03 10:39:14
梅州客家1-2不敌上海海港,赛后主帅里斯蒂奇的一句话尽显无奈!

梅州客家1-2不敌上海海港,赛后主帅里斯蒂奇的一句话尽显无奈!

田先生篮球
2025-04-03 00:03:04
起飞!湖人西部第三了!如果季后赛今天开始...

起飞!湖人西部第三了!如果季后赛今天开始...

生活新鲜市
2025-04-03 12:41:43
浙江女子因穿特色衣服坐地铁引发热议,网友感叹形象受损。

浙江女子因穿特色衣服坐地铁引发热议,网友感叹形象受损。

星辰生肖馆
2025-01-25 00:32:27
越南“内衣女王”玉贞,大尺度穿衣出席节目,观众大呼:掉下来了

越南“内衣女王”玉贞,大尺度穿衣出席节目,观众大呼:掉下来了

越南语学习平台
2025-04-03 09:46:35
172cm视觉暴击|黑裙高跟材质战|秒变人群焦点

172cm视觉暴击|黑裙高跟材质战|秒变人群焦点

小熊猫健身
2025-03-07 08:30:58
相差4岁,为何和林高远传绯闻?亮相机场,谁注意王曼昱打扮改变

相差4岁,为何和林高远传绯闻?亮相机场,谁注意王曼昱打扮改变

TVB的四小花
2025-04-03 14:56:38
俄罗斯对印度承诺:不卖巴铁步枪:巴铁盟友直接送50万支步枪

俄罗斯对印度承诺:不卖巴铁步枪:巴铁盟友直接送50万支步枪

Hi秒懂科普
2025-04-03 14:17:15
解放军鸣金收兵之际,特朗普给赖清德沉重一击,美国传来统一强音

解放军鸣金收兵之际,特朗普给赖清德沉重一击,美国传来统一强音

王墨观察
2025-04-03 15:04:12
俄罗斯空天军接收2025年第一批苏-35S 联合飞机制造公司生产提速

俄罗斯空天军接收2025年第一批苏-35S 联合飞机制造公司生产提速

hawk26讲武堂
2025-04-02 14:13:00
A股收评:创业板指跌1.86%!消费电子集体下挫,养殖业板块走强

A股收评:创业板指跌1.86%!消费电子集体下挫,养殖业板块走强

格隆汇
2025-04-03 15:40:09
全国人大常委会副委员长张庆伟吊唁缅甸地震遇难者

全国人大常委会副委员长张庆伟吊唁缅甸地震遇难者

澎湃新闻
2025-04-02 21:36:04
2025-04-03 16:39:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1204312文章数 2711944关注度
往期回顾 全部

数码要闻

英特尔Unison将停止服务 受业绩影响开发团队已经解散

头条要闻

搬运工买29份保单总保费454万 女儿崩溃:他月收入3千

体育要闻

被遗忘的皇马7号,打破了1135天进球荒

娱乐要闻

金赛纶家属反击:专业律师劝金秀贤认错

财经要闻

10%起步!特朗普的"对等关税"来了!

科技要闻

关税远超预期,苹果盘后重挫超7%

汽车要闻

全系800V+激光雷达 全新智己L6将于4月18日预售

态度原创

教育
数码
时尚
家居
旅游

教育要闻

追寻红色足迹,缅怀革命先烈!长清一中新疆高中班开展铸牢中华民族共同体意识主题教育研学活动

数码要闻

外媒评选2025年最佳智能眼镜 两款国产入选 你认可不?

“阔腿裤+德训鞋”也太好看了,初夏王炸组合,谁穿谁时髦

家居要闻

诠释东方神韵 展现大宅之美

旅游要闻

热闻|清明假期将至,热门目的地有哪些?