网易首页 > 网易号 > 正文 申请入驻

Gemini 2.5 Pro 问世:提供更强大的性能和更出色的体验

0
分享至

继几个月前发布首个 Gemini 2.0 AI 模型后,Google 又推出了全新升级。该公司称新的 Gemini 2.5 Pro Experimental 是其"最智能"的模型,具有超大的上下文窗口、多模态能力和推理能力。Google 展示了一系列基准测试,显示新版 Gemini 远超其他大语言模型 (LLM),我们的测试也证实了这一点——Gemini 2.5 Pro 是我们见过的最令人印象深刻的生成式 AI 模型之一。

与 Google 未来所有的模型一样,Gemini 2.5 内置推理功能。AI 在生成输出的过程中会对自身进行事实核查。我们称之为"模拟推理",因为目前没有证据表明这个过程类似于人类推理。不过,这确实能大幅提升 LLM 的输出质量。Google 特别提到模型的"主动性"编程能力得益于这一过程。例如,Gemini 2.5 Pro Experimental 可以通过单个提示生成一个完整的可运行视频游戏。我们已经测试过这个功能,在公开版本中确实可用。

Google 对 Gemini 2.5 Pro 做出了诸多描述:更智能、更懂上下文、会思考—但很难量化生成式 AI 机器人的提升程度。不过,有一些明显的技术优势。Gemini 2.5 Pro 具有 100 万 token 的上下文窗口,这对 Gemini 大模型来说很常见,但相比 OpenAI GPT 或 Anthropic Claude 等竞争模型要大得多。你可以在单个提示中向 Gemini 2.5 Pro 输入多本很长的书,输出最多可达 64,000 个 token。这与 Flash 2.0 相同,但与其他 LLM 相比仍然是相当大的 token 数量。

当然,Google 已经对 Gemini 2.5 Experimental 进行了一系列基准测试,结果略高于其他 AI 系统。例如,在衡量 AI 回答科学和数学复杂问题能力的 GPQA 和 AIME 2025 测试中,它略胜于 OpenAI 的 o3-mini。在由领域专家策划的 3,000 个问题组成的"人类最后考试"基准测试中,它也创造了新纪录,Google 新 AI 的得分为 18.8%,而 OpenAI 为 14%。

这些试图客观衡量 AI 能力的方法效果如何还不清楚。有时,主观评估可能更有帮助——可以称之为"氛围评分"。Google 的新 AI 已经位居 LMSYS Chatbot 竞技场排行榜榜首,这是一个值得注意的成就。这表明用户普遍更喜欢 Gemini 2.5 Pro Experimental 的输出,而不是 OpenAI o3-mini、Grok、DeepSeek 等产品的输出。

即时 AI 升级

在使用 Gemini 2.5 Pro Experimental 时,我们也感受到了良好的体验。我们向 Gemini 2.5 提出了一些复杂的任务——这些任务经常让 2.0 模型感到困惑——升级后的 AI 处理得更好。编程、数学和科学问题的表现也比之前版本的 Gemini 更好。

Google 的新专业模型速度也非常快。它仍然像其他模型一样逐个输出 token,在"推理"过程中得出答案,但整体感觉比最新的 OpenAI 和 Anthropic 模型都要快。Google 拥有大量 AI 计算资源,这里显然得到了很好的利用。这也解释了为什么像 Gemini 2.5 Pro Experimental 这样的 Gemini 模型具有如此大的上下文窗口——在这种情况下,大约是 o3-mini 输入限制的五倍。而这仅仅是开始,Google 表示上下文窗口很快将增加到 200 万个 token。

几个月前发布时,Google 的 2.0 Pro 模型看起来相当令人印象深刻,但那个 AI 已经成为过去。Google 表示,Gemini 2.5 Pro 是 2.0 的直接替代品,拥有 Gemini Advanced 订阅 (每月 20 美元) 的用户都可以在 Google 的各种产品中使用它。新模型现在已在移动应用程序和网页上可用,也可以在 Google 的 AI Studio 中使用。它很快也将在 Vertex AI 中推出。

Google 尚未公布 Gemini 2.5 Pro Experimental 的 API 定价,但目前你能用它做的事情也不多。Google 设置了与旧实验模型相同的每日 50 条消息限制,目前是免费的。不过这种情况将会改变。Google 的 Logan Kilpatrick 在 X (前 Twitter) 上表示,2.5 Pro Experimental 将是第一个具有更高 API 限制和定价的实验模型。具体细节将在稍后公布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普抵达美国,走下“空军一号”,做出标志性动作 | 现场画面

特朗普抵达美国,走下“空军一号”,做出标志性动作 | 现场画面

农视网
2026-05-16 10:19:59
黄仁勋身价千亿却40年不离婚,背后是这位工资比他高的全职太太

黄仁勋身价千亿却40年不离婚,背后是这位工资比他高的全职太太

琴琴有氧运动
2026-05-16 05:34:48
海外谈中国:特朗普访华期间 巨大车顶的红旗SUV特种车辆引关注

海外谈中国:特朗普访华期间 巨大车顶的红旗SUV特种车辆引关注

hawk26讲武堂
2026-05-16 10:10:38
5月16日,多家上市公司发布重大利好利空消息

5月16日,多家上市公司发布重大利好利空消息

A股数据表
2026-05-16 06:00:24
悲催!网传上海某车企大规模裁员,N+1补偿,5月22日为最后离职日

悲催!网传上海某车企大规模裁员,N+1补偿,5月22日为最后离职日

火山詩话
2026-05-16 08:56:55
血亏!大阪世博会190台电动巴士全部报废,巨亏67亿日元

血亏!大阪世博会190台电动巴士全部报废,巨亏67亿日元

颤抖的熊猫
2026-05-15 10:41:43
其实他才是对华敌意最深的美国总统,差一点锁死咱们的崛起之路

其实他才是对华敌意最深的美国总统,差一点锁死咱们的崛起之路

开着车去流浪
2026-05-15 15:28:45
黄仁勋在北京逛街喝8元的蜜雪冰城,吃38元炸酱面,店员:面是我们请他品尝的,他说挺好吃

黄仁勋在北京逛街喝8元的蜜雪冰城,吃38元炸酱面,店员:面是我们请他品尝的,他说挺好吃

极目新闻
2026-05-15 16:47:54
他是黄仁勋的哥哥,从小在美国打拼,兄弟五官相似,对弟弟评价高

他是黄仁勋的哥哥,从小在美国打拼,兄弟五官相似,对弟弟评价高

揽星河的笔记
2026-05-15 23:49:40
夯爆了!黄仁勋彻底放飞二刷炸酱面!饭店门口狂吃,合影来者不拒

夯爆了!黄仁勋彻底放飞二刷炸酱面!饭店门口狂吃,合影来者不拒

派大星纪录片
2026-05-15 16:04:07
发生了什么?全球股市杀跌,2倍sk海力士闪崩20%,5倍大牛股被立案

发生了什么?全球股市杀跌,2倍sk海力士闪崩20%,5倍大牛股被立案

金石随笔
2026-05-16 00:14:16
北京这夜,马斯克和库克中间的56岁中国大妈火了,原来她这么低调

北京这夜,马斯克和库克中间的56岁中国大妈火了,原来她这么低调

阿伧说事
2026-05-15 18:59:12
人类财富天花板!马斯克身家飙升至5.8万亿,一人可敌160国

人类财富天花板!马斯克身家飙升至5.8万亿,一人可敌160国

爱看剧的阿峰
2026-05-15 18:33:01
美加墨世界杯版权落定,谈判最后24小时发生了什么?

美加墨世界杯版权落定,谈判最后24小时发生了什么?

第一财经资讯
2026-05-15 23:08:17
中国外长缺席金砖会议,西方没给印度面子,莫迪政府没法挑起大梁

中国外长缺席金砖会议,西方没给印度面子,莫迪政府没法挑起大梁

近史博览
2026-05-16 02:47:23
上海学者亲历中美国宴:“这样热络的交流氛围多年未见了”

上海学者亲历中美国宴:“这样热络的交流氛围多年未见了”

澎湃新闻
2026-05-15 20:32:28
马斯克儿子同款虎头包商家发声:泼天流量砸来,根本无法量产

马斯克儿子同款虎头包商家发声:泼天流量砸来,根本无法量产

童叔不飙车
2026-05-15 19:31:46
U17亚洲杯大冷!国足逆转沙特,产生2大不可思议,半决赛对手较弱

U17亚洲杯大冷!国足逆转沙特,产生2大不可思议,半决赛对手较弱

侃球熊弟
2026-05-16 03:42:34
从4000万腰斩至1700万!范弗利特为何甘愿降薪留守火箭?

从4000万腰斩至1700万!范弗利特为何甘愿降薪留守火箭?

田先生篮球
2026-05-15 22:55:21
中国气象局升级重大气象灾害(暴雨、强对流)四级应急响应为三级

中国气象局升级重大气象灾害(暴雨、强对流)四级应急响应为三级

新京报
2026-05-15 18:53:21
2026-05-16 11:39:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18478文章数 49705关注度
往期回顾 全部

数码要闻

米家冰箱Pro上架!4999元的自动制冰香吗?

头条要闻

美国媒体在天坛里寻找俄勒冈木材 被指非常耐人寻味

头条要闻

美国媒体在天坛里寻找俄勒冈木材 被指非常耐人寻味

体育要闻

35岁坎特,干了一件这辈子最吵的事

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

科技要闻

涨的是车价,要的是老命

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

健康
旅游
房产
游戏
公开课

专家揭秘干细胞回输的安全风险

旅游要闻

水上漫游、野奢露营、飞天凤凰……六安把全域旅游玩出了新花样

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

《星球大战:旧共和国》重启计划遭EA董事会否决

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版