网易首页 > 网易号 > 正文 申请入驻

Gemini 2.5 Flash 推出 “思考预算” 调低时可降低 AI 成本 600%

0
分享至

Google 今天推出了 Gemini 2.5 Flash,这是一款重要升级的 AI 产品,赋予企业和开发人员前所未有的掌控权,可以指定 AI 执行“思考”过程的程度。该新模型已通过 Google AI Studio 和 Vertex AI 以预览版形式发布,代表了 Google 在竞争愈发激烈的 AI 市场中,一边提升推理能力、一边保持具有竞争力的定价策略的战略努力。

该模型引入了 Google 所称的“思考预算”,这是一种机制,允许开发人员设定在生成回答前,分配多少计算资源用于处理复杂问题的推理。其做法旨在解决当前 AI 市场中的根本性矛盾:更高级的推理通常会带来更高的延迟和费用。

Google DeepMind Gemini 模型产品总监 Tulsee Doshi 在接受 VentureBeat 独家采访时表示:“我们知道成本和延迟对于许多开发人员的用例来说至关重要,因此我们希望为开发人员提供灵活性,可根据他们的需求调节模型的思考幅度。”

这种灵活性展现了 Google 在 AI 部署方面的务实方法,因为该技术正日益嵌入那些对成本可预测性要求极高的企业应用中。通过允许关闭或开启思考功能,Google 创造了其所谓的“首个完全混合推理模型”。

付费只为您所需的“脑力”:Google 新 AI 定价模型解析

新的定价结构突显了当前 AI 系统中推理的成本。在使用 Gemini 2.5 Flash 时,开发人员对于输入 Token 的费用为每百万 Token 0.15 美元。而输出费用则根据推理设置大幅变化:若关闭思考,则为每百万 Token 0.60 美元;若启用推理,则跳升至每百万 Token 3.50 美元。

这一近 6 倍的费用差异反映了“思考”过程计算负载之高,该过程中模型在生成回答前会评估多种可能性和考量因素。

Doshi 告诉 VentureBeat:“客户为模型所生成的任何思考和输出 Token 付费。在 AI Studio 的用户体验界面中,你可以在得到回答前看到这些思考过程。在 API 中,目前我们不提供查看思考过程的功能,但开发者可以看到生成的 Token 数量。”

思考预算可以在 0 至 24,576 Token 之间调整,其作用是作为上限而非固定分配。Google 表示,该模型会根据任务的复杂性智能决定使用多少预算,在不需要复杂推理时可节省资源。

Gemini 2.5 Flash 的表现如何:与领先 AI 模型的基准测试结果对比

Google 称,Gemini 2.5 Flash 在主要基准测试中展现了具有竞争力的表现,而且其模型规模比其他方案更小。在 Humanity’s Last Exam——一项旨在评估推理和知识的严格测试中,2.5 Flash 得分为 12.1%,表现超过 Anthropic 的 Claude 3.7 Sonnet(8.9%)和 DeepSeek R1(8.6%),尽管略逊于 OpenAI 最近推出的 o4-mini(14.3%)。

该模型在诸如 GPQA diamond(78.3%)和 AIME 数学考试(2025 年测试成绩 78.0%,2024 年测试成绩 88.0%)等技术基准测试上也取得了强劲成绩。

Doshi 表示:“企业应选择 2.5 Flash,因为它在成本和速度上提供了最优性价比。它在数学、多模态推理、长上下文处理等多个关键指标上相对于竞争对手表现尤为突出。”

业界分析师指出,这些基准测试结果表明 Google 正在缩小与竞争对手之间的性能差距,同时保持定价优势——这一策略可能会受到那些关注 AI 预算的企业客户的青睐。

智能与迅捷:何时需要让您的 AI 深度思考?

可调节的推理功能代表了企业部署 AI 模型的一大进化。传统模型往往让用户对模型内部的推理过程几乎毫无可见性或控制权。

Google 的方法允许开发人员针对不同场景进行优化。对于诸如语言翻译或基础信息检索等简单查询,可以通过禁用思考来实现最大成本效益;而对于需要多步推理的复杂任务,如数学问题求解或细致分析,则可以启用并细化思考功能。

一个关键的创新点在于该模型能够根据查询内容自动判断适当的推理深度。Google 举例说明:一个简单问题比如“加拿大有几个省?”只需极少量推理,而关于梁应力计算的复杂工程问题则会自动调用更深层次的思考过程。

Doshi 介绍说:“将思考功能整合到我们主线 Gemini 模型中,再加上全面的改进,使得答案质量得以提升。这些改进在包括评估事实性指标的 SimpleQA 在内的学术基准测试中均有体现。”

Google 的 AI 周:免费学生使用权和视频生成功能伴随 2.5 Flash 同步发布

Gemini 2.5 Flash 的发布正值 Google 在 AI 领域采取多项激进举措的一周内。周一,Google 向 Gemini Advanced 用户推出了 Veo 2 视频生成功能,允许用户将文本提示转换为八秒的视频剪辑。今天,在发布 2.5 Flash 的同时,Google 宣布所有美国大学生将获得免费使用 Gemini Advanced 的权利,直至 2026 年春季——分析师将此举视为围绕未来知识工作者建立忠诚度的努力。

这些公告反映了 Google 的多管齐下策略,以期在由 OpenAI 的 ChatGPT 主导的市场中竞争。据第三方分析,ChatGPT 每周活跃用户超过 8 亿,而 Gemini 估计月活跃用户约为 2.5 到 2.75 亿。

凭借对成本效率和性能自定义的明确关注,2.5 Flash 模型似乎专为那些需要精细管理 AI 部署成本同时又要求高端能力的企业客户而设计。

Doshi 表示:“我们非常期待开发人员就他们基于 Gemini Flash 2.5 构建的应用以及如何使用思考预算提供反馈。”

预览之外:Gemini 2.5 Flash 成熟后企业可期望的功能

尽管此次发布处于预览阶段,该模型已供开发人员开始构建应用使用,但 Google 尚未明确何时普遍可用。公司表示将根据开发者在预览阶段的反馈,继续完善这项动态的思考能力。

对于企业 AI 用户来说,此次发布提供了试验更细致 AI 部署方式的机会,有可能在高风险任务上配置更多计算资源,同时在常规应用中节约成本。

该模型也通过 Gemini 应用面向消费者提供,在模型下拉选单中显示为“2.5 Flash (Experimental)”,取代了之前的 2.0 Thinking (Experimental) 选项。这种面向消费者的部署表明,Google 正借助应用生态系统收集关于其推理架构的更广泛反馈。

随着 AI 越来越深入地嵌入企业工作流程中,Google 采用可自定义推理的方式反映了一个日趋成熟的市场,在该市场中成本优化和性能调优的重要性正逐步与原始能力并驾齐驱——这预示着生成式 AI 技术商业化的新阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏小伙在非洲当街被抢,开着爆了胎的汽车追三分钟取回失物,当事人讲述细节:检查轮胎时2人走来说2美金换胎,另外一个人过来开门抢包

江苏小伙在非洲当街被抢,开着爆了胎的汽车追三分钟取回失物,当事人讲述细节:检查轮胎时2人走来说2美金换胎,另外一个人过来开门抢包

潇湘晨报
2026-05-17 19:18:29
湖北省委:坚决拥护党中央决定

湖北省委:坚决拥护党中央决定

农民日报
2026-05-17 20:16:06
2女共侍1夫,关系却情同姐妹,生前“三人行”,死后三人葬同墓穴

2女共侍1夫,关系却情同姐妹,生前“三人行”,死后三人葬同墓穴

史之铭
2026-05-14 14:40:37
台湾星二代孙安佐又被抓,亲妈狄莺直播发疯,一家三口没一个正常

台湾星二代孙安佐又被抓,亲妈狄莺直播发疯,一家三口没一个正常

一盅情怀
2026-05-17 17:04:18
两架EA-18G空中相撞,四名飞行员惊险逃生!

两架EA-18G空中相撞,四名飞行员惊险逃生!

凑近看世界
2026-05-18 08:40:32
“我要是他们,我也会这么干”!去了一趟中国,鲁比奥有些变了!

“我要是他们,我也会这么干”!去了一趟中国,鲁比奥有些变了!

阿龙聊军事
2026-05-17 12:04:52
3-1,2-0!足坛悲喜夜!巴黎尤文爆冷,皇马巴萨赢球,国米遭绝平

3-1,2-0!足坛悲喜夜!巴黎尤文爆冷,皇马巴萨赢球,国米遭绝平

小徐讲八卦
2026-05-18 08:58:28
张嘉益有个规矩:片酬可以商量,必须给孙浩留个位置,跑龙套都行

张嘉益有个规矩:片酬可以商量,必须给孙浩留个位置,跑龙套都行

科学发掘
2026-05-17 09:41:03
未来一周,全国多地大雨笼罩

未来一周,全国多地大雨笼罩

新华社
2026-05-17 15:49:03
国家卫健委通报一批科研失信行为!涉深圳医院医生

国家卫健委通报一批科研失信行为!涉深圳医院医生

南方都市报
2026-05-17 18:02:32
詹姆斯下赛季合理年薪仅2190万!6大热门下家曝光,4队只能开底薪

詹姆斯下赛季合理年薪仅2190万!6大热门下家曝光,4队只能开底薪

钱说体育
2026-05-18 09:05:18
1-3!西汉姆3连败+最快2天后降级 热刺保级在望:2轮拿1分即上岸

1-3!西汉姆3连败+最快2天后降级 热刺保级在望:2轮拿1分即上岸

我爱英超
2026-05-18 06:29:47
俄媒:中美关系顺应新格局锁定新态势

俄媒:中美关系顺应新格局锁定新态势

参考消息
2026-05-17 18:48:07
38岁梅西获评8.9分+加冕MVP:一球一助攻,率队3连胜登顶,太牛了

38岁梅西获评8.9分+加冕MVP:一球一助攻,率队3连胜登顶,太牛了

侧身凌空斩
2026-05-18 08:11:18
物业打电话说我家阳台砸坏4辆车,赔偿90万。我回她:那房子还没交付,你再说一遍

物业打电话说我家阳台砸坏4辆车,赔偿90万。我回她:那房子还没交付,你再说一遍

瓜哥的动物日记
2026-05-18 03:43:16
刚下空军一号,懂王挥起镰刀

刚下空军一号,懂王挥起镰刀

鉴茶院
2026-05-18 07:16:23
重庆巫溪:影响恶劣,将依法依规对涉事相关责任人员作出严肃处理

重庆巫溪:影响恶劣,将依法依规对涉事相关责任人员作出严肃处理

澎湃新闻
2026-05-17 12:56:08
女演员道歉,爆上热搜第一

女演员道歉,爆上热搜第一

南方都市报
2026-05-17 15:36:23
历经8年艰苦谈判,贝尔湖归属终于有了结果,如今我国有多少面积

历经8年艰苦谈判,贝尔湖归属终于有了结果,如今我国有多少面积

抽象派大师
2026-05-18 00:09:20
后续!新娘换装拖46分钟宾客散场,监控曝光,她竟无视多次提醒

后续!新娘换装拖46分钟宾客散场,监控曝光,她竟无视多次提醒

宝哥精彩赛事
2026-05-18 07:00:43
2026-05-18 09:39:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18518文章数 49705关注度
往期回顾 全部

科技要闻

国产大模型“集体”更新后能力有多强?

头条要闻

牛弹琴:特朗普很焦虑 出访回国后几小时就召高官开会

头条要闻

牛弹琴:特朗普很焦虑 出访回国后几小时就召高官开会

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

卢昱晓道歉:认识到问题严重性!

财经要闻

安徽酒局上,还有多少古井贡酒?

汽车要闻

车长超5米/双动力可选 昊铂S600预售权益价18.89万起

态度原创

时尚
房产
旅游
数码
军事航空

夏天裤子不用多买,提前准备几条休闲的阔腿裤,百搭舒适显瘦

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

旅游要闻

云台山临时闭园!已预约游客可全额退款

数码要闻

AMD版P16s来了,96GB内存啥概念?

军事要闻

黎以停火再延长 空袭却未停止

无障碍浏览 进入关怀版