网易首页 > 网易号 > 正文 申请入驻

谷歌推出首款混合推理模型,思考程度可控,实现“按需付费”

0
分享至

自 2019 年起,让 AI 模型变得更强大的方法层出不穷。一种是使用更多训练数据,扩大模型规模;另一种则是针对什么是优质答案给出更精准的反馈。而在去年年底,谷歌和其他人工智能公司开始采用第三种方法——推理。

近日,谷歌发布首个混合推理模型 Gemini 2.5 Flash,该版本以 Gemini 2.0 Flash 为基础,在推理能力方面进行了重大升级,同时兼顾了速度和成本。

该模型引入了谷歌所谓的“思考预算”机制,允许开发人员指定在生成响应之前应分配多少计算能力用于推理复杂问题。有效解决了当今人工智能市场的一个根本矛盾:更复杂的推理通常以更高的延迟和更高的价格为代价。

使用 Gemini 2.5 Flash 时,开发者每百万 token 的输入成本为 0.15 美元。输出成本则根据推理设置而存在显著差异:关闭思考功能时每百万 token 为 0.60 美元,而启用推理功能时则每百万 token 为 3.50 美元。

推理输出的近六倍价格差异反映了“思考”过程的计算强度,其中模型在生成响应之前会评估多种潜在路径和考虑因素。思考预算可以从 0 调整到 24,576 个 token,作为最大限制而非固定分配。据谷歌称,该模型会根据任务的复杂性智能地确定使用多少思考预算,从而在不需要复杂推理时节省资源。

谷歌声称,Gemini 2.5 Flash 在关键基准测试中展现出极具竞争力的性能,同时保持了比其他同类产品更小的模型规模。在“人类最后一次考试”(一项旨在评估推理和知识的严格测试)中,2.5 Flash 的得分为 12.1%,优于 Anthropic 的 Claude 3.7 Sonnet(8.9%)和DeepSeek R1(8.6%),但略低于 OpenAI 近期推出的 o4-mini(14.3%)。该模型在知识问答(GPQA)和数学(AIME 2025/2024)等技术基准上也取得了优异的成绩。

DeepMind 首席研究科学家 Jack Rae 表示:“我们一直在推动模型思考。”这类模型旨在通过逻辑推理解决问题,为得出答案会花费更多时间。随着 DeepSeek R1 模型在今年早些时候推出,推理模型受到了广泛关注。它们对人工智能公司颇具吸引力,因为通过训练现有模型以务实方式解决问题,能提升现有模型性能,公司也就无需从头构建新模型。

当 AI 模型在查询上投入更多时间和精力时,运行成本也会更高。推理模型排行榜显示,完成一项任务的成本可能高达 200 美元。人们期望这些额外投入的时间和资金,能帮助推理模型更好地应对诸如代码分析、从大量文档中收集信息等具有挑战性的任务。

Google DeepMind 首席技术官 Koray Kavukcuoglu 认为:“对某些假设和想法思考得越深入,模型就越有可能找到正确答案。”但事实并非总是如此。Gemini 产品团队负责人 Tulsee Doshi 指出,模型确实存在过度思考的问题,他特别提到了 Gemini Flash 2.5。此次发布的模型中包含一个滑块,开发人员可通过它调节模型的思考程度。

模型在一个问题上耗时过长,不仅会增加开发人员的运行成本,还会加重人工智能的环境负担。Hugging Face 的工程师 Nathan Habib 对推理模型的广泛应用进行了研究,他表示过度思考的现象十分普遍。他指出,在急于展示更智能的人工智能的热潮中,企业们不管什么情况都想用推理模型,就像手里拿着锤子,看什么都像钉子。实际上,OpenAI 在 2 月份宣布推出新模型时表示,这将是该公司最后一个非推理模型。

Habib 称,对于某些任务,推理模型的性能提升“有目共睹”,但对许多其他人工智能的普通用户而言并非如此。即便将推理应用于合适的问题,也可能出现状况。他提到一个例子,一个领先的推理模型在处理有机化学问题时,一开始表现尚可,但推理过程中却突然 “崩溃”:不断重复 “等等,但是……”。最终,它在这项任务上花费的时间远超非推理模型。在 DeepMind 负责评估双子座模型的 Kate Olszewska 也表示,谷歌的模型同样可能陷入循环。

谷歌推出的新“推理”滑块就是为了解决这一问题。目前,该功能并非面向 Gemini 的消费者版本,而是供开发应用程序的开发人员使用。开发人员可以为模型处理某个问题时设定计算能力预算,如果某项任务无需太多推理,就可以调低 “思考程度”。开启推理功能后,模型的输出成本大约会提高 6 倍。

设置这种灵活性的另一个原因是,目前还难以确定何时需要更多推理才能得到更好的答案。Jack Rae 表示:“很难界定什么样的任务最适合深度思考。”像编码(开发人员可能会将数百行代码粘贴到模型中寻求帮助)、生成专业研究报告这类任务,很明显需要深度思考,开发人员可能会调高“思考程度”,并认为为此付出的成本是值得的。不过,还需要进行更多测试并收集开发人员的反馈,才能确定在哪些情况下中低 “思考程度”的设置就足够了。

Habib 表示,对推理模型的巨额投资表明,提升模型性能的传统模式正在发生改变。他说:“规模定律正在被取代。”如今,企业们更倾向于认为,让模型思考更长时间,比单纯扩大模型规模能带来更好的效果。多年来,人工智能公司在推理(即模型实际生成答案时)上的投入明显高于模型训练,并且随着推理模型的兴起,这一支出还会加速增长。同时,推理过程产生的碳排放也越来越多。

即便推理模型持续占据主导地位,谷歌也并非一枝独秀。去年 12 月和今年 1 月,DeepSeek 发布的成果引发股市市值下跌,因为它宣称能以较低成本打造强大的推理模型。该模型被称为“开放权重”模型,也就是说,其内部设置(即权重)是公开的,开发人员无需付费使用谷歌或 OpenAI 的专有模型,就能自行运行。

那么,既然像 DeepSeek 这样的开放模型表现如此出色,为什么还有人选择使用谷歌的专有模型呢?Kavukcuoglu 表示,在编码、数学和金融领域,人们对模型的准确性和精确性要求极高,期望模型能理解复杂情况。他认为,无论是否开源,只要能满足这些要求的模型就能脱颖而出。在 DeepMind 看来,这种推理将成为未来人工智能模型的基础,这些模型将代表你行动,为你解决问题。

他还提到:“推理是构建智能的关键能力。模型开始推理的那一刻,就具备了一定的自主性。”

https://www.technologyreview.com/2025/04/17/1115375/a-google-gemini-model-now-has-a-dial-to-adjust-how-much-it-reasons/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

易玄
2026-05-25 01:45:09
突然异动!002484,垂直涨停!000636,年内大涨近2倍!

突然异动!002484,垂直涨停!000636,年内大涨近2倍!

证券时报e公司
2026-05-28 12:22:10
国际油价,大涨

国际油价,大涨

第一财经资讯
2026-05-28 12:24:49
钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

林轻吟
2026-05-22 07:33:52
接受降薪,愿重回湖人!态度立场明确,佩林卡这次该感受到压力了

接受降薪,愿重回湖人!态度立场明确,佩林卡这次该感受到压力了

呆哥聊球
2026-05-28 12:40:33
比预制菜更恐怖的,是被科技狠活承包的现制餐

比预制菜更恐怖的,是被科技狠活承包的现制餐

蓝鲸新闻
2026-05-25 19:47:39
未来状元?克劳福德之子登顶29届球员榜单:球风像父亲+汉密尔顿

未来状元?克劳福德之子登顶29届球员榜单:球风像父亲+汉密尔顿

罗说NBA
2026-05-28 05:42:54
女子坐网约车对司机心动,高情商追爱!客服:我只是个工具人罢了

女子坐网约车对司机心动,高情商追爱!客服:我只是个工具人罢了

用车指南
2026-05-27 10:02:03
快讯!徐巧芯最近的操作确实让人开了眼!

快讯!徐巧芯最近的操作确实让人开了眼!

达文西看世界
2026-05-28 14:43:35
访华之行即将结束,武契奇重复两遍:不舍,但我会再来

访华之行即将结束,武契奇重复两遍:不舍,但我会再来

澎湃新闻
2026-05-28 12:49:23
“崩老头”赛道再升级:精神小妹们盯上了和尚道士

“崩老头”赛道再升级:精神小妹们盯上了和尚道士

木蹊说
2026-05-27 14:11:34
俄罗斯曝军火丑闻,3000中国零件不合格,损失3500万,5人被追责

俄罗斯曝军火丑闻,3000中国零件不合格,损失3500万,5人被追责

蜉蝣说
2026-05-25 17:47:56
苹果官网宣布:5月28日,旧 iPhone 又调价了!

苹果官网宣布:5月28日,旧 iPhone 又调价了!

搞机小帝
2026-05-28 00:06:19
夫妻割麦被刁难后续:村书记当场承诺 村民爆猛料 明年恐不会来了

夫妻割麦被刁难后续:村书记当场承诺 村民爆猛料 明年恐不会来了

小鋭有话说
2026-05-27 22:17:26
贝弗利:关于SGA的吹罚或许有争议,但乔丹、科比都会造犯规

贝弗利:关于SGA的吹罚或许有争议,但乔丹、科比都会造犯规

懂球帝
2026-05-28 15:37:13
记者暗访非法代孕窝点遭拖拽致骨折,中国记协:高度关注,第一时间联系有关方面,请当地认真核实情况,有关负责同志已看望慰问受伤女记者

记者暗访非法代孕窝点遭拖拽致骨折,中国记协:高度关注,第一时间联系有关方面,请当地认真核实情况,有关负责同志已看望慰问受伤女记者

极目新闻
2026-05-28 13:07:25
印度超50℃,每天热死几百人!莫迪丢下国民,自己跑国外“避暑”

印度超50℃,每天热死几百人!莫迪丢下国民,自己跑国外“避暑”

小陆搞笑日常
2026-05-28 13:17:18
长鑫存储概念股跳水,兆易创新大跌6%,澜起科技跌超3%

长鑫存储概念股跳水,兆易创新大跌6%,澜起科技跌超3%

21世纪经济报道
2026-05-28 10:46:14
郑丽文对外郑重宣言,坚守领土主权,台湾归属中国绝无更改可能

郑丽文对外郑重宣言,坚守领土主权,台湾归属中国绝无更改可能

那些不堪年华追忆流
2026-05-27 13:44:34
请天皇出山,高市拼了!日本政客:中日1949年后从未有的局面出现

请天皇出山,高市拼了!日本政客:中日1949年后从未有的局面出现

史智文道
2026-05-28 14:46:36
2026-05-28 17:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16759文章数 514983关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

媒体:林志玲请辞"文策院"董事 赖清德现在非常尴尬

头条要闻

媒体:林志玲请辞"文策院"董事 赖清德现在非常尴尬

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

健康
教育
亲子
数码
军事航空

打外泌体会比干细胞更安全吗

教育要闻

之子》哈哈哈哈哈哈哈哈

亲子要闻

下次可得带他们回国了,一看到国内的小零食都开心死了...

数码要闻

日系、韩系厂商都在加速退出!LG欲出售电视业务给中国厂商海信

军事要闻

美锁定伊朗打击新目标 考虑重启军事行动

无障碍浏览 进入关怀版