网易首页 > 网易号 > 正文 申请入驻

27B开源模型直追671B DeepSeek-R1,具身推理SOTA,谷歌三连发

0
分享至

从大语言模型到机器人,能力不断进化。

今日,谷歌来了波大爆发,包括:

  • 开源大语言模型Gemma 3
  • 机器人领域的模型Gemini Robotics
  • 开放原生图像生成能力Gemini 2.0 Flash

我们接下来一一介绍。

首先是谷歌开源模型家族Gemma的新成员——Gemma 3,它是一系列基于Gemini 2.0的轻量级SOTA开源模型。作为谷歌迄今最先进、最便携且最负责任开发的开源模型,Gemma 3专为多种设备设计,从手机、笔记本电脑到工作站,都能实现高速运行,帮助开发者在需要的任何地方创建AI应用。

Gemma 3提供多个版本,包括1B、4B、12B和27B,让开发者能根据特定硬件和性能需求选择合适模型。

Gemma 3在同等规模模型中性能卓越,并在LMArena排行榜的人类偏好评估中超越了Llama-405B、DeepSeek-V3和o3-mini等前沿大模型。在下图中,在取得与DeepSeek-R1相差不多得分的情况下,Gemma 3使用了前者1/32的GPU算力。

这使得用户可以在单个GPU(H100)或TPU上构建流畅的用户体验,并在体验到其它模型相似性能的同时节省至少10倍的算力。

同样在Chatbot Arena榜单中,Gemma-3-27b-it迈进了Top 10,击败了OpenAI的o1-preview和o3-mini-high,成为仅次于DeepSeek-R1的第二好的开源模型。

图源:
https://x.com/ai_for_success/status/1899732594486595918

Gemma 3的其他技术亮点包括如下:

  • 创建具备文本和视觉推理能力的智能应用:轻松构建能分析图像、文本和短视频的应用,为交互式智能应用开创新可能。
  • 通过扩展上下文窗口处理复杂任务:提供128k token的上下文窗口,使你的应用能处理和理解大量信息。
  • 利用函数调用创建AI驱动的工作流:支持函数调用和结构化输出,帮助你自动化任务并构建智能代理体验。
  • 通过量化模型提升性能和效率:提供官方量化版本,在保持高精度的同时减小模型体积和计算需求。
  • 支持140种语言的全球化应用:打造能说用户语言的应用程序。Gemma 3原生支持超过35种语言,并在预训练阶段覆盖了140多种语言。

此外,Gemma 3的技术报告已经放出,想要了解该系列模型更多细节的小伙伴可以移步查阅。

技术报告地址:
https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Gemini Robotics:将AI带入物理世界

Google DeepMind 推出了两个新的人工智能模型,旨在帮助机器人执行比以往更广泛的现实世界任务。

第一个模型名为 Gemini Robotics,是一个视觉-语言-动作模型,即使没有接受过相关训练,它也能理解周围最新情况。

第二个是 Gemini Robotics-ER,这是一种具有先进空间理解能力的 Gemini 模型,使机器人能够使用 Gemini 的具身推理 (ER) 能力运行自己的程序。

这两个新模型都是基于Gemini 2.0开发的。

Gemini Robotics: 最先进的视觉-语言-动作模型

机器人想要在现实世界中对人类真正有帮助,需要具备三个核心条件:通用性、交互性和灵巧性。

通用性:Gemini Robotics技术凭借对世界的深度理解能力,能够泛化到全新情境并解决各种任务,包括训练中从未见过的任务。Gemini Robotics尤其擅长应对新物体、多样化指令和新环境。技术报告数据显示,Gemini Robotics在综合泛化能力测试中的表现比其他最先进的视觉-语言-动作模型平均提高了一倍以上。

Gemini Robotics对世界理解能力的展示

交互性:为了在动态物理世界中高效运作,机器人需要能与人类及周围环境无缝互动,并迅速适应变化。

Gemini Robotics基于Gemini 2.0构建,拥有直观的互动能力。它凭借先进的语言理解技术,能够理解并响应日常对话和多语言指令。

与之前的模型相比,它能理解更广泛的自然语言指令,并根据用户输入调整行为。同时,它会持续监测周围环境,检测环境或指令的变化,并相应调整行动。这种被称为「可操控性」的能力,使人们能更好地在家庭和工作场所与机器人助手协作。

灵巧性:打造实用型机器人的第三个关键要素是灵巧的操作能力。人类轻松完成的日常任务,实际上需要精细的运动技能,这对机器人而言仍极具挑战。Gemini机器人能够应对复杂的精确操控多步骤任务,如折纸或将零食装入密封袋。

Gemini机器人展现出卓越的灵巧性

此外,Gemini Robotics系统设计具有强大的适应性,能够兼容各种形状和尺寸的机器人平台。虽然该模型主要基于ALOHA 2双臂机器人平台的数据训练,但研究证实它同样能有效控制基于Franka机械臂(学术实验室广泛使用的设备)的双臂系统。更值得注意的是,Gemini机器人还可针对更复杂的机身结构进行优化定制,如Apptronik开发的Apollo人形机器人,以应对现实环境中的多样化任务。

Gemini Robotics 致力于研究不同类型的机器人

增强Gemini的世界理解能力

除了Gemini Robotics ,谷歌还推出了一种名为Gemini Robotics-ER(Embodied Reasoning)的先进视觉-语言模型。该模型增强了Gemini对世界的理解,特别是在机器人技术所需的空间推理能力方面,同时允许机器人研发者将其与现有的低级控制器集成。

Gemini Robotics-ER显著提升了Gemini 2.0的现有功能,如指向和3D检测。通过结合空间推理与编程能力,Gemini Robotics-ER能够动态实现全新功能。例如,当识别到咖啡杯时,模型能直观推断出合适的双指抓取方式以抓住杯柄,并规划安全的接近路径。

Gemini Robotics-ER能直接执行控制机器人所需的全部步骤,包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的应用场景中,该模型的成功率是Gemini 2.0的2至3倍。当代码生成不足以解决问题时,Gemini Robotics-ER还能通过上下文学习能力,从少量人类示范中学习模式并提供解决方案。

Gemini Robotics-ER在具身推理能力方面表现出色,包括检测物体和指向物体部件、寻找对应点以及在三维空间中检测物体。

最后,谷歌开放了Gemini 2.0 Flash的原生图像生成能力。现在,开发者可以在Google AI Studio中使用实验版Gemini 2.0 Flash(gemini-2.0-flash-exp),并通过Gemini API体验这项功能。Gemini 2.0 Flash结合多模态输入、增强推理和自然语言理解来创建图像。

https://blog.google/technology/developers/gemma-3/

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
妻子是「元AV女优」 ,部下甩来一张十年前的AV封面,日本科长的五年婚姻一夜崩塌?

妻子是「元AV女优」 ,部下甩来一张十年前的AV封面,日本科长的五年婚姻一夜崩塌?

日本物语
2026-05-31 20:33:14
苹果第二波降价来了,iPhone 16 Pro 突然杀回来了

苹果第二波降价来了,iPhone 16 Pro 突然杀回来了

搞机小帝
2026-06-01 00:04:05
马尼大战!谁能夺冠?19w球迷投票一针见血,原因有3!

马尼大战!谁能夺冠?19w球迷投票一针见血,原因有3!

运筹帷幄的篮球
2026-05-31 16:58:10
小仙女“战败”!见面3次索要六一节礼物,610元嫌少,被男方怒斥

小仙女“战败”!见面3次索要六一节礼物,610元嫌少,被男方怒斥

火山詩话
2026-05-31 14:54:31
总决赛15连胜!卢伟狂赞张镇麟:今年引进他是一个非常正确的决定

总决赛15连胜!卢伟狂赞张镇麟:今年引进他是一个非常正确的决定

狼叔评论
2026-05-31 22:50:17
震惊!河南麦收“割分按亩”,网友调侃:不地道啊,坏了江湖规矩

震惊!河南麦收“割分按亩”,网友调侃:不地道啊,坏了江湖规矩

火山詩话
2026-06-01 06:43:31
NBA最大锦鲤诞生!总决赛未打却已夺冠,索汉诠释何为真正玄学!

NBA最大锦鲤诞生!总决赛未打却已夺冠,索汉诠释何为真正玄学!

田先生篮球
2026-05-31 11:53:57
国内油价6月4日再调整,油价或大跌,已预计下调“油价570元/吨”

国内油价6月4日再调整,油价或大跌,已预计下调“油价570元/吨”

油价早知道
2026-06-01 09:16:10
金靴+1!姆巴佩11场15球力压凯恩 获得本赛季欧冠金靴

金靴+1!姆巴佩11场15球力压凯恩 获得本赛季欧冠金靴

新英体育
2026-05-31 12:34:55
日本正式加入北约援乌PURL计划,俄罗斯被联大纳入冲突暴力黑名单

日本正式加入北约援乌PURL计划,俄罗斯被联大纳入冲突暴力黑名单

史政先锋
2026-05-30 20:55:28
莱奥渴望加盟曼联,自曝红魔梦!曼联未出手担心他是拉什福德第二

莱奥渴望加盟曼联,自曝红魔梦!曼联未出手担心他是拉什福德第二

罗米的曼联博客
2026-06-01 09:59:10
“割四赔五”事件终于尘埃落定,当事人父亲发声,令人动容

“割四赔五”事件终于尘埃落定,当事人父亲发声,令人动容

芳姐侃社会
2026-05-31 20:51:10
德比斯:天气一热张雪机车就出问题!回应网友:我不可能每场都赢

德比斯:天气一热张雪机车就出问题!回应网友:我不可能每场都赢

念洲
2026-06-01 09:39:16
降价2万!上汽大众官宣:全新SUV,价格下调

降价2万!上汽大众官宣:全新SUV,价格下调

科技堡垒
2026-05-31 09:34:47
余秋雨在印考察很沮丧,印前部长安慰:中国再过25年就能赶上我们

余秋雨在印考察很沮丧,印前部长安慰:中国再过25年就能赶上我们

抽象派大师
2026-05-30 04:21:16
三四个同事死死拽住,才没让他冲出去!药房医生当众扯下白大褂,只因一句……

三四个同事死死拽住,才没让他冲出去!药房医生当众扯下白大褂,只因一句……

医客
2026-05-30 12:14:19
中超半程积分榜:成都蓉城冠军,倒数7队均被扣分,2队积分未上双

中超半程积分榜:成都蓉城冠军,倒数7队均被扣分,2队积分未上双

中超伪球迷
2026-05-31 21:41:30
男子在野外水潭溺水沉底,广东大哥手拿绳子两次潜入深潭,从水下4米把人拖上岸

男子在野外水潭溺水沉底,广东大哥手拿绳子两次潜入深潭,从水下4米把人拖上岸

环球网资讯
2026-06-01 09:14:22
筱梅晒家庭照!小菲抱小儿子满脸宠溺!兰姐和亲家约饭,关系融洽

筱梅晒家庭照!小菲抱小儿子满脸宠溺!兰姐和亲家约饭,关系融洽

阿銍武器装备科普
2026-06-01 09:22:26
破大防!荷兰大臣曾向全球承认误判:没想到中国真敢叫停芯片出口

破大防!荷兰大臣曾向全球承认误判:没想到中国真敢叫停芯片出口

老鹈爱说事
2026-06-01 02:53:38
2026-06-01 11:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13127文章数 142656关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

头条要闻

牛弹琴:巴黎又乱了火光冲天 马克龙都看得目瞪口呆

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

艺术
旅游
教育
时尚
军事航空

艺术要闻

吴镇写竹,清清爽爽

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

教育要闻

打印准考证!2026山东高考|准考证打印全流程(含时间 + 入口 + 问题解答)

女人不管多大年纪,夏天都要准备一条白色阔腿裤,百搭又清爽

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版