谷歌最强大模型登场！掀Agent风暴，放AI芯片大招，深夜突袭OpenAI|安卓|知名企业|agent|cloud|openai|视频生成模型

分享至

智东西
作者 ZeR0 程茜
编辑漠影

OpenAI的12天“圣诞大礼包”还没熄火，谷歌突然“插队”放出年末大招！

智东西12月12日报道，今日，谷歌重磅发布其迄今最强大的AI大模型Gemini 2.0，新功能包括原生图像生成和音频输出的多模态输出，并支持原生调用谷歌搜索、地图、Lens等工具。

其第一款新模型是Gemini 2.0 Flash的实验版本，速度是1.5 Pro的两倍。谷歌称，这款新模型专为AI Agent时代而设计，主打多模态+AI Agent。

基于Gemini 2.0 Flash，谷歌推出一大波AI Agent新品，包括今年5月轰动业界的通用AI助手原型Project Astra，还有能够作为实验性扩展在谷歌浏览器中完成多步骤复杂任务的Project Mariner，以及实验性AI编程Agent Jules、游戏Agent。

Gemini 2.0的发布，打响了迈向AI Agent新世界的关键一枪。

‌谷歌CEO桑达尔·皮查伊（Sundar Pichai）说：“如果说Gemini 1.0是关于组织和理解信息，那么Gemini 2.0是关于使其更加有用。”这也是其专注于AI Agent、多模态输出的原因所在。

Gemini和Gemini Advanced用户可在桌面端的模型下拉菜单中选择聊天优化版Gemini 2.0来试用。开发人员可通过Google AI Studio和Vertex AI在Gemini API中开始使用此模型进行构建。

本周，谷歌开始在搜索的AI概览中测试Gemini 2.0。1月份，Gemini 2.0 Flash将全面上市，同时将推出更多模型尺寸。明年年初，谷歌会将Gemini 2.0扩展到更多谷歌产品中。

Gemini 2.0背后的核心硬件也正式揭晓——Trillium TPU。

谷歌宣布其最强AI芯片Trillium TPU普遍可用，还详细介绍了谷歌云AI超级计算机架构，包括可集成超过100,000颗Trillium芯片的Jupiter网络。Trillium不仅在训练密集型大语言模型、MoE模型上性能更强，而且AI训练和推理性价比更高。亚洲AI大模型独角兽AI21 Labs已使用Trillium来开发语言模型。

此外，谷歌发布了一款名为Deep Research（深度研究）的全新AI工具。该工具擅长做研究工作，相当于一位AI研究生，帮你只用几分钟就能完成原本需要数小时的研究。

用户输入问题后，它会创建一个多步骤研究计划，在用户修改及批准后开始调用Gemini机器人深入分析来自网上的相关信息，并根据其关键发现生成一份详细的综合报告，并列上信息来源链接。用户可以要求Gemini扩展某些领域或调整报告，并将AI生成的研究导出到谷歌文档。

该工具当前仅向Gemini Advanced订阅者提供英文版，并将于明年年初在移动App中提供。

一、Gemini 2.0首款模型发布！多模态输出、原生调用工具、四大Agent

谷歌的官方博客显示，Gemini 2.0 Flash在关键基准测试中的速度是1.5 Pro的两倍。

除了支持图像、视频和音频等多模式输入外，Gemini 2.0 Flash现在还支持多模态输出，例如与文本混合的原生生成的图像和可操纵的文本转语音（TTS）多语言音频，还可以原生调用谷歌搜索、代码执行以及第三方用户定义函数等工具。

为了帮助开发人员构建动态和交互式应用程序，在此基础上，谷歌还发布了具有实时音频、视频流输入以及使用多个组合工具的能力的Multimodal Live API。

在AI Agent方面，谷歌宣布了对实验性功能的更新，包括通用AI Agent Project Astra、多步骤任务AI Agent Project Mariner、AI编程Agent Jules、游戏Agent。

1、通用AI Agent Project Astra：记住10分钟视频，更强agent能力

还记得谷歌今年5月展示的通用AI助手研究原型Project Astra吗？

这是一个全视、全听和全记忆的实验性AI助手，展示了通用AI助手的未来功能。你通过安卓App或原型眼镜来记录看到的世界，AI助手可以实时处理文本、图像、视频、音频，分析它所看到的内容并回答广泛的问题，还精通多国语言。

由Gemini 2.0提供支持的Project Astra更新版本，可以实现Agent（代理）能力。其最新改进包括：

更好的记忆：今年5月谷歌展示了早期版本只能记住45秒的视频，现在它已经能记忆10分钟的视频了，可以记住用户与其进行的更多对话和个人偏好，更具个性化。
更好的对话：能使用多种语言和混合语言进行交谈，并且能够更好地理解口音和不常见的单词。
新工具用途：使用Gemini 2.0的内置Agent框架，通过文本、语音、图像和视频回答问题并执行任务，在需要时调用谷歌搜索、Lens、地图等应用。
改善延迟：借助新的流媒体功能和本机音频理解，Agent以与人类对话相同的延迟理解语言，使对话感觉更自然。

谷歌正在扩大Project Astra的测试范畴，将新的反馈纳入更新中，包括优化其对各种口音及不常见单词的理解、减少延迟、将其集成到一些谷歌产品（如搜索、Lens、地图等）。

*后文有更详细的功能演示。

2、多步骤任务AI Agent Project Mariner：最佳工作结果83.5%，为保证安全目前需人类介入‌

Project Mariner‌是谷歌在Gemini 2.0模型基础上发布的一个实验性功能，‌其可以完成多步骤的复杂任务。

作为研究原型，Project Mariner‌能够理解和推理浏览器屏幕上的信息，包括像素和文本、编程、图像和表单等网络元素，然后通过实验性的谷歌扩展程序使用这些信息完成任务。

谷歌官方博客显示，根据WebVoyager基准进行评估，该基准测试Agent在端到端真实世界网络任务上的性能，Project Mariner作为单一Agent设置实现了83.5%的最佳工作结果。

‌在演示中，Project Mariner可以同时完成获取表单、找到公司官网、联系方式等多步骤任务，Agent会自动执行在谷歌搜索中查找电子邮件的过程，且这一过程中用户可以随时点击暂停和停止。同时，用户可以看到Agent每一步行动的推理步骤和计划。

尽管目前‌Project Mariner执行任务时较慢且并不总是准确，但从技术上讲，这表明了在浏览器中导航已经成为可能。

目前，该代理在完成任务时需要人类介入，如Project Mariner只能在浏览器的活动选项卡中键入、滚动或点击，并且它会在用户执行某些购买等敏感操作之前要求用户进行最终确认。

3、AI编程Agent Jules：直接集成GitHub，长期目标是构建通用Agent

谷歌还在探索Agent Jules的更新。Jules是一种直接集成到GitHub工作流程中的实验性AI驱动的编程Agent。

Jules可以解决问题、制定计划并执行它，所有过程都在开发人员的指导和监督下进行。在这一领域，谷歌的长期目标是构建在所有领域（包括编程）都有帮助的AI Agent。

4、游戏Agent：视频游戏导航，根据游戏动作推理、实时对话充当游戏交流

谷歌使用Gemini 2.0构建了游戏Agent，可以帮助用户在视频游戏的虚拟世界中导航。Agent可以仅根据屏幕上的动作来推理游戏，并在实时对话中提供下一步操作的建议。

目前，研究人员在与Supercell等游戏开发商合作，探索这些Agent从《部落冲突》等策略游戏到《Hay Day》等农业模拟器，在各种游戏中解释规则和挑战的能力。

未来，谷歌还在试验可以通过将Gemini 2.0的空间推理功能应用于机器人技术来在物理世界中提供帮助的Agent。

三、通用AI助手原型升级！能存储10分钟视频，开启Agent时代

谷歌发布了由Gemini 2.0提供支持的Project Astra更新版本的新演示视频。

测试者拿着安装了最新测试版Project Astra的Pixel手机，在伦敦附近遛弯并进行测试。比如收到包含公寓信息的电子邮件，你可以让AI助手告诉你门的密码，并记住它。洗衣服时，把衣服标签、机器图标拍给AI助手，它会告诉测试者正确的洗衣服方式。

测试者把推荐列表拍给AI助手，它能搜索列表中的地点，给出相应的信息。

当测试者走在街道上，扫过食物、雕塑或花卉，AI助手都能为询问作出解答。

测试者还把朋友在读的书发给AI助手，让它推荐符合朋友喜好的礼物，并讨论朋友可能感兴趣的点。

当偶遇一辆公交车，测试者问AI助手“那辆公交车能带我去唐人街附近吗？”AI助手会回复说：“是的，24路公交车经过莱斯特广场，离唐人街很近。”测试者继续追问路上有什么路标，AI助手也作出流利地回复：“你可能遇到的著名地标是威斯敏斯特大教堂、大本钟和特拉法加广场。”

除了使用手机外，测试者也戴上原型眼镜来使用Project Astra，并提出让它查看天气预报、询问旁边的公园是什么、查询能否骑自行车进入、这条路是否有超市等问题。

目前该AI助手仍有很多局限性，比如无法访问个人的电子邮件或照片，在嘈杂的环境中难以区分多个声音，并且无法执行设置计时器等操作任务等。

Project Astra产品经理Bibo Xu说：“它正在融合我们这个时代一些最强大的信息检索系统。”

四、基于AI Agent，探索保护用户敏感信息、遵循用户指令策略

在安全方面，谷歌在对多个实验原型进行研究的基础上，正通过迭代实施安全培训、与测试人员和外部专家合作，进行广泛的风险评估以及安全和保证评估。

谷歌与责任与安全委员会（RSC）合作以识别和了解潜在风险。
Gemini 2.0的推理功能使其AI辅助红队方法取得重大进步，包括从简单地检测风险到自动生成评估和训练数据以减轻风险的能力。
由于Gemini 2.0的多模态功能增加了潜在输出的复杂性，其将继续在图像和音频输入和输出方面评估和训练模型，以帮助提高安全性。
通过Project Astra，谷歌正在探索针对用户无意中与代理共享敏感信息的潜在缓解措施，并且其已经内置了隐私控制功能，使用户可以轻松删除会话。他们还在继续研究以确保AI代理充当可靠的信息来源，并且不会代表您采取意外操作。
通过Project Mariner，谷歌正在努力确保模型学会优先考虑用户指令，而不是第三方的提示注入尝试，以便它可以识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过电子邮件、文档或网站中隐藏的恶意指令等方式受到欺诈和网络钓鱼攻击。

五、Gemini 2.0背后的硬件功臣：谷歌最强AI芯片Trillium TPU普遍可用

全新Gemini 2.0由谷歌今年发布的Trillium TPU训练而成。Trillium是谷歌第六代TPU，也是迄今性能最高的TPU。

其相比上一代芯片的优化包括：超过4倍的训练性能，高达3倍的推理吞吐量，能效提高67%，每颗芯片峰值计算性能提高4.7倍，HBM容量翻倍，单个Jupiter网络有10万颗TPU，高至2.5倍的每美元训练性能、1.4倍的每美元推理性能。

今日，谷歌宣布如今Trillium TPU面向谷歌云客户普遍可用。

Trillium TPU是谷歌云AI超级计算机的关键组成部分，其架构采用了性能优化的硬件、开放的软件、领先的机器学习框架和灵活的消费级模型的集成系统。谷歌还对开放软件层进行了增强，包括对XLA编译器和流行框架的优化，以在AI训练、调优和服务方面实现大规模的领先性价比。

此外，使用大量主机DRAM（补充HBM）进行主机卸载等功能，提供了更高的效率。

每个Jupiter网络结构超过100,000颗Trillium芯片，具有13Pbps的对分带宽，能够将单个分布式训练任务扩展到数十万个加速器。

以色列AI大模型独角兽AI21 Labs已使用Trillium来加速开发下一代复杂语言模型。

1、扩展AI训练工作负载

Trillium通过部署12个包含3072颗芯片的pod实现了99%的扩展效率，并在24个包含6144颗芯片的pod中展示了94%的扩展效率，以预训练gpt3-175b。

谷歌使用4片的Trillium-256芯片作为基准，使用1片的Trillium-256芯片作为基准，当扩展到24个pod时，仍可获得超过90%的扩展效率。

在训练Llama-2-70B模型时，测试表明，Trillium以99%的扩展效率实现了从4片Trillium-256芯片pod到36片Trillium-256芯片pod的近线性扩展。

2、训练密集型和MoE大模型

与前几代产品相比，Trillium TPU具有更好的扩展效率。下图表中，其测试展示了与同等规模的Cloud TPU v5p集群相比，Trillium在12 pod规模下的99%扩展效率（总峰值FLOPS）。

与上一代云TPU v5e相比，Trillium为密集大语言模型（如Llama-2-70b和gpt3-175b）提供高达4倍的训练速度，为MoE模型提供了比上一代云TPU v5e快3.8倍的训练。

与Cloud TPU v5e相比，Trillium TPU提供了3倍的DRAM。在训练Llama-3.1-405B模型时，根据模型FLOPs利用率（MFU）测量，Trillium的主机卸载功能可将性能提高50%以上。

3、优化推理性能和收集调度

Trillium也为图像扩散模型和密集大语言模型提供了最佳的TPU推理性能。其测试表明，与Cloud TPU v5e相比，Stable Diffusion XL的相对推理吞吐量（每秒图像）提高了3倍以上，Llama2-70B的相对推理吞吐量（每秒token）提高了近2倍。

Trillium是谷歌在离线和服务器推理用例中性能最高的TPU。下图显示，与Cloud TPU v5e相比，Stable Diffusion XL的离线推理相对吞吐量（每秒图像数）提高了3.1倍，服务器推理相对吞吐量提高了2.9倍。

除了更好的性能，Trillium还引入了一个新的集合调度功能。这个特性允许谷歌的调度系统做出智能的作业调度决策，从而在一个集合中有多个副本时提高推理工作负载的总体可用性和效率。

它提供了一种管理运行单主机或多主机推理工作负载的多个TPU片的方法，包括通过谷歌Kubernetes Engine（GKE）。将这些片分组到一个集合中，可以很容易地调整副本的数量以满足需求。

4、提高嵌入密集型模型性能

第三代数据流处理器SparseCore更擅长加速动态和数据依赖操作。引入第三代SparseCore的Trillium将嵌入密集型模型的性能提高了2倍，将DLRM DCNv2的性能提高了5倍。

5、提高训练和推理性价比

Trillium还旨在优化每美元的性能。迄今为止，在训练密集大语言模型（如Llama2-70b和Llama3.1-405b）中，Trillium的每美元性能比Cloud TPU v5e提高了2.1倍，比Cloud TPU v5p提高了2.5倍。

在Trillium上生成1000张图像的成本比离线推理的Cloud TPU v5e低27%，比在SDXL上进行服务器推理的Cloud TPU v5e低22%。

结语：大模型狂飙冲向Agent时代

通用人工智能（AGI）热战在年末愈演愈烈。从亚马逊、OpenAI、Meta到谷歌，一系列重磅发布将大模型的竞争格局推向了新的高潮。

其中谷歌是少有的同时在大模型、云端基础设施、端侧智能方面同时占据优势的头部大模型企业。

在如火如荼的大模型竞赛中，执掌安卓操作系统的谷歌对端侧智能理解距离最近、理解最深。通过今日的一系列发布，谷歌进一步强化了Agent（代理）在智能手机、智能眼镜等端侧设备上的诱人前景。在更强大模型加持下，Agent将能够更广泛地为人类代劳，帮人类了解周围世界，提前进行多步骤思考，并在人类的监督下采取行动。

但AI系统仍具有相当多的不可控性。包括谷歌在内，大模型公司在将世界推向Agent时代的同时，必须竭力确保低风险，控制好安全的方向盘。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.