网易首页 > 网易号 > 正文 申请入驻

世界模型挑战赛,单项奖金10000美元!英伟达全新分词器助力下一帧预测

0
分享至


新智元报道

编辑:alan

【新智元导读】近日,人形机器人公司1X公布了世界模型挑战赛的二阶段:Sampling。一同登场的还有合作伙伴英伟达新发布的Cosmos视频分词器,超高质量和压缩率助力构建虚拟世界。

AI时代的机器人怎么训练?

去年3月,挪威人形机器人公司1X拿到了OpenAI领投的2350万美元,今年初又完成了1亿美元的B轮融资。

作为OpenAI投资的第一家硬件公司,1X给出的答案是:世界模型(World Model)。


在这个时代,世界模型将成为解决通用仿真和评估问题,实现安全、可靠、智能机器人的有效途径。

英伟达也表示,视频AI模型有望彻底改变机器人、汽车和零售等行业。

今年9月,1X介绍了自己的世界模型、新的高分辨率机器人数据集,并开启了一个三阶段的世界模型挑战赛。

10000美元挑战赛


第一个挑战是Compression,关于在极其多样化的机器人数据集上如何最大限度地减少训练损失。损失越低,模型就越能理解训练数据。

本阶段奖金10000美元,胜者为在给定的测试集实现损失8.0的第一个提交者。

截至小编码字的时刻,挑战依然有效。

第二个挑战Sampling于近日公布,侧重于通过给定前一帧序列来预测下一帧,从而产生连贯且合理的视频延续,准确反映场景的动态。


1X鼓励参赛者探索传统next-logit预测之外的各种未来预测方法。比如Generative Adversarial Networks(GAN)、Diffusion Models和MaskGIT等技术都可用于生成下一帧。

本阶段奖金同样为10000美元,要求提交的PSNR应达到26.5左右或更高,评估服务器将于2025年3月开放。

为了助力此方向的研究,1X发布了一个包含100小时原始机器人视频的新数据集,以及支持世界模型训练的机器人状态序列。


数据集地址:https://huggingface.co/datasets/1x-technologies

除此之外,1X还与英伟达的World Models团队合作,使用他们新发布的Cosmos视频分词器进一步处理视频序列,为机器人数据创建了高度压缩的时间表示。


1X World Model

在机器学习中,世界模型是一种计算机程序,可以想象世界如何响应智能体的行为而演变。

自动驾驶领域的发展,使视频生成和视频模型的研究获得了巨大进步。

下一步,便是用于训练机器人的世界模拟器


从相同的起始图像序列开始,世界模型可以预测不同机器人动作导致的多个未来。


向左,向右,向前看~

它还可以预测重要的对象交互,比如刚体、对象掉落的效果、部分可观察性:


可变形对象(窗帘、衣物):


铰接对象(门、抽屉、窗帘、椅子):


世界模型解决了在构建通用机器人时一个非常实用但经常被忽视的挑战:评估。

如果你训练一个机器人执行1000项任务,怎样才能确定与以前的模型相比,新模型使机器人在所有1000项任务中都做得更好?

另外,由于环境背景或环境照明的细微变化,即使是相同的模型权重,也可能在几天内性能迅速下降。


一个叠T恤模型在50天内的性能下降情况

如果环境随着时间的推移而不断变化,那么旧实验将不再可重现,尤其在家庭或办公室等不断变化的环境中,评估多任务系统将非常困难。

而如果没有办法进行严谨的评估,就无法预测增加数据、计算和参数量时,模型的能力将如何变化。

——机器人想要拥有自己的「ChatGPT时刻」, Scaling law必不可少。

基于物理的模拟

基于物理的模拟(Bullet、Mujoco、Isaac Sim、Drake)是快速测试机器人策略的合理方法,可重置、可重现。

但是,这些模拟器大多是为刚体动力学而设计的,

——如何模拟机器人手打开装有咖啡过滤器的纸板箱、用刀切水果、拧开冷冻的蜜饯罐或者与人类交互?


众所周知,家庭环境中遇到的日常物体和动物很难模拟,这些模拟器也缺乏现实世界用例的多样性,对real或sim中有限数量的任务进行小规模评估,并不能预测现实世界中的大规模评估。

正确的打开方式

直接从原始传感器数据中学习模拟器,并使用它来评估数百万个场景中的策略,无需手动创建即可吸收现实世界的全部复杂性。

——世界模型闪亮登场。


在过去的一年里,1X的研究人员收集了数千小时的EVE人形机器人数据(在家中和办公室执行各种移动操作任务,并与人互动),


将视频和动作数据相结合,训练了一个新的世界模型。


世界模型能够根据不同的动作命令生成不同的结果。

世界模型能够根据不同的动作命令生成不同的结果,其主要价值来自模拟对象交互。

比如下面这个例子,为模型提供相同的初始帧和三组不同的抓取操作。在每种情况下,被抓取的箱子都会根据抓手的运动被抬起和移动,而其他箱子则不受干扰。


即使没有提供操作,世界模型也会生成合理的视频,例如驾驶时应避开人和障碍物:


世界模型还可以生成长视距视频,比如完整的T恤折叠演示(T恤和可变形物体往往很难在刚体模拟器中实现)。

英伟达Cosmos分词器

分词器(Tokenizer)将冗余和隐式视觉数据映射到紧凑的语义token中,从而能够高效训练大规模生成模型,并在有限的计算资源上实现推理。

目前的一些开源视频和图像分词器经常产生糟糕的数据表示,导致有损重建、图像失真和视频时间不稳定,并限制了建立在分词器之上的生成模型的能力。

低效的分词过程还会导致编码和解码速度变慢,训练和推理时间变长,从而对开发人员的工作效率和用户体验产生负面影响。

英伟达于近日开源了全新的分词器Cosmos,在各种图像和视频类别中提供了极高的压缩率和极高的重建质量。


Cosmos支持具有离散潜在代码的视觉语言模型(VLM)、具有连续潜在嵌入的扩散模型,以及各种纵横比和分辨率。

分词器架构

Cosmos分词器使用复杂的编码器-解码器结构,核心是一个3D因果卷积块,用于同时处理时空信息,并使用因果时间注意力来捕获数据中的长期依赖关系。

因果结构确保模型在执行分词时仅使用过去和现在的帧,避免将来的帧。这对于与许多现实世界系统的因果性质保持一致至关重要,例如物理AI或多模态LLM。


使用3D小波(可以更高效地表示像素信息的信号处理技术)对输入进行下采样,处理完数据后,逆小波变换会重建原始输入。

这种方法提高了学习效率,使分词器的可学习模块能够专注于有意义的特征,忽略多余的像素细节。

在推理测试中,与领先的开源分词器相比,Cosmos分词器的重建速度提高了12倍,显著降低了模型的运行成本。


与连续型分词器PK:


与离散型分词器PK:


有图有真相:


参考资料:

https://x.com/ericjang11/status/1854226268763644148

https://www.1x.tech/discover/1x-world-model-sampling-challenge

https://github.com/NVIDIA/Cosmos-Tokenizer

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从美国遣返的华人衣衫单薄,在街头冻得直打哆嗦

从美国遣返的华人衣衫单薄,在街头冻得直打哆嗦

大风文字
2024-11-26 12:47:29
3年停用胰岛素!中国团队官宣攻克糖尿病,下一个是青春科技?

3年停用胰岛素!中国团队官宣攻克糖尿病,下一个是青春科技?

水皮M0RE
2024-11-25 17:49:49
大搞权钱权色钱色交易!黑龙江省原副省长王一新被公诉

大搞权钱权色钱色交易!黑龙江省原副省长王一新被公诉

正义网
2024-11-26 10:05:02
网传注册资本26亿多的南京大厂减员通知出炉!发最低工资的80%…

网传注册资本26亿多的南京大厂减员通知出炉!发最低工资的80%…

火山诗话
2024-11-26 07:24:21
特斯拉杀疯了!5000元不到的两轮电动车,小电动车市场要变天了!

特斯拉杀疯了!5000元不到的两轮电动车,小电动车市场要变天了!

猫小狸同学
2024-11-26 12:30:02
某知名电视台发不出工资?女子自曝:34岁做了8年编导被裁,所在部门被一锅端

某知名电视台发不出工资?女子自曝:34岁做了8年编导被裁,所在部门被一锅端

可达鸭面面观
2024-11-25 21:30:30
新中导“榛树”亮相,俄乌都面临难题

新中导“榛树”亮相,俄乌都面临难题

环球网资讯
2024-11-26 07:12:13
特朗普据悉考虑任命金融家为美国国防部副部长

特朗普据悉考虑任命金融家为美国国防部副部长

界面新闻
2024-11-25 08:21:06
罕见人生|被忽视的“胎记”:女儿确诊罕见病后,一个父亲发起病友自救

罕见人生|被忽视的“胎记”:女儿确诊罕见病后,一个父亲发起病友自救

澎湃新闻
2024-11-25 16:44:34
中德合作破获系列强奸案始末

中德合作破获系列强奸案始末

新京报
2024-11-26 14:34:50
石破茂偷拿尹锡悦零食吃的原因找到了!他的家境属贫下中农

石破茂偷拿尹锡悦零食吃的原因找到了!他的家境属贫下中农

大风文字
2024-11-26 10:37:23
搬起石头砸自己的脚!分手复合又打胎,黄晓明说希望是一场梦

搬起石头砸自己的脚!分手复合又打胎,黄晓明说希望是一场梦

晓徙历史
2024-11-26 09:43:17
刚刚!特朗普发起进攻,机构:人民币将跌至7.5,这6个行业小心了

刚刚!特朗普发起进攻,机构:人民币将跌至7.5,这6个行业小心了

鹏哥投研
2024-11-26 12:13:33
老人直播间买千件珠宝首饰投资,花光儿子婚房钱70多万

老人直播间买千件珠宝首饰投资,花光儿子婚房钱70多万

极目新闻
2024-11-25 11:44:17
普京告诉特朗普,就算不用核弹你也会输,中国已出手卡住老美脖子

普京告诉特朗普,就算不用核弹你也会输,中国已出手卡住老美脖子

闫树军论评
2024-11-25 09:10:17
马云想让黄渤免费代言,黄渤:“可以,你送我一辆车吧!”马云问:“你想要什么车?”黄渤的回答情商太高了

马云想让黄渤免费代言,黄渤:“可以,你送我一辆车吧!”马云问:“你想要什么车?”黄渤的回答情商太高了

李东阳朋友圈
2024-11-25 15:47:56
注意!美签系统大改革!将于2024年12月7日全面升级!

注意!美签系统大改革!将于2024年12月7日全面升级!

留学咖啡馆
2024-11-26 08:33:27
普京创了历史!灭国级导弹在乌克兰爆炸,俄还是“手下留情”了

普京创了历史!灭国级导弹在乌克兰爆炸,俄还是“手下留情”了

空天力量
2024-11-25 19:18:59
普京心碎,特朗普当不成总统了?前美国官员:拜登或要发动核武器

普京心碎,特朗普当不成总统了?前美国官员:拜登或要发动核武器

现代小青青慕慕
2024-11-26 08:15:16
民心所向!派出所民警欧打学生事件反转,全国网民赠送锦旗致敬…

民心所向!派出所民警欧打学生事件反转,全国网民赠送锦旗致敬…

火山诗话
2024-11-25 19:31:24
2024-11-26 16:55:00
新智元
新智元
AI产业主平台领航智能+时代
11786文章数 65704关注度
往期回顾 全部

科技要闻

Mate70售5499起,余承东:对得起那四个字

头条要闻

中国铁建投资集团副总马建军被指坠楼身亡 公司回应

头条要闻

中国铁建投资集团副总马建军被指坠楼身亡 公司回应

体育要闻

37岁,他用“半条右腿”重返巅峰

娱乐要闻

分手复合又打胎,黄晓明说希望是一场梦

财经要闻

洪灏刘煜辉对谈实录 涉及A股、债务等!

汽车要闻

第五代胜达 2.0T动力20万就能拿 专业空间选手

态度原创

家居
房产
旅游
公开课
军事航空

家居要闻

色彩搭配 活跃空间气氛

房产要闻

合生把上百个亿万富豪搞破防了

旅游要闻

晓华带火一座城,用心对文旅部门有多重要?

公开课

一块玻璃,如何改变人类世界?

军事要闻

新中导“榛树”亮相 俄乌都面临难题

无障碍浏览 进入关怀版