美国不是中国模版。
文丨王与桐
编辑丨程曼祺
今年 5 月,一批身高 1.72 米的新工人来到美国得州工厂上班,他们负责把一粒粒圆柱形的 4680 电芯从传输台上码放到面前的红色盒子里。他们不算熟练,甚至动作迟缓、笨手笨脚。但这批工人是 Optimus,特斯拉 2022 年发布的人形机器人,一切不一样了。
“完美的使用场景”“进步神速”“失业警告”,在特斯拉释放的机器人工作视频下,人们的评论有惊叹,有担忧。
王鹤却不这么想,他觉得 Optimus 目前阶段 “还是个 research(研究)”。
1992 年出生的王鹤,现任北京大学前沿计算研究中心助理教授和博士生导师,他本科毕业于清华大学电子系,博士毕业于斯坦福大学,在计算机视觉、机器人学和人工智能的顶级会议 CVPR ICCV 等上发表数十篇论文。
去年 5 月之后,王鹤被更多人关注到的身份是智能机器人公司 “银河通用” 的掌舵人。今年 6 月,银河通用以 7 亿元融资打破 2024 天使轮融资记录。
大部分公司做完整的人形机器人,王鹤认为,双腿现阶段不是最优解,徒增成本。“不是人形机器人的操作能力足够强,就差腿了。而是现在还有大量的活,传统机械臂操作不了。” 王鹤判断双手在场景落地上更有价值,而大量场景其实不需要双足运动能力,比如巡检、巡逻,机器狗和车一样能做。
银河通用的 Galbot 在捡垃圾,{出处:wuhan.bxiy6.com}它没有双腿,而是可折叠的单腿 + 轮式底盘。
获取足够多的数据是具身智能发展的难点,特斯拉、Google 都选择用 “遥操” 采集数据,即让真人戴上一些采集设备来完成机器人要学的动作。王鹤觉得这样算不过账:“Google 做十几万条数据,就用了十多个月、花费巨大。” 银河通用选择 all in “Sim2Real(从仿真到真机的迁移)”,即主要依靠合成仿真数据。
美国的人形机器人公司钱多、胆大,王鹤的一个观察是,这让他们没有严格地寻找 PMF(Product Market Fit,产品和市场的匹配),“在美国,既然有钱,就一口气把它全做了”。但缺乏真实数据、硬件不稳定等行业难题,必须要落在场景才能解决,所以他认为,要从第一天起就考虑商业化。
“我们不要把特斯拉做的东西奉为圭臬。” 王鹤说,中国的创业公司 “不能做到特斯拉那样不计成本且自产自销,还讲人家的故事,那只能是死路一条”。
王鹤不认同特斯拉,行业里不少人也不认同银河通用。以王鹤看中的 Sim2Real 为例,不少从业者认为仿真合成数据与真实世界天然存在差异,这会影响训练效果。银河通用的第一款机器人盖博特面世后,有对手说感觉 “松了口气”:“Demo 和实际的应用差距很大”,“写了很多抓取的论文,最后一只手是吸盘。”
更大的质疑是,现在不是创业做人形机器人的时机。一些投资人认为,现在这批公司会成为先烈,因为硬件、材料、能源等很多技术还不成熟。李开复讲具身智能,说 “我们肯定不能现在去投一个 10 年后才发生的事”;真格合伙人戴雨森说,具身还是黑莓时期,投不出 iPhone。
人形机器人和具身智能仍处于极早期阶段,而且这是一个链条长、技术栈复杂的行业,AI、材料、能源、机械控制;开发、制造、供应链管理、客户拓展,最终活下来的公司不能有短板[图文:wuhan.heiyancha.com]。
判断赢家还太早,这篇访谈记录了一位年轻科学家出发一年后看到了什么。他现在相信:大公司虽然掌握更多资源,但不一定正确,这是他的机会。
具身智能和人类社会的最大公约数
《晚点》:你从 2016 年开始研究如今的具身智能——把视觉模型、自然语言模型和机器人操作模型结合。从这些年的研发中你看到了什么?
王鹤:我在读博时就在做具身智能,当时还不叫 “具身智能”,2016 年时是把三个分立的视觉、语言和运动的小模型结合在一起,做出智能的桌面机器人。这个机器人可以看懂人类的动作、预测人类的需求并主动做出响应。
回国之后、创立这儿之前,我在宇树机器狗的后背装了一根臂,尝试让它做一系列操作。但发现计算、资源甚至整套系统,很多地方不能满足我们的需求。
当时觉得,如果不做硬件,就只能完全仰赖别人,系统研发迭代也会受限。机器人本体产业不存在时,很难只做智能。
《晚点》:后来发生了什么变化?为什么在 2023 年决定创业?
王鹤:具身智能的创业潮在中国的发酵更快更全面,主要原因是硬件和本体的成熟度。
美国的制造业不允许快速做出具身智能的完整 demo,美国零部件供应不全,很多东西都得进口,而且硬件工程师也很匮乏。而中国做硬件,能做到成本最低、可靠性最高,像宇树做人形机器人,几个人半年就做出来了。
但本体只是个大号玩具,下一步是智能上要怎么竞争。到 2023 年时,全球出现了 PaLM-E 等具身多模态大模型,多模感知与具身操作之间的火花被点燃。我决定在这个时间创业。
《晚点》:为什么你创业选择做人形机器人?具身智能的载体不一定是人形。
王鹤:确实存在各种形态,狗、飞机、车都是。但所有形态里,具身智能跟人类社会最大的公约数只能是 “人形”。
因为整个生产、生活环境都是为人设计的,人形能做的操作是最多的,未来数量也会最大,经济产值也最大。从愿景上说,具身智能和人形机器人可以划等号。
《晚点》:不少人认为具身智能的创业窗口还没到,现在这批公司会成为先烈,硬件、材料、能源等很多技术还不成熟。比如李开复讲具身智能,说 “我们肯定不能现在去投一个 10 年后才发生的事”;真格合伙人戴雨森说,具身还是黑莓时期,投不出 iPhone。
王鹤:我与李开复老师 2019 年见面时,他说还要 50 年,现在他已经从 50 年加速到 10 年了。
我们也不能用手机类比具身智能,从功能机到智能机,技术发生了很大变化,而现在具身智能的技术方向已经明确了:本体与大模型融合,成为通用机器人。
这时,下场越早,技术和数据积累就越多,会在后期拉开差距。机器人进入场景后,真实场景的数据会补足智能。后入局者极难超越一家已经有上万台机器人、不断有真实数据回流,并且已经在场景里踩过坑的公司。
这和自动驾驶类似,只有卖出足够量的车,才会有足够多数据,才能用数据更快完善算法。Google 和特斯拉之争,特斯拉就赢在车足够多。
具身智能有可能长成与车媲美的市场。它拥有与历次技术变革的特点:初期慢,逐步替代专用机器人;而一旦达到万台级规模,会加速替换传统产业。
《晚点》:一个事实是,具身智能创业热发生在 ChatGPT 和大模型热潮之后。但实际上大模型只能解决具身智能的小部分问题,所以会有人觉得现在还太早。
王鹤:具身智能是软件、硬件和算法融合的产物。现阶段它与大模型的结合点,一是通用感知和语言交流,这是在解决交互问题。比如有人来药店里问机器人,哪里不舒服应该吃什么药?熟悉药品名目和位置的机器人才能和人对话。
而针对物体的抓取和放置,发展VLA(Vision-Language-Action,视觉语言动作)大模型是另一个重要探索方向,但是受制于数据规模,还不是很理想。
总体看,大模型现在是辅助,但大模型和小模型结合,有可能更快通向通用机器人。
《晚点》:银河的路线就是三维视觉小模型 + 基础大模型,怎么理解?
王鹤:就像我们人有系统一、系统二,有快思考、有慢思考,前者是小脑的能力,在机器人里就是交互控制、灵巧操作等技能,这可以靠小模型处理;后者是大脑的能力,就是认知、理解、规划,用大模型解决。
这是一个三层系统:底层是硬件,中间层是能执行各种技能的小模型,上层是负责任务规划的基础大模型。机器人接到指令后,大模型负责调用中间层的小模型,小模型执行完后,大模型根据结果再研究下一步。
双足没那么重要,手才是关键
《晚点》:都是做人形,行业里多数公司的机器人有双腿,你们的第一款机器人盖博特(Galbot)是轮式底盘 + 双手。
王鹤:最本质的问题是,你的产品到底能给场景带来什么价值?双足只解决了通行问题,没有操作能力,这样就只能做巡逻、巡检等场景,这和过去用车和狗没有质的变化。
但双手能做传统机器人做不了的柔性生产,它们多是人力密集型产业里的糙活,比较容易泛化,想象空间和场景非常多,所以上半身的重要性高于下半身。
《晚点》:手的操作能力和双足的复杂运动能力哪个更难?大家设想的最终形态都是完整的人形,先做手的公司,会不会到时想补足运动能力时却跟不上?
王鹤:现在大部分操作都是双手实现的,所以我们先用 “手” 进入场景,腿的部分用可替代的、低成本通用轮式底盘,先有商业化,获得真实数据。
双腿的问题是无法在真实场景落地,所以做双腿的公司要拼持续融资能力,未来三年会大浪淘沙。当然随着双腿性能变好,价格合适,我们也会换上腿。
《晚点》:一起做为什么不是一个选择?
王鹤:因为不是人形机器人的操作能力足够强,就差腿了。现在还有大量的活,传统机械臂操作不了。
从实际使用去考虑,轮式机器人的成本和稳定性都远胜于双足。同等身高下,两条腿的 BOM(原材料成本)比一个轮式底盘贵十倍。而且双足还容易摔,机器人摔了就彻底坏了。
双腿现在的技术难题还有待突破,比双手场景落后很多。比如东西从货架掉到地上,现在全世界任何一个腿式人形机器人都做不到弯腰捡起来
《晚点》:下蹲对人挺简单的,为什么机器人做不到?
王鹤:最难的是全程维持身体平衡。腿的平衡能力有几个阶段:第一步是走路,第二步是上台阶,这就已经难倒了一批公司。第三步是弯腰,难点是重心会出来,再就是蹲和分腿蹲。这些腿部技能走向通用,学术界还没有摸索出来。
双腿是迟滞于双手发展的,对人也是这样,婴儿只会爬的时候,手就可以到处探索,但能站起来并稳定行走却要很久,很多人到六七岁还会摔跤。
其实双足走路二十年前就有 demo 了,今天真能在地上走个十分钟都没事的,屈指可数。很多双足机器人的稳定性根本达不到大家的期待。在具身智能领域,大脑的发展领先于双臂双手,双臂双手又领先于双腿。
《晚点》:特斯拉的人形机器人 Optimus 就是同时做双手和双足,现在都能在工厂工作了。
王鹤:Optimus 现在的工作场景跟腿没有任何关系,在工厂抓电池以及在车场里来回巡检,不需要双腿能力的提升。
而且很难算账:机器人成本是十几万、二十万美元【来源:wuhan.shapo21.net】,但干的活是把完全一模一样的电池放到五乘六共三十个格的盒子里,也就是把标准的电池放在标准的筐里,筐的位置都是定死的。这样的事情为什么需要具身智能?为什么不是用传统的工业自动化?
[图文:wuhan.szhychh.com]
《晚点》:银河通用盖博特(Galbot)在美团的药房分拣药品,这用机械臂也可以做,但你们也用了人形的上半身。
王鹤:我们做这个场景是要展示具身的能力,太难的东西目前技术还没发展到这一步,就先找能做的。特斯拉的场景本来就是用机械臂实现的,甚至不是在替代人。在药房中完成的是由人类完成的工作,难度本身就比特斯拉更高,其次只用工业自动化是没法实现的,因为不同的药品并不是标准品,不同的订单也不是标准需求。
不把特斯拉奉为圭臬,遥操解决不了数据问题
《晚点》:数据较少是现在具身智能的一个的难点:文本的数据现在有 15T,图片是 6B,视频是 2.6B,但机器人的数据只有 2.4M。特斯拉和 Google 都是通过 “遥操” 采集数据,即让真人穿戴采集设备完成机器人要学的动作,而银河通用是 “all in Sim2Real”,即仿真合成数据。为什么你们和他们不一样 ?
王鹤:遥操不是创业公司玩得起的。遥操要先雇很多人去重复做各种操作。得到一条有效数据,需要一台机器人和一个人一起花 30 秒或一分钟。
这是人形机器人和自动驾驶很不一样的地方。特斯拉做自动驾驶,可以让一百万车主花钱买车,总共开上亿小时,不需要额外花钱搞数据。而且开车就是一件事,工厂里的工种却种类繁多——打胶的、放电池的、拧螺丝的……不同任务间关联可强可弱。
特斯拉找了数十人在放电池的场景遥操,但之后绕线、组装等更多操作场景,就不止这些了。特斯拉有很多钱,有自己的工厂可以买自己的机器人,所以可以不计成本地去探索。创业公司不行。
虽然我不认同遥操是采集数据的主要手段,但我认同遥操发挥的远程接管作用。就像现在的无人驾驶会有远程监控员一样,机器人在场景里干活出问题了,现场没人,这个时候就可以遥操介入。
《晚点》:所以遥操是大厂的游戏?
王鹤:这是马斯克在讲的故事。我们不要把特斯拉做的东西奉为圭臬,实话实说,这就是个 research(研究){出处:wuhan.0517fcw.com}。
Google 做 RT(robot transformer,一种机器人控制算法) 时,有两百人左右的 “Every day Robots” 团队,做完 RT-1 后,这个部门就被裁撤了,就是因为商业模式不存在。
现在中国的具身智能公司,只有没有自己路线的才学美国的特斯拉和 Google。没有美国公司资本充裕,还讲人家的故事,那只能是死路一条。
《晚点》:这是不是也取决于做出通用机器人所需的数据的量,小于一个量级时,特别有钱的大公司或特别能融钱的创业公司也许也能跑通遥操路线?
【来源:wuhan.lsdjk.com】王鹤:我们自己的实验发现,比如在抓取这个任务上,在用灵巧手抓取没有见过的、随机乱放的物体时,在有十亿次抓取数据的情况下,机器人的成功率能到 86%,如果数据量缩到万分之一,也就是 10 万次抓取时,成功率就只有 58%。这说明具身智能也有清晰的 scaling law,它对数据有更大渴求。
而在真实世界里很难获得十亿量级的数据。Google 做十几万条数据,就用了十多个月、花费巨大。
《晚点》:仿真能让成本降低多少?
王鹤:通过仿真合成,一秒钟就可以把六十张图全部渲染完。相比采集真实世界的数据,合成数据几乎约等于不要钱。我们的第二曲线才是从真实世界里获得数据。
基于物理规律和优化算法,我们为每个物体合成 200 种不同的灵巧抓取,总计生成超过 130 多个类别共计 5000 多个物体的百万级物体抓取大数据。
《晚点》:不少人认为用仿真器(提供一个仿真虚拟环境的系统)得到的合成数据与真实世界的数据天然有差异,会影响训练效果。你们怎么解决?
王鹤:仿真器永远不可能完全真实,但 Sim2Real 路线也不需要仿真器完全仿真,它是硬件、算法和仿真联合优化的过程。
现阶段,仿真器是一个验证工具,用算法表达的数学物理模型才是获得抓取位资的核心。
仿真器仿确实有一些限制,比如我们的手去摸矿泉水水瓶,即柔性的、能形变的手去接触看似刚性、其实也能形变的物体,这个过程不是点接触,而是摩擦,这在物理上都没有被完美建模[图文:wuhan.0631yun.com]。
这时就需要我们的算法有极强的自适应能力,比如加触觉、加力控,学 “形”,抓了再控制,这样就能把仿真里最难的这部分问题规避掉。还有一个前提是,硬件要充分的鲁棒(Robust,指异常情况下系统也能相对稳定地运行)。
《晚点》:仿真器和数学物理模型等算法具体怎么配合?
王鹤:我们提出一套数学物理模型,高效搜索怎么抓,再用仿真器验证,这么抓是否可行。
这里还涉及强化学习和监督学习的差异。如果是强化学习,就是跟仿真器多次交互、试错,摸索出一条方案,这对仿真器的真实性会有不小的要求,足式行走就是完全靠仿真器强化学习 Sim2Real 的。但这是试出来的,效率比较低。
如果你能够告诉机器人怎么抓,就可以转化成监督性学习,那么学习效率会更高。我们就是用监督学习来习得二指和五指的抓取。
从第一天就考虑商业化
《晚点》:中国做人形的公司大多也在做别的产品,比如智元有商用清洁机器人,逐际和宇树都同时在做机器狗,而美国更多是直接推出人形机器人。为什么有这个差别?
王鹤:中美资本的充裕度不一样。在美国,既然有钱,就一口气把它全做了。像 Figure AI、特斯拉,这些公司都是走全人形的。但 Figure AI 现在 25 亿美金的估值,在 demo 里展示的操作,跟运动能力没有任何关系。美国的泡沫,让他们不需要按非常严格的 PMF(product market fit) 去思考问题。
今年 8 月,FigureAI 发布新机器人 Figure 02,它已能在宝马汽车工厂里做一些组装 demo。
《晚点》:你觉得更正确的路是一开始就要思考产品落地,这在人形机器人这样的前沿领域会不会太着急了?
王鹤:一方面还是数据问题。具身智能跟硬件绑定,所以如果机器人不到场景中铺开,很难获得大量数据。但又不能免费、大量铺出去,因为造本体的成本太高了。大模型不需要通过商业化去获取数据,是因为它普及的成本还是远低于机器人。
同时机器人也欠打磨。如果不在场景中对机器人长期观察,也无法将机器人迭代到能稳定工作的状态。这也是机器人赛道里没有 PPT 公司的原因。
《晚点》:你看到的产品落地方式是什么?
王鹤:第一步是在单一环境里,对多种物体做单一操作,比如在同一个厂房、同一条产线里,搬不同的东西。这是 Google RT-1 和特斯拉 Optimus 现在干的事,但 Optimus 处理的物体更少。这两个都还不是真正泛化,也就是通用化,还不能真正挣钱。
下一步,是机器人能在同行业里的不同场景,对不同物体做相同操作。比如在工业制造业,从能在车厂中拿零件扩展到在任意工厂能拿所有零件;在零售行业,从能在小超市里上货,扩展到也能在沃尔玛里上货。一次训练,击穿同行业不同场景,这就有很大价值了。
再下一步,才是更多任务、更多场景,跨行业全都 handle,不断走向通用。
《晚点》:整个行业现在都在第一步,这时怎么选第一个或第一批场景?
王鹤:任何一个行业里,只要是柔性生产但又没完全自动化的场景,具身智能机器人都有可能落地。尤其是制造业里有一些不显眼的操作,需求可能很强,需要的技术可能也不复杂。
我们要从易到难,从人力成本高到人力成本低,从需求量大到需求量小,逐个去做。
《晚点》:在药房里拿药符合你说的这个逻辑吗?还是因为美团投了你们,所以你们做了这个场景?
王鹤:我们希望基于同一套“移动抓取放置”技术在 to B 和 B to C 两种场景落地。
药房是 B to C 场景,货品单价高、夜间运营是刚需。我们的机器人可以替代夜间值班人员,抓药交给快递员,白天还可以上货和导购,与人打交道,为未来进入家庭铺路。
另外就是车厂这样的 to B 智能制造场景,厂家很希望用机器人替代人,实现柔性生产,可以支付高价,我们会从搬运和物料分拣这些应用入手,逐步融入汽车的产线。
《晚点》:你们的第一款机器人什么时候发售?
王鹤:今年 Q4 会接受小批量定单,定价在 50 万。{出处:wuhan.uv9000.com}
《晚点》:这在药房取药是不是太贵了?
王鹤:我们现在有两个主要销售方向,科研场景和类似美团这样的商业化的场景。这些场景的价格和配置是不同的。
我们卖给科研场景的是自带充分算力的可开发版本。而我们卖给商业场景的就不支持开发,会增加一些功能,削减另一些不必要的功能和算力,比如现在机器人上放的都是 OrinX 的卡,但在商业场景,计算可以放到云端。
现在科研场景的预定已经有几十台了。而在商业场景,从机器到服务,我们团队会全程负责。
《晚点》:你曾说过,银河有望把一套机器人的成本控制在 5 万元,那会是在什么时候?
王鹤:今年做不到,但当达到千台、万台时,我们会向这个目标不断接近。
《晚点》:有一个玩笑是,中国人形机器人的销量是靠创业公司、高校实验室等同行撑起来的。
王鹤:科研天花板肯定低,但科研是第一步。不可能一家成立一年的公司就能卖一千台机器人,除非是玩具。
《晚点》:我们聊了很多具身智能行业现在的非共识,你觉得现在的共识是什么?
王鹤:目前为止,尚未出现哪个具身智能的场景能产生规模化经济效益。怎么能挣钱没有共识,所以倒推的产品形态是什么,技术是什么,产业是什么,场景是什么,都没有共识。
没有共识是很好的事情。就是说如果大家都形成共识了,那么最后拼的就是成本、资源、人脉。这些要素都不是创业者擅长的,【来源:wuhan.voioa.com】对创业是不利的。
但是要畅想未来,技术的终局,进家 + 全人形 + 大模型,这个恐怕大家都能认同。
《晚点》:你会怎么形容现在一大批新企业追求 Embodied AGI 的历程?
王鹤:这是人类再次扮演造物主的过程。汽车产业也是完全被人创造出来的产业,通用机器人未来也是这样。我们当中也会出现像特斯拉一样的领军企业。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.