这家人形机器人打算和家政一起干活了
当下,具身智能赛道正面临一个尴尬的现实:舞台上的机器人后空翻大放异彩,但它可能连自主把地上的拖鞋放回鞋架都做不到。
数据是制约机器人进化的瓶颈已然成为行业共识。
要打破这一瓶颈,行业亟需向真实的物理世界寻找交互数据。
在众多应用场景中,家庭生活所能产生的数据无疑是足具复杂性与训练价值的场景之一。家庭环境的本质是随机、碎片和不断变化的,例如猫随时会跳上桌子,地毯的摩擦力各不相同,散落的玩具毫无规律。
这种充满噪音和不确定性的数据恰是具身智能实现泛化的关键训练场。但该场景也是获取数据难度较高的阵地,核心壁垒在于隐私边界。让一台满载摄像头和传感器的设备进入私域空间,无异于挑战公众信任的底线。
但家庭场景也是获取数据难度较高的阵地,核心壁垒在于隐私边界。让一台满载摄像头和传感器的设备进入私域空间,无异于挑战公众信任的底线。
尽管面临较高的信任门槛,但为了获取真实的物理世界交互数据,已有机器人公司开始探索“入户”破局。
近日,自变量机器人宣布其搭载新一代具身智能基础模型WALL-B的机器人,将在5月25日后进入真实家庭。
在此之前,自变量机器人已与58同城合作,将搭载WALL-AS模型的机器人送入真实家庭,与保洁阿姨协同作业。
针对市场关注的隐私问题,自变量机器人给出的解法是进行端侧图像脱敏、授权机制以及数据用途限制。
据自变量创始人兼CEO王潜介绍:
一是视觉脱敏,机器人在设备端对原始图像进行实时打码处理,原始图像不离开设备,机器人看到的已经是去除个人特征的场景数据;
二是透明授权,用户主动按下同意键后方可开机,不存在“默认同意”,用户不同意则不开机;
三是用途限定,绝不共享第三方,机器人只认一个主人,发现可疑指令立即锁定。
新一代机器人所搭载的WALL-B模型采用基于世界统一模型(WUM)架构,将视觉、语言、听觉、动作放在同一个网络中从零开始联合训练,实现“多模态进、多模态出”。
如此设计的初衷是为了消除模块间的传输损耗,让模型原生具备感知重力、摩擦力等物理世界的“世界观”,并在真实的失败交互中实现自我迭代。
从进入家庭采集数据到数据反哺模型,这个商业逻辑闭环在理论上已经打通。
但客观来看,自变量机器人目前展现出的能力距离真正的“家庭服务”仍有落差。据全天候科技现场观察,该机器人的动作非常缓慢,例如完成插3朵花的动作需要耗时两分半钟。
王潜坦言,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。但其能够实现24小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。
支撑这场漫长“实习期”的是资本推力。
自变量近期刚完成由小米战投领投的近20亿元的B轮融资,此前更是在融资中集齐了美团、阿里和字节。
在豪华股东阵容的加持下,自变量机器人能否跑通“数据飞轮”,正受到关注。
