- 05/08
- 2025
-
QQ扫一扫
-
Vision小助手
(CMVU)
5月7日,星动纪元宣布,已与清华大学叉院的ISRLab合作,开源首个AIGC生成式机器人大模型VPP(Video Prediction Policy)。
VPP利用了大量互联网视频数据进行训练,直接学习人类动作,减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。
在今年的ICML 2025中,VPP从超12000篇投稿里脱颖而出,入选占比不到2.6%的Spotlight论文。
VPP:机器人界的“Sora”
当下,AI大模型领域有两大“巨头”流派——基于自回归的理解模型,比如大名鼎鼎的GPT;和基于扩散的生成模型,例如Sora。
GPT的思路演化到具身智能领域,就是以PI(Physical Intelligence)为代表的VLA技术,它从视觉语言理解模型(VLM)微调而来,擅长抽象推理和语义理解。
而生成式技术与机器人的碰撞,就诞生了VPP这样的生成式机器人大模型。
VPP分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。
第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过Video Former和DiT扩散策略进行动作学习。
以往机器人策略(例如VLA模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。而VPP能够提前预知未来的场景,让机器人 “看着答案” 行动,大大增强泛化能力。并且,VPP视频预测结果与机器人实际物理执行结果几乎一致,能被视频生成的,就能被机器人执行。
过去训练机器人策略(例如VLA模型),得反复拍很多它干活的视频,成本高又费时间。VPP就像个 “超级学霸”,不用盯着机器人实操,直接看网上海量人类干活的视频,比如扫地、炒菜,就能学会这些动作,提前 “脑补” 接下来场景,比如端水杯前知道可能会洒,提前调整动作。
高频预测和执行,反应超快不 “卡壳”
以前AIGC生成画面很慢,但往往花费大量推理时间,就像电脑加载视频要等好久。
星动纪元研究团队发现,不需要精确地预测未来的每个像素,通过有效提取视频模型中间层的表征,单步去噪的预测就可以蕴含大量未来信息。
VPP发现不用把画面每个细节都精准预测,抓住关键信息就行。这样一来,它预测下一步动作不到0.15秒,控制机器人的频率比普通模型快好几倍,干活一点不拖泥带水。
跨本体学习,技能 “共享” 超方便
不同机器人 “身材” “手臂” 不一样,以前教它们技能很麻烦。
VPP直接把机器人干活的视频当教材,连人类干活视频也能学,就像学做菜,看别人做一遍,自己就能上手。
在测试中,它完成任务的效率比老方法高41.5%,在仿真测试接近满分,真机测试成功率也有67%。
举一反三,真实世界表现 “全能”
在真实世界的测试中,VPP模型展现出了惊人的多任务学习能力和泛化能力,学习成果十分惊艳。
在星动纪元单臂+仿人五指灵巧手灵巧手XHAND平台,VPP能使用一个网络完成100多种精细操作,像叠衣服、拧瓶盖;在双臂机器人上,也能熟练搞定50多项复杂任务,比如包饺子、摆餐具。
可解释性与调试优化,问题一眼看穿
VPP的预测视觉表示在一定程度上是可解释的,开发者在不通过real-world测试情况下,通过预测的视频来提前发现失败的场景和任务,进行针对性的调试和优化。
如果机器人干活出错,VPP能通过预测的视频提前发现问题,就像看彩排视频找漏洞。而以前的模型,得让机器人反复实操,才能找到问题,VPP大大节省了调试时间。
如今VPP已全部开源,武功秘籍已经免费分享出来了。依托行业持续开源优质模型与技术的强劲动力,机器人技术必将开启全新篇章,具身AGI也将沿着这条创新之路阔步前行。
(文章来源于维科网,如有侵权,请联系删文)