日期
06/27
2025
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

跨维智能发布GAT-Grasp:让机器人看懂你的手势,精准抓取万物
收藏
2025-06-27 15:38:15来源: 中国机器视觉网

想象一个场景:您希望家中的服务机器人能帮您“拿起桌上的水壶,并倒一杯水”。这个简单的指令,对人类来说轻而易举,但对机器人而言却蕴含着巨大的挑战。为什么?

那是因为,大多数现有方法都依赖于语言来指导机器人抓取和交互。然而,语言本身就是经过编译后的信息集合,对人脑来说,是精炼的,但是对于机器人来说,过于粗略。

例如上文拿起桌上的水壶,并倒一杯水,机器人首先需要准确识别水壶,在处理杂乱场景时需要大量图像分割;其次,它要理解抓取“壶柄”而非“壶身”,这需要精确的空间推理和定位能力,并调整抓取姿势和轨迹。现有模型在这些方面的精度和灵活性不足,导致机器人在复杂场景中执行失败的概率较高。

而人类会根据物体的形状、功能和预期用途自然地调整他们的抓取策略,在他们的手势中编码与任务相关的物体“功能”(Affordance)。

核心理念:从“指向”到“模仿”,双重手势解锁精确意图

基于这一发现,跨维智能近日发布最新研究成果:GAT-Grasp。它教会了机器人一种全新的、超越语言的沟通方式,即直接看懂人类的手势,从而精确理解并执行复杂的抓取任务。

微信图片_20250627153905.jpg

GAT-Grasp的巧妙之处,在于它将人类的意图分解为两个简单直观的动作:

1. “指哪” (Pointing Gesture):用户首先用手指指向目标物体,就像在说“看那里”。这个动作能帮助机器人瞬间锁定大致的操作范围,排除环境干扰。

2. “怎么抓” (Grasp Gesture):接着,用户做出一个模仿任务的抓取手势,比如一个“握住茶杯把手”或“捏起一支笔”的动作。这个手势蕴含了极其丰富的几何与功能信息,精确地告诉了机器人“抓哪里”和“用什么姿态抓”。

这种“指向+抓取”的双重引导,将人类脑海中复杂的空间意图,以一种机器人能直接“看到”和“理解”的方式进行了传递,远比任何语言描述都来得更直接、更精确。

揭秘背后:三大核心技术如何协同工作?

如此流畅的交互背后,是GAT-Grasp框架三大核心技术的精妙协同,它让机器人拥有了前所未有的学习与泛化能力。

· 技术核心一:机器人专属的“人类经验库”

我们首先构建了一个庞大的“功能区域记忆库” (Affordance Memory Bank)。它并非由工程师编写代码而成,而是从海量的人类与物体交互视频中学习得来。这个数据库就像一本百科全书,记录了人类在面对不同物体时,是如何通过手势来完成特定任务的,为机器人提供了无穷无尽的“经验”参考。我们当前的经验库已证明了框架的有效性,而其真正的力量在于其可扩展性——它被设计为能够持续从互联网的海量视频数据中进行扩增和学习,从而不断拓宽其认知边界,解决“数据覆盖不足”和“类别错配”等潜在挑战。

· 技术核心二:过目不忘的“类比学习”能力

当机器人看到用户的手势和目标物体时,它会启动“层级化检索与迁移”机制。这就像一个超级智能的搜索引擎:首先,它在“经验库”中寻找与用户当前手势最相似的案例;然后,再结合视觉信息,找到与眼前物体最匹配的一个。一旦锁定最佳范例,它就能利用先进的扩散特征(DIFT),将范例中的“抓取智慧”(如精确的接触点)直接迁移到眼前的这个全新物体上。这一过程,赋予了机器人“零样本” (Zero-shot)的能力——即无需任何额外训练,就能举一反三,应对从未见过的挑战。

微信图片_20250627153914.png

· 技术核心三:从“人类手势”到“机械爪姿态”的精准翻译

为了确保抓取的稳定与成功,GAT-Grasp还独创了“手-夹爪映射模块”。它能精确计算出人类手势所蕴含的功能性姿态(例如,为了端稳一碗汤,手掌需要保持水平),并将其“翻译”成机械爪必须执行的旋转角度。正是这种对细节的精准把控,让机器人的动作不再笨拙,而是充满了“巧劲”。

微信图片_20250627153918.png

不止于“抓得更准”:GAT-Grasp的深远价值

在真实世界的严苛测试中,GAT-Grasp 的表现证明了其卓越的先进性。

在布满杂物的复杂场景中,其抓取成功率全面超越了包括 GPT-4o在内的世界顶尖多模态大模型。这有力地证明,在精细的物理世界交互中,GAT-Grasp 这样专注而深刻的领域模型,比通用的基于语言的多模态模型更具鲁棒性与实用性。

微信图片_20250627153921.png

GAT-Grasp的价值远不止于此:

· 它定义了下一代人机交互范式: 未来,无论是工厂里的工人还是家中的老人,都能通过最自然的手势与机器人协作,极大地降低了技术的使用门槛。

· 它为通用物理智能奠定基础: 这种从人类行为中学习并迁移物理世界规律的思路,可以轻松扩展到更复杂的任务,如工具使用、双臂协同等,是通往通用机器人的关键一步。

作为该项研究的重要贡献者,跨维智能将继续致力于推动前沿AI技术与物理世界的深度融合。我们相信,一个由更智能、更体贴的机器人提供服务的未来,正因GAT-Grasp这样的创新而加速到来。

(文章来源于互联网,如有侵权,请联系删文)