清华团队打造BiManiBench:为机械人双臂合作才能评价立新标尺
2026-02-25 22:25:47
当人类厨师熟练地用双手处理食材时,看似简单的动作背后隐藏着复杂的神经协调机制。这种与生俱来的双臂协作能力,如今成为人工智能领域最具挑战性的课题之一。清华大学联合香港多所高校及北京人形机器人创新中心,在机器人双臂操作能力评估领域取得突破性进展,其研发的BiManiBench测试系统为评估机器人双手协作能力建立了全新标准,相关成果已发表于学术预印本平台。
研究团队通过系统分析发现,现有AI模型在处理双臂协调任务时存在显著短板。尽管多模态大模型在语言理解和图像识别方面表现优异,但当需要同时控制两个机械臂完成抓取、传递、组装等动作时,即便是最先进的模型也频繁出现失误。这种现象类似于人类中的"左撇子"与"右撇子"在协调双手时的天然差异,但机器人面临的是更复杂的空间计算和实时反馈问题。
该测试系统构建了三级评估体系:基础层考察空间推理能力,要求机器人根据物体位置选择最优手臂;中间层测试任务分解能力,需将复杂操作拆解为可执行的步骤序列;最高层则聚焦精确控制,要求机器人同时输出16维连续动作指令,控制两个7自由度机械臂完成协同操作。这种分层设计使评估体系既能检测基础能力,又能识别高级协调缺陷。
在测试过程中,研究团队对30余个主流AI模型进行了全面评估,涵盖闭源和开源系统。实验数据显示,在基础空间推理任务中,表现最佳的模型准确率可达95%,但随着任务复杂度提升,成功率显著下降。特别是在需要精确时序控制的堆叠任务中,即使最先进的模型成功率也不足67%,而开源模型普遍低于30%。这种性能断层暴露出当前AI架构在处理多肢体协调时的根本性局限。
评估机制的创新体现在评分系统的设计上。针对传统二元评分法的局限性,研究团队开发了高斯加权空间评分模型。该系统根据物体与中心线的距离动态调整评分权重,当物体位于中央区域时,系统对左右手选择的容错率提高30%。这种设计更符合人类实际操作中的模糊判断,避免了因微小位置偏差导致的误判。
为解决机器人视野遮挡问题,测试系统引入了多视角观察机制。通过同步处理第一人称视角的精细图像和第三人称视角的全局监控,模型能获得更完整的场景信息。但实验发现,这种多模态输入对计算资源要求较高,部分中小规模模型在处理多视角数据时反而出现性能下降,这为后续模型优化提供了重要参考。
在动作执行策略方面,研究团队提出了自适应截断机制。该系统根据任务类型动态设定最大连续动作数,当执行到预设阈值时强制暂停,要求机器人重新观察环境后再继续操作。这种"安全缓冲"设计使任务完成率提升22%,特别是在涉及动态物体的操作中,有效减少了因环境变化导致的失误。
深度错误分析揭示了不同模型的特性差异。以GPT-5和Gemini-2.5-Pro为例,前者在感知阶段错误率较高,常出现物体定位偏差;后者则在规划阶段问题突出,容易产生双手动作冲突。这种差异化表现提示研究者,提升双臂协调能力需要针对不同模型架构开发专属优化方案。
测试任务设计紧密结合实际应用场景,包含双手搬运、工具使用、物品排序等23类日常操作。在模拟厨房环境中,机器人需要完成"一手持碗一手倒水"的精细动作,这项任务使85%的测试模型出现液体洒落。这类贴近现实的测试场景,为评估机器人实用化程度提供了可靠依据。
技术突破体现在多个创新模块的集成。研究团队开发的视觉驱动智能体框架,能将复杂操作分解为可执行的子任务序列;操作臂分配反馈机制可在手臂选择错误时实时纠正;多视角融合算法则优化了空间感知能力。这些创新共同构成了完整的双臂协调解决方案。
当前研究仍存在局限性。所有测试均在仿真环境进行,未考虑真实世界中的机械误差、传感器噪声等因素;测试对象主要为刚性物体,对柔性材料操作的研究尚待深入;大型模型的推理速度也难以满足实时控制需求。这些挑战为后续研究指明了方向。
该成果对机器人产业发展具有重要推动作用。建立的标准化评估体系为厂商提供了客观比较基准,有助于引导技术路线向实用化方向发展。特别是测试中暴露的共性问题,为学术界和产业界协同攻关提供了明确目标。随着双臂协调能力的提升,服务机器人、工业协作机器人等领域有望迎来新的突破。
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19