确保机器人能够在现实环境中与人类顺利协作是实现大规模部署的关键一步。虽然一些机器人系统已经与人类代理进行日常互动,例如在部分自动化的工业和制造设施中,但日常任务中的人机协作仍然很少。
帕多瓦大学和剑桥三菱电机研究实验室 (MERL) 的研究人员开发了一个框架,用于帮助规划涉及人机协作的任务。该框架在arXiv服务器上预先发布的一篇论文中进行了介绍,专门用于协作组装复杂系统(包括各种底层组件,例如家具)的任务。
研究人员将他们的框架称为 DECAF,即基于离散事件的家具人机协作装配框架。DECAF 有各种底层组件,包括离散事件马尔可夫决策过程 (DE-MDP) 模型、装配过程的 HTM 描述和贝叶斯干扰模块。
Giulio Giacomuzzo、Matteo Terreran 及其同事在论文中写道:“人类被描述为一种不可控制的主体,这意味着主体不受预先设定的动作序列的约束,而是根据自己的偏好行事。与此同时,任务规划器会被动计算协作机器人的最佳动作,以便在尽可能短的时间内高效完成整个装配任务。”
借助新开发的框架,协作装配过程涵盖多个步骤。首先,机器人通过摄像头或其他传感器观察人类代理执行的操作。
根据这些观察,DECAF 模型为机器人规划了行动,以最大限度地提高机器人-人类团队完成手头装配任务的效率,同时在不可预测的事件发生后调整这些行动。该团队利用通常用于构建特定决策过程的数学框架(称为 DE-MDP)对家具或其他物体的组装进行建模。
Giacomuzzo、Terreran 及其同事写道:“我们将该问题形式化为 DE-MDP,这是一个综合框架,将各种异步行为、人类思维变化和故障恢复等随机事件结合在一起。”
“尽管理论上可以通过构建所有可能动作的图表来解决这个问题,但这种方法会受到计算限制的限制。所提出的方案提供了一种替代解决方案,利用强化学习为机器人得出最佳策略。”
本质上,DE-MDP 模型用于分解装配任务并确定最佳操作,使机器人能够与人类代理协作高效完成任务。DECAF 框架的第二个组件,即 HTM 模型,对各个子任务之间的相互依赖性进行编码,从而促进规划过程。
最后,该团队集成了一个基于贝叶斯干扰统计方法的模块,该方法通常用于随着更多信息的出现而不断更新给定假设成立的概率。该模块允许框架监控人类代理的行为,并利用这些行为预测人类代理的意图。
研究人员在一系列测试中评估了 DECAF,并在模拟和真实环境中进行了测试。在真实实验中,10 名成年参与者被要求与 7 自由度机器人操纵器(即 Franka Emika Panda 手臂)合作组装从宜家购买的椅子。
该团队进行的初步测试结果非常令人鼓舞。在模拟中,DECAF框架的表现优于标准规划策略,而在现实世界的实验中,它似乎提高了人机协作的效率和质量。
研究人员写道:“未来,我们计划纳入执行时间之外的其他最佳指标,例如人类安全性、动作相关性和人体工程学。”