中英文核心期刊咨询网
当前位置:首页>>论文发表动态 > 正文

张祯毅团队在《机器人》发表多差速机器人学习研究论文

时间:

  福州大学电气工程与自动化学院张祯毅团队在《机器人》发表论文《基于行为的多差速机器人强化学习任务监管器设计》。该研究提出一种多智能体强化学习任务监管器(MARLMS),解决了传统多智能体系统依赖人工设计规则决策行为优先级的难题,通过创新模型与算法设计,提升了多差速机器人系统的鲁棒性与实时性,已在AgileX Limo机器人系统上验证了实用性。

  多差速机器人系统广泛应用于物流、巡检等场景,需同时完成编队、避障等多冲突任务,但传统行为控制方法存在优先级切换僵化、依赖人工设计、实时性不足等问题。现有强化学习监管器(RLMS)采用质点模型,无法适配差速机器人的非完整约束,且难以发挥群体智能。

基于行为的多差速机器人强化学习任务监管器设计

  针对这些痛点,团队做出两大核心创新:一是在零空间行为控制(NSBC)框架中引入差速模型替代质点模型,首次推导具有非完整约束的NSBC范式,有效提升系统对最小极值状态的鲁棒性,避免机器人陷入困境;二是将行为优先级切换问题建模为协作式马尔可夫博弈问题,通过宽松Q学习算法学习最优联合策略,动态智能决策行为优先级,既无需人工设计规则,又降低了在线计算与存储负担。

  团队设计了编队保持、重构、避障三类基本行为,通过零空间投影组合形成复合行为,并构建包含状态值函数与行为优势网络的Dueling网络结构,提升决策精度。仿真测试显示,与现有主流监管器相比,MARLMS平均行为优先级切换次数更少,安全约束违反次数为0,在线迭代时间仅0.55ms,实时性远超模型预测控制监管器(MPCMS)的200ms。在未知障碍物场景及环境不一致情况下,该监管器仍能保证机器人完成编队与避障任务,展现出强泛化性。

  在AgileX Limo机器人系统的实验中,MARLMS成功实现机器人编队形成、动态重构与协同避障,轨迹光滑且无安全约束违反,性能优于有限状态自动机监管器(FSAMS)与传统RLMS。该研究为多差速机器人系统的智能协同控制提供了新方案,未来团队将进一步推进分布式任务监管器设计,提升系统可扩展性。

回到顶部