张祯毅团队在《机器人》发表多差速机器人学习研究论文

时间：

　　福州大学电气工程与自动化学院张祯毅团队在《机器人》发表论文《基于行为的多差速机器人强化学习任务监管器设计》。该研究提出一种多智能体强化学习任务监管器(MARLMS)，解决了传统多智能体系统依赖人工设计规则决策行为优先级的难题，通过创新模型与算法设计，提升了多差速机器人系统的鲁棒性与实时性，已在AgileX Limo机器人系统上验证了实用性。

　　多差速机器人系统广泛应用于物流、巡检等场景，需同时完成编队、避障等多冲突任务，但传统行为控制方法存在优先级切换僵化、依赖人工设计、实时性不足等问题。现有强化学习监管器(RLMS)采用质点模型，无法适配差速机器人的非完整约束，且难以发挥群体智能。

基于行为的多差速机器人强化学习任务监管器设计

　　针对这些痛点，团队做出两大核心创新：一是在零空间行为控制(NSBC)框架中引入差速模型替代质点模型，首次推导具有非完整约束的NSBC范式，有效提升系统对最小极值状态的鲁棒性，避免机器人陷入困境;二是将行为优先级切换问题建模为协作式马尔可夫博弈问题，通过宽松Q学习算法学习最优联合策略，动态智能决策行为优先级，既无需人工设计规则，又降低了在线计算与存储负担。

　　团队设计了编队保持、重构、避障三类基本行为，通过零空间投影组合形成复合行为，并构建包含状态值函数与行为优势网络的Dueling网络结构，提升决策精度。仿真测试显示，与现有主流监管器相比，MARLMS平均行为优先级切换次数更少，安全约束违反次数为0，在线迭代时间仅0.55ms，实时性远超模型预测控制监管器(MPCMS)的200ms。在未知障碍物场景及环境不一致情况下，该监管器仍能保证机器人完成编队与避障任务，展现出强泛化性。

　　在AgileX Limo机器人系统的实验中，MARLMS成功实现机器人编队形成、动态重构与协同避障，轨迹光滑且无安全约束违反，性能优于有限状态自动机监管器(FSAMS)与传统RLMS。该研究为多差速机器人系统的智能协同控制提供了新方案，未来团队将进一步推进分布式任务监管器设计，提升系统可扩展性。