美国陆军研究实验室提高无人机蜂群的学习能力

美陆军研究人员开发了一种强化学习方法,可提高无人机蜂群的学习能力。使无人驾驶的飞机和地面车辆成群地最佳完成各种任务,同时将性能不确定性降至最低。

美国陆军研究实验室提高无人机蜂群的学习能力
ARL研究人员使用的小型无人Clearpath Husky机器人开发了一种新技术,可以在最小人工监督下快速教机器人遍历行为。

蜂群是一种作战方法,在这种方法中,多个自主系统通过主动协调其行动,作为一个有凝聚力的单位。

陆军研究人员说,未来多域作战将需要大量动态耦合,协调的异构移动平台群,以超过敌方能力和威胁。

美国陆军作战能力发展司令部陆军研究实验室的杰明·乔治博士说,陆军正在寻求蜂群技术,以便能够执行耗时或危险的任务。

乔治说:“实时为蜂群车辆找到最佳的制导策略,是增强战士的战术态势感知意识,使美军在竞争激烈的环境中占主导地位的关键要求。”

强化学习提供了精确控制多目标一种方法。然而,现有的强化学习方案只能以集中方式应用,这就需要将整个蜂群的状态信息集中到一个中央学习器。这极大地增加了计算复杂性和通信要求,导致学习时间不合理。

为了解决这个问题,乔治与北卡罗来纳州立大学的Aranya Chakrabortty教授和俄克拉荷马州立大学的He Bai教授合作,致力于解决大规模的多主体强化学习问题。陆军通过对外合作倡议研究奖(Director’s Research Award for External Collaborative Initiative)为这项工作提供了资金,这是一项实验室计划,旨在与外部合作伙伴合作激发和支持新的创新研究。

这项工作的主要目标是为大规模蜂群网络的数据驱动优化控制开发一个理论基础,在该模型中,控制动作将基于低维测量数据而不是动态模型进行。

当前的方法称为“层次强化学习”(Hierarchical Reinforcement Learning,简称HRL),它将全局控制目标分解为多个层次结构,即多个小群级微观控制和以及广义的群级宏观控制。

乔治说:“每个层次结构都有自己的学习循环,有各自的局部和全局奖励函数” “通过并行运行这些学习循环能够大大减少学习时间。”

根据George的说法,蜂群的在线强化学习控制归根结底是利用系统或蜂群的输入输出数据来求解一个大规模代数矩阵Riccati方程。

研究人员解决此大型矩阵Riccati方程的最初方法是将蜂群分为多个较小的组,并行执行组级局部增强学习,同时对每个组的较小维度压缩状态执行全局强化学习。

他们当前的HRL方案使用了一种解耦机制,该机制首先解决局部强化学习问题,然后从局部控制器合成全局控制(通过求解最小二乘问题),从而对大型矩阵方程进行分层近似求解。这进一步减少了学习时间。

实验表明,与集中式方法相比,HRL可以将学习时间减少80%,同时将最佳损失限制为5%。

乔治表示,他相信这项研究将对未来战场产生影响,并且已经通过进行创新合作而成为可能。

乔治说:“ ARL科学和技术社区的核心目的是创造和利用科学知识,以实现转型的过度竞争。” “通过ECI和其他合作机制进行外部研究,我们希望进行颠覆性基础研究,从而实现陆军现代化,同时成为陆军与世界科学界的主要合作纽带。”

该小组目前正在努力通过考虑蜂群最佳分组进一步优化其HRL控制方案,以最大程度地减少计算和通信复杂性,同时限制最优间隙。

他们还研究了深度递归神经网络的使用,以学习和预测最佳分组模式,以及将开发的技术应用于密集城市地形中多域作战中自主飞行和地面车辆的最优化协调。

乔治与ECI合作伙伴最近在2020年美国控制会议上介绍了他们的研究结果

美国陆军研究实验室提高无人机蜂群的学习能力
陆军研究人员设想了用于地面车辆和空中车辆协调的分级控制。

你可能感兴趣的文章:

上一篇:

下一篇:


标签