团队科研成果分享-29
2023-12-17 06:53:25 Author: 网络与安全实验室(查看原文) 阅读量:20 收藏

团队科研成果分享

2023.12.11-2023.12.17

标题: Distributional Soft Actor-Critic-Based Multi-AUV Cooperative Pursuit for Maritime Security Protection

期刊: IEEE Transactions on Intelligent Transportation Systems, 2023

作者: Yun Hou, Guangjie Han, Fan Zhang, Chuan Lin, Jinlin Peng, Li Liu.

分享人: 河海大学——侯云

01

研究背景

BACKGROUND

研究背景

近年来,非法水下无人航行器(UUVs)对海洋安全构成了严重威胁,尤其是在水下安全方面。为了有效地追击这些UUVs,传统的追击方法主要基于已知的环境动力学,但这些方法在复杂和不可预测的水下环境中受到局限。本研究提出了一种新型的在线决策技术——多智能体分布式软演员-评论家(MADA),以应对水下协作追击问题。MADA是一种基于多智能体强化学习的控制框架,能够将自主水下航行器(AUV)的观测映射到追击行动上。通过结合分布式软演员-评论家和课程学习,MADA提高了多AUV在追击UUVs中的成功率。实验结果表明,MADA能够获得更好的协作追击策略。

02

关键技术

TECHNOLOGY

关键技术

在这篇论文中,提出了一种基于多智能体分布式软演员-评论家(MADA)的算法,用于多自主水下航行器(AUV)的协同追击任务。MADA是基于分布式软演员-评论家(DSAC)和中心化训练、分布式执行(CTDE)框架的多智能体强化学习算法。该算法通过引入课程学习的概念,逐步增加训练难度,提高MADA的训练效率。实验结果表明,MADA在动态环境中解决复杂的协同追击问题方面更有效。本文的创新和贡献包括:

(1) 提出MADA算法,优化多智能体协同追击问题;

(2) 针对离散问题提出DSAC的离散版本,并与CTDE框架结合;

(3) 应用课程学习来提高MADA的训练效率。

03

算法介绍

ALGORITHMS

算法介绍

(1)问题建模

本文的主题是海上安全与保护。具体来说,本文提出了一个系统,在该系统中,N个AUV追赶三维空间中移动更快的未经授权的AUV。如图1所示,追击AUV在水下环境中是随机分布的,一旦检测到水中有未经授权的AUV,就开始追击。追击成功与否取决于追击水下机器人与逃逸水下机器人之间的距离,该距离必须在规定的时间范围内。本文做了几个假设,包括:

(1)预先定位的水下传感器提供广泛的海洋监测,以识别未经授权的AUV并与追击AUV通信。

(2)每艘追击AUV具有相同的动力学特性,并配备近程目标探测传感器,该传感器利用雷达感知威胁区域与规避器的相对位置。

(3)追赶者和逃避者的移动速度分别为vp和ve,其中ve大于vp。

(4)环境中存在移动和静态障碍物,AUV的移动速度总是快于移动障碍物。

(5)AUV可以相互通信,识别其他AUV,通信延迟短。

图1  水域安全防护场景

MADRL框架涉及三种类型的代理:合作、竞争和混合。本研究的重点是追求整体回报最大化的追求者,特别是他们成功追逃者的能力。在本研究中,每个AUV都被认为是一个具有最大化总体奖励目标的智能体。因此,本文定义了马尔可夫博弈的基本组成部分,包括代理、状态空间、观察空间和奖励函数。

观测空间代表了AUV感知到的环境信息,这是DRL算法生成决策和评估长期收益的基础。观察空间设计的好坏直接决定了强化学习算法能否收敛、收敛速度和最终性能。观测空间定义如下:

对动作空间进行离散化处理,节省了计算量,提高了模型训练效率。AUV运动表示如下:

在协同追击问题中,水下机器人必须协同作战才能捕获目标。为了设计一个合适的奖励函数,本文考虑了三个组成部分:距离奖励、避免碰撞奖励和成功奖励。

为了激励AUV减少自身与逃避者之间的距离,本文考虑了距离奖励组件。具体来说,距离奖励计算为agent与逃避者之间当前距离与之前距离的差值。这种奖励随着AUV接近逃避者而增加。数学上,距离奖励可以定义为:

式中d^t_{i,E}和d^{t-1}_{i,E}分别表示当前时刻和前一时刻追捕者和逃避者之间的距离。

为了防止AUV与障碍物发生碰撞,本文设计了一个避碰奖励。如果发生碰撞,就要受到处罚。当AUV与障碍物或其他AUV之间的距离小于由势场决定的安全距离时,提供负奖励来指导AUV学习避碰行为。这种策略促使AUV与障碍物和其他AUV保持安全距离。避碰奖励定义如下:

成功捕获逃税者的奖励应该给予agent,这可以作为agent完成任务的激励。成功奖励定义如下:

综合以上三部分,本文可以得到整体的奖励函数,如下:

当每个独立的AUV奖励最大化时,整个系统的奖励也就最大化。值得注意的是,虽然本文在奖励函数中使用了特定的值,但这些值并不是模式化的,可以根据特定需求进行调整。

(2)合作追击任务的系统架构

图2 环境探索和训练数据集的收集

为了利用MADRL解决AUV的协同追击问题,对未知环境的探索是必不可少的。如图2所示,决策网络决定每个AUV的动作。在模拟过程中,对每个AUV的观察情况进行观察和测量,并通过评估其行为来产生奖励。然后,体验数据被存储在包含观察、行动、相应奖励和下一次观察的体验池中。经验池是AUV追击经验的存储库,形成了一个训练数据集,用于迭代改进AUV控制模型。

该决策网络可以实现多个AUV的联合训练。当AUV协同探索环境时,每个AUV从不同的初始状态开始探索,减少了探索体验的冗余。这一过程使多个AUV能够更快地探索不同的运动状态,并以更快的速度积累训练数据。利用MADRL对多个AUV进行训练,使它们能够学习如何有效地合作。经过集中训练后,训练好的行动者模型可以直接部署到相应的追击器上,追击器可以根据当前观察情况执行分散的协同追击任务。 

在本节中,本文提出了对原始DSAC的改进,引入了适用于离散动作空间的DSAC算法的变体,称为DSAC-discrete。

(1) DSAC-Discrete的软值分布函数输出每个动作的状态-动作收益的分布函数。 

(2)在DSAC-Discrete模型中,策略网络不再需要生成动作分布的均值和协方差。它现在被设计成直接呈现与每个动作相关的概率。为了保持合理的概率分布,在策略网络的最后一层实现了softmax函数。

(3)在连续版本的DSAC中,为了最小化Eq.(5)中所述的损失函数,需要将从重放缓冲区中采样的动作插入DSAC中,形成软状态值函数的蒙特卡罗估计。然而,由于本文的动作空间现在是离散的,本文可以完全恢复动作分布。这种方法减少了本文估计中涉及的方差。计算可以变换为:

(4)为了最小化,需要重新参数化技术,以使梯度能够通过期望操作符。然而,由于策略现在输出一个精确的动作分布,期望可以直接计算,而不需要重新参数化技术。因此,策略变为:

(5)为了减小估算温度损失的方差,对计算方法进行了修改。温度目标更新为:

(3)MADA训练模式与课程学习

一个合适的多智能体训练框架是保证多智能体训练稳定收敛的关键。为了解决MADRL中的非平稳性和可扩展性问题,本文提出了遵循CTDE范式的MADA方法。这种方法为每个智能体配备一个DSAC -离散模型,该模型包括两个完全连接的神经网络。第一个网络称为Actor网络,将当前状态映射到行为的分布,而第二个网络称为Critic网络,将状态映射到软状态-行为回报的分布函数。基于Critic网络的输出对行为体网络进行优化,Critic网络根据全局信息引导每个行为体改进其Actor网络。Target Actor网络和Target Critic网络也被用来稳定学习过程。CTDE范例有助于克服MADRL的非平稳和可扩展问题。有关算法框架的详细说明,请参见图3。

图3  MADA的详细结构

04

实验结果

EXPERIMENTS

实验结果

1)实验设置

实验使用Pytorch和gym模块在Mac OS 10.15.4系统上进行,该系统采用Intel酷睿i7 CPU、GeForce1660Ti显卡和16G RAM。实验场景为100m × 100m × 100m的三维空间。在模拟环境中随机分布4个追逐者、1个躲避者和5个静态球形障碍物,这些障碍物被认为是半径为rad的球体,用于算法的训练。在规定的时间内,当任何追击者和逃避者之间的距离小于攻击范围d_{attack}时,认为任务成功。

在MADA框架下,使用多层感知器模型构建演员和评论家网络。采用两个全连接的35 × 64 × 64 × 6神经网络构建参与者网络和目标参与者网络。采用全连接的178 × 64 × 64 × 64 × 2神经网络构建临界网络和目标临界网络。当追击者成功捕获逃避者或达到最大时隙数时,当前回合结束。每一轮结束时,环境重置,为下一轮做好准备。采用Adam优化器计算神经网络参数。实验结果为三次实验的平均值。

2)实验结果

批大小是一个重要的超参数,它会影响算法的训练速度和收敛性。更大的批处理大小可能导致更快的收敛,但也可能增加内存和计算资源需求。本文进行了额外的实验来研究批大小对结果的影响,如图4所示。当批大小为512时,算法收敛速度快,但收敛到0.82。当批大小为1024时,算法收敛于7500集,收敛到1左右。当批大小为2048时,算法收敛于6200集,收敛到1左右。考虑到内存和计算资源的需求,在实验中将批大小设置为1024。

图4 批次大小对算法的影响

 图5记录了50个测试实验的追击成功率和平均追击时间。随着训练时间的增加,MADA和MASAC最终可以达到95% ~ 97%的成功率,MAPPO的成功率约为82% ~ 87%。MADA训练的追击员追击成功率最高。这意味着MADA可以为追求者提供更好的追捕策略。

图5 追击者的成功率

下图比较了不同算法的时间效率。本文的结果表明,MADA每50次迭代的平均耗时明显低于madpg和MASAC。这是因为MADA可以完全恢复动作分布,从而不需要蒙特卡罗估计,可以直接计算期望分布,这与MADDPG不同。此外,MADA只使用一个批评家网络,而MASAC使用两个批评家网络,这大大减少了训练所需的计算资源。

图6 时间效率

05

总结

CONCLUSION

总结

本文将海上安全防护问题建模为三维水下环境下的协同追击问题。提出了一种基于MADRL的在线决策技术。为了解决强化学习算法中的高估问题,提出了基于值分布概念的MADA算法。构造了一个面向控制的框架来实现多智能体协同决策。随后,引入课程学习的训练方法,通过逐步增加场景的难度来提高智能体的学习率。实验结果表明,通过引入值分布函数和课程学习,智能体可以在较短的时间内获得较高的捕获率。

本文计划将基于DRL的追击策略部署到真实水下场景的AUV中,并对算法性能进行综合评估。这就要求本文考虑AUV数据采集和实时通信的关键技术(如软件定义网络、水声通信)。

END

扫描二维码关注我们

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247499353&idx=1&sn=cdb94c8e865d89912a38082558a41ec1&chksm=e82876b92f90447673aadf31e93930496095c7a8bc8ba07edff7f14ba96afc50a4ed501a3a28&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh