当前位置：首页 > article >正文

聊聊强化学习在无人机中的前沿应用

article 2025/4/2 9:16:03

在战略性新兴产业中，低空经济占据了重要的地位。借助低空经济的东风，无人机正从"天上的风景"逐渐变成"空中的生产力"。与此同时，Chatgpt、Claude、Kimi等国内外大模型掀起的热潮让人工智能领域再次沸腾，强化学习作为的关键技术也借势焕发第二春，正在经历新一轮的技术革新和应用扩展。在这样的背景下，低空经济让无人机大火，大模型的出现让强化学习大火，今天我们选择一个火上加火的题材，好好聊聊强化学习在无人机中的应用。

首先，我们需要了解强化学习的作用是什么。强化学习是一种通过"试错"来学习最优策略的方法，其核心是让智能体在与环境的持续互动中，通过奖励信号来优化决策行为。在无人机系统中，强化学习在决策-规划-控制这三个层次上都有许多的应用。

1. 决策层

在决策层，强化学习主要用于实现多无人机系统的协同决策和任务分配，特别是在复杂和动态的环境中。强化学习通过“试错”的方式，使无人机能够在与环境的持续互动中，通过奖励信号来优化其决策行为。

例如：

基于多智能体强化学习的无人机群通信方案，通过优化中继选择和功率分配，有效抵御环境中的干扰，显著提升多无人机通信系统的鲁棒性和效率¹。
此外，强化学习还被用于异构无人机的协调动态任务分配框架，在环境不确定性条件下，通过动态调整决策策略，实现无人机之间的高效协作与资源分配²。

最近一篇由曼彻斯特大学李阳提出的“HOLA-Drone: Hypergraphic Open-ended Learning for Zero-Shot Multi-Drone Cooperative Pursuit”算法³，通过强化学习中的开放式学习框架，能够持续调整学习目标，从而增强无人机在与多个未知伙伴协作时的能力，特别是在零样本学习场景下表现出色。

图1：HOLA-Drone实现围捕任务决策

图2展示了一个HOLA-Drone算法的核心工作流程——Grapher和Oracle模块的交互过程。通过构建超图和偏好超图，HOLA-Drone能够有效地评估学习者与不同伙伴的协作能力，并通过Oracle模块训练出最佳偏好智能体，从而提高学习者在复杂环境中的零样本协作能力。这种架构可以使HOLA-Drone能够在与未知的伙伴协作时，表现出高效的协作能力，验证了其在多无人机协同追捕任务中的有效性。

图2：HOLA-Drone算法核心工作流程

2. 规划层

在规划层，强化学习主要专注于实现自主规划导航，主要包括实时路径规划与重规划、避障策略生成、时空轨迹规划等。其中代表性的工作是Antonio Loquercio等人发表在《Science Robotics》上的"Learning High-Speed Flight in the Wild"，作者通过强化学习中的模仿学习算法训练了一种端到端无人机轨迹规划器，可以在森林、工厂等复杂环境下实现平均速度为10 m/s的高速飞行，飞行过程如图3所示。

图3：复杂环境下无人机高速自主规划导航

图4展示了基于强化学习的无人机自主规划导航的整体架构和工作流程，分为三个主要部分：A.特权专家、B.感知智能体规划器和C.模拟环境。特权专家是一个在模拟环境中运行的规划算法，拥有完整的3D环境地图和无人机的精确状态信息。它的主要任务是生成无碰撞的轨迹，供感知智能体规划器学习。感知智能体规划器是部署在无人机上的神经网络策略，它通过端到端方法从传感器数据中预测出无碰撞的规划轨迹，并令无人机执行这些轨迹。模拟环境主要基于Flightmare模拟器。该模拟器提供了逼真的环境渲染和物理模拟，确保训练数据与现实世界的环境条件相似。模拟器生成的环境包括密集的森林、简单的几何形状物体以及需要通过狭窄缝隙的场景。这些环境用于生成训练数据，并通过模仿学习算法，利用特权专家提供的信息，训练出能够在复杂环境中实现高速、自主飞行的无人机系统。

图4：基于强化学习的无人机自主规划导航的整体架构和工作流程

3. 控制层

在控制层，强化学习主要实现对无人机系统的各种控制，包括无人机位置控制、速度控制、姿态控制、角速度控制等。其中，最让人印象深刻的莫过于苏黎世大学Robotics and Perception Group发表在《Nature》上的工作"Champion-level Drone Racing using Deep Reinforcement Learning"，通过强化学习算法训练无人机控制策略，在无人机竞速比赛中首次打败了人类世界冠军，比最快的人类冠军快约0.49秒，比最慢的人类冠军快约3.70秒，比赛图片如图5所示。

图5：竞速无人机比赛

具体的实现框图如图6所示，a部分是竞速无人机的系统框图，通过视觉-惯性里程计(VIO)获得无人机位置速度等状态信息，结合门框检测图片作为强化学习策略网络的输入，输出具体的无人机控制量。b部分描述了竞速无人机的强化学习训练过程，主要包括：感知和动力学残差的处理、控制策略的生成、奖励函数的设计以及物理模拟的更新。通过这种方式，基于强化学习的竞速无人机能够在模拟环境中优化其控制策略，并最终在现实世界中实现高性能的无人机竞速。

图6：竞速无人机系统框图

总结：

强化学习在无人机系统中的应用已经从理论研究走向实际应用，展现出巨大的潜力和创新性，涵盖决策层、规划层和控制层等多个层次。在决策层，强化学习通过“试错”机制优化多无人机系统的协同决策和任务分配，例如曼彻斯特大学的HOLA-Drone算法通过开放式学习框架提升零样本协作能力，在复杂环境中实现高效协作。在规划层，强化学习专注于自主规划导航，如Antonio Loquercio等人通过模仿学习算法训练无人机在复杂环境下实现高速飞行，构建了特权专家、感知智能体规划器和模拟环境相结合的系统架构。在控制层，强化学习实现了对无人机系统的精准控制，例如苏黎世大学通过深度强化学习训练无人机竞速策略，首次在比赛中超越人类世界冠军，展现了其在高性能控制中的卓越表现。这些应用不仅推动了无人机技术的革新，也为低空经济的发展提供了强有力的技术支撑。

参考文献：
1. Multi-agent reinforcement learning based UAV swarm communications against jamming
2. Multi-agent reinforcement learning- based coordinated dynamic task allocation for heterogenous UAVs
3. Gpt-4 technical report
4. Enhancing software code vulnerability detection using gpt-4o and claude-3.5 sonnet: A study on prompt engineering techniques
5. Deep reinforcement learning: A brief survey

查看全文

http://www.kler.cn/a/455488.html