基于多智能体强化学习的车联网通信中时间敏感网络的路由和调度模型
论文标题
-
中文标题:基于多智能体强化学习的车联网通信中时间敏感网络的路由和调度模型
-
英文标题:Multi-Agent Reinforcement Learning-Based Routing and Scheduling Models in Time-Sensitive Networking for Internet of Vehicles Communications Between Transportation Field Cabinets
作者信息
-
Sergi Garcia-Cantón
-
Carlos Ruiz de Mendoza
-
Cristina Cervelló-Pastor
-
Sebastià Sallent
论文出处
-
期刊名称:Applied Sciences
-
卷号:15
-
文章编号:1122
-
发表日期:2025年1月23日
-
DOI:10.3390/app15031122
摘要
本文提出了一种基于多智能体强化学习(MARL)和深度强化学习(DRL)的自动化管理模型,用于车联网(IoV)通信中的基础设施间(I2I)服务通道的路由和调度。该模型通过时间敏感网络(TSN)确保实时同步的I2I通信,有效地管理数据帧在车联网基础设施设备之间的路由和调度。研究结果表明,该模型在不同拓扑结构和背景流量水平下,能够建立大多数路径,并遵循近似最优的路由和调度策略。具体而言,71%的最优路由路径得以建立,97%的最优调度得以实现。此外,该方法还考虑了传输数据的周期性及其在TSN网络中的鲁棒性,实现了99%的合规服务请求,流量抖动水平低于100微秒。与迭代整数线性规划(ILP)方法相比,该解决方案具有更低的执行延迟,并且便于未来探索5G网络在车对基础设施(V2I)通信中的集成。
1. 引言
本文探讨了未来自动驾驶车辆与交通基础设施通过路边单元(RSUs)直接连接到交通机柜(TFCs)的交互方式。这些TFCs必须相互连接以共享交通信息,实现可靠、同步的基础设施间(I2I)通信。研究提出了一种基于多智能体强化学习(MARL)和深度强化学习(DRL)的自动化管理模型,通过时间敏感网络(TSN)确保实时同步的I2I通信。该模型在模拟共享环境中进行了评估,结果表明,该模型在不同拓扑结构和背景流量水平下,能够建立大多数路径,并遵循近似最优的路由和调度策略。
2. 相关工作
本文回顾了TSN在工业和汽车领域的应用,以及RSUs的部署和优化。相关研究主要集中在TSN的迁移策略、车载网络架构、RSUs的部署和资源分配,以及5G与TSN的集成。本文提出的基于DRL的TSN路由和调度优化是首次采用MARL解决TSN的路由和调度挑战。
3. 问题定义
本文定义了I2I通信的基础设施环境和问题。假设RSUs部署在城市交叉口,并连接到配备RSCE单元的TFCs,形成星型拓扑。TFCs通过TSN交换机相互连接,确保多个路径之间的节点,提供增强的连接可靠性。每个TFC配备TSN交换机,以启用TSN功能。此外,每个RSU配备蜂窝或无线通信技术和全球导航卫星系统(GNSS),用于建立V2I通信。本文提出了一个基于DRL的多智能体解决方案,以识别和维护最优路径,同时执行请求流量的最优调度。
4. 基于MARL的路由解决方案
本文提出的路由模型旨在通过创建从talker到listener的路径来路由数据流,遵循基于链接总延迟的最短可能路径。该模型定义为马尔可夫决策过程(MDP),详细描述如下:
-
动作空间:动作按跳进行,完整路径作为动作序列构建。每个动作对应于继续形成路径的下一个TSN交换机的标识符。如果网络过于拥塞,无法为特定数据流分配资源,代理必须能够决定停止路由帧。
-
状态空间:在DRL中,环境必须向代理提供相关信息,以便其学习最优策略。环境在每个时间步向代理发送以下信息:服务请求中指定的源和目标节点标识符、当前节点、服务请求中指定的最大延迟限制以及到目前为止形成的路径的累积延迟、与当前节点相关的资源状态向量。
-
奖励建模:奖励是环境向代理通报其策略质量的机制。开发了一个奖励函数,以指导代理在可能的情况下建立最优路径,以及其他路径在其余情况下。奖励函数的表达式如公式(15)所示。
5. 基于MARL的调度解决方案
一旦路由代理识别出流量调度的下一个链接,调度代理负责将数据帧分配给时间槽,旨在最小化中间TSN交换机的缓冲时间。该过程基于以下假设:如果节点n在位置i调度数据流,则帧将在对应于位置i的时间槽到达节点n + 1。理想情况下,最优策略是通过在与前一个链接相同的职位上调度数据帧来保持一致性,只要可能。如果资源限制使这不可行,则应选择时间域中的下一个可用位置,遵循最小驻留时间标准。相反,选择立即在最优位置之前的位置是极其低效的,因为它迫使数据帧在转发前几乎等待整个周期,从而显著增加端到端延迟。为缓解此问题,模型确保每个剧集仅持续一个时间步,每个剧集采取一个动作。因此,沿端设备之间的整个路径调度帧需要为每个跳启动一个单独的剧集。基于这些原则,已制定调度马尔可夫决策过程(MDP),详细信息如下:
-
状态空间:对于调度模型,环境向代理发送以下信息:数据流在前一个TSN交换机处被调度的位置标识符,称为当前位置;包含所有可能位置信息的向量。对于每个位置,如果该位置有足够的资源分配给给定的数据流,则向量中的相应值为1,否则为-1。如果一个位置的所有槽都至少有len个空闲字节可用,则该位置被认为有足够的空闲字节用于调度。向量的长度等于最大可能位置数,该数由超周期和帧周期计算得出,总共为超周期/槽时间个槽。较小周期的位置较少,因此初始值在向量中包含所有可能位置的准确信息,而剩余位置则用-1填充,直到向量达到其全长。
-
动作空间:调度模型中的动作空间对应于可用于调度数据帧的可能位置数,与状态空间中定义的位置向量大小相匹配。如果没有可用位置来调度帧,则确定另一个动作以拒绝服务请求。为了提高学习过程的效率和稳定性,已对动作空间应用了过滤器。这些过滤器描述如下:
-
不存在的位置过滤器:所有不存在于服务请求指定的周期prd中的位置都被过滤掉,以防止代理尝试在无效位置调度帧。
-
资源不足过滤器:所有没有足够资源来调度服务请求所描述的数据流的位置也被过滤掉。
-
-
奖励建模:奖励函数旨在引导代理最小化中间TSN交换机的驻留时间。奖励函数如公式(16)所示:
-
posact是代理选择的位置。
-
posopt是代理应该选择的最优位置(即,从当前位置开始的下一个可用位置)。
-
δ是一个二进制值,当posact和posopt具有相同的值时设置为1;否则为0。
-
代理在做出最优决策(当posact与posopt匹配时)时获得10点奖励,并在其他情况下受到惩罚。惩罚随着选定位置与最优位置之间的距离增加而增加。还考虑了时间演变,使最坏的策略是选择当前之前的立即位置,因为这会导致最大排队延迟。由于剧集长度仅为一个时间步,因此在计算中没有考虑之前的奖励。进行了几轮训练,使用指数衰减函数提供更渐进的惩罚,如公式(17)所示:
-
a是调节指数函数斜率的缩放因子。结果表明,对于参数a小于4的值,模型无法收敛到最优解。相反,对于大于3的值,模型收敛到与基于线性衰减函数的模型相当的最优性水平的解。
-
-
6. 评估
本文描述了之前定义模型的训练和评估,并展示了本研究的结果。在深入具体细节之前,概述了训练和评估模型的总体程序。最初,每个代理独立于其他代理进行训练。这意味着数据帧的调度对路由代理来说是透明的,路由决策对调度代理来说也是透明的。完成训练阶段后,对训练有素的模型进行联合评估。对于评估,开发了一个联合模拟环境。该环境依次与两个代理交互,向每个代理发送状态并接收动作。所有模拟都在配备3.30 GHz英特尔酷睿i9处理器和64 GB RAM的计算机上进行。
7. 结论
本文提出了一个基于TSN的下一代智能路边基础设施架构,其中基础设施设备(TFCs、TMSs等)之间的通信由集中式控制平面管理。使用基于多智能体DRL的在线解决方案解决了路由和调度分配问题,该方案灵活、可扩展且可靠。服务通道管理支持多个服务运营商,并且可以自动运行,无需网络或服务管理人员的干预。TSN有望在将不同网络汇聚到单一技术(IP over Ethernet)中发挥关键作用,其与5G网络的集成将进一步增强灵活性和可扩展性。未来的研究涉及假设完全的5G-TSN集成以实现V2I通信,可能涉及多个TSN控制平面。此外,解决尽力而为和时间关键流量的共存将是一个重要的下一步。