当前位置: 首页 > article >正文

Sym-NCO:利用对称性进行神经组合优化


文章目录

  • Abstract
  • 1 Introduction
  • 2 组合优化马尔可夫决策过程中的对称性
    • 2.1 组合马尔可夫决策过程
    • 2.2 CO-MDP中的对称性
  • 3 对称神经组合优化
    • 3.1 通过LSym-RL正则化REINFORCE的问题和解决方案对称性
    • 3.2 通过预先识别的对称性学习不变表示: L i n v L_{inv} Linv
  • 4 相关工作
  • 5 Experiments
    • 5.1 任务和基线选择
    • 5.2 实验设置
    • 5.3 性能指标
    • 5.4 实验结果
  • 6 讨论
    • 6.1 基于正则化的对称性学习讨论
    • 6.2 限制和未来方向
    • 6.3 社会影响

Abstract

深度强化学习(DRL)基础的组合优化(CO)方法(即DRL-NCO)与传统的CO求解器相比具有显著优势,因为DRL-NCO能够学习较少依赖于特定问题的专家领域知识(启发式方法)和监督标记数据(监督学习方法)。本文提出了一种新的训练方案Sym-NCO,它是一种基于正则化的训练方案,利用各种CO问题和解决方案中的普遍对称性。利用诸如旋转和反射不变性等对称性可以显著提高DRL-NCO的泛化能力,因为它允许学习到的求解器利用同一CO问题类别中共同的对称性。我们的实验结果验证了我们的Sym-NCO在四个CO任务上大大提高了DRL-NCO方法的性能,包括旅行商问题(TSP)、带容量限制的车辆路径问题(CVRP)、奖励收集TSP(PCTSP)和定向问题(OP),而且没有利用特定问题的专家领域知识。值得注意的是,Sym-NCO不仅超越了现有的DRL-NCO方法,而且在PCTSP中以240倍更快的速度超越了竞争性的常规求解器——迭代局部搜索(ILS)。我们的源代码可在https://git


http://www.kler.cn/news/339271.html

相关文章:

  • 餐饮生存战:平价消费时代,别盲目卷低价
  • 2.4Mybatis——缓存机制
  • 算法:前缀和算法模版
  • [笔记] 仿射变换性质的代数证明
  • PyQt入门指南一 框架介绍
  • 一分钟掌握 Java22 新特性
  • STM32-HAL库 驱动DS18B20温度传感器 -- 2024.10.8
  • 数据结构——排序(插入排序)
  • VAD 论文学习
  • 每日OJ题_牛客_分组_枚举+二分_C++_Java
  • OpenFeign 工作原理源码记录
  • OpenFegin
  • 【多重循环在Java中的应用】
  • 【如何学习计组】——基本概念与原理
  • 大数据新视界 --大数据大厂之数据血缘追踪与治理:确保数据可追溯性
  • windows配置java环境变量
  • 基于java+springboot的宠物商店、宠物管理系统
  • 大数据新视界 --大数据大厂之 Presto 性能优化秘籍:加速大数据交互式查询
  • LeetCode:134. 加油站(Java 贪心)
  • 【笔记】DDD领域驱动设计