当前位置: 首页 > article >正文

POMO:强化学习的多个最优策略优化(2020)(完)


文章目录

  • Abstract
  • 1 Introduction
  • 2 Related work
  • 3 Motivation
  • 4 多最优策略优化(POMO)
    • 4.1 从多个起始节点进行探索
    • 4.2 策略梯度的共享基线
    • 4.3 用于推理的多个贪婪轨迹
  • 5 Experiments
    • 5.1 Traveling salesman problem
  • 5.2 带容量限制得车辆路径问题
    • 5.3 0-1背包问题
  • 6 Conclusion

Abstract

在神经组合优化(CO)中,强化学习(RL)可以将深度神经网络转变为解决NP-hard问题的快速、强大的启发式求解器。

这种方法在实际应用中具有很大的潜力,因为它允许在没有专家指导和大量领域知识的情况下找到接近最优解。我们介绍了一种名为POMO(Policy Optimization with Multiple Optima)的端到端方法,用于构建这样的启发式求解器。POMO适用于广泛的CO问题。它旨在利用CO解决方案表示中的对称性。POMO使用修改后的REINFORCE算法,迫使多样化的rollout朝向所有最优解。从经验上看,POMO的低方差基线使得RL训练快速且稳定,并且与以前的方法相比,它对局部最小值的抵抗力更强。我们还介绍了一种新的基于增强的推理方法,与POMO相得益彰。

我们通过解决三个流行的NP-hard问题来证明POMO的有效性,即旅行商(TSP)、带容量限制的车辆路径(CVRP)和0-1背包(KP)。对于所有这三个问题,我们基于POMO的求解器在性能上都比所有最近的学习启发式方法有显著提高。特别是ÿ


http://www.kler.cn/a/350190.html

相关文章:

  • 【AI编辑器】字节跳动推出AI IDE——Trae,专为中文开发者深度定制
  • 【经验分享】ARM Linux-RT内核实时系统性能评估工具
  • Spark SQL中的from_json函数详解
  • AI需要的基础数学知识
  • StarRocks强大的实时数据分析
  • Java 中 final 关键字的奥秘
  • Spring Boot知识管理:智能搜索与分析
  • 人工智能之动物识别专家系统
  • 初级网络工程师之从入门到入狱(四)
  • JSONArray根据指定字段去重
  • Linux 操作系统——扫盲教程5
  • docker 安装与使用
  • Midjourney中文版:创意启航,绘梦成真
  • 【vue】前置知识学习
  • 模型微调方法LoRA
  • DC系列靶机-DC5
  • k8s微服务
  • Vue预渲染:深入探索prerender-spa-plugin与vue-meta-info的联合应用
  • 关于Linux下C++程序内存dump的分析和工具
  • Java项目:160 基于springboot物流管理系统(PPT+论文+说明文档)
  • C++面向对象--------继承篇
  • [Linux#65][TCP] 详解 延迟应答 | 捎带应答 | 流量控制 | 拥塞控制
  • Chromium HTML attribute与c++接口对应关系分析
  • Tomcat 配置:方便运行 Java Web 项目
  • java.io.StreamCorruptedException: invalid stream header的原因及解决方法
  • 地级市-国内旅游收入、国内旅游人数数据(2000-2023年)