当前位置: 首页 > article >正文

ray.rllib 入门实践-3: 配置参数列表

前言:

        上一个博客详细介绍了配置rllib算法的几种方式,并推荐了用 AlgorithmConfig 类去创建配置对象,然后再配置对象中,根据代码提示配置相关参数。AlgorithmConfig 中的可配置参数有很多, 使用时可以去对应的源码查看有哪些配置选项,

        本博客对配置选项做了一些梳理。并对其中最常用的一些成员变量以黄色高亮显示。

        本问主要来自源码解读。

一、 AlgorithmConfig 子模块分组 

        RLlib 中有非常多的配置, 为了便于管理, 把所有配置划分为以下几组:

  • training: 训练相关参数组
  • environment: 环境相关参数组
  • deep learning framework: 深度学习的相关框架选择, tf2 或者 torch
  • rollout worker : 部署工作选项
  • evaluation : 评估相关超参数
  • exploration: 探索选项
  • options for training with offline data: 使用离线数据进行训练的选项
  • options for training multiple agents : 多智能体训练的相关设置
  • reporting 报告选项
  • options for saving and restoring checkpoints : 保存和回复检查点的选项
  • debugging : debug 相关选项
  • options for adding callbacks to algorithms, 添加算法回调的相关选项
  • resources : 计算资源使用设置选项
  • options for external features : 实验功能选项

二、 几个重要子模块的详细介绍

1. AlgorithmConfig.training() 

        AlgorithmConfig.training() 里面有许多可配置参数, 具体如下:

  • gamma: float, markov 决策过程的折扣因子, 奖励值的折扣因子。
  • lr : 学习率
  • grad_clip : 是否使用梯度裁剪。 根据grad_clip_by的设置裁剪梯度。
  • grad_clip_by : 如果grad_clip不是None, 基于这个参数裁剪梯度。
  • train_batch_size: 训练批量大小
  • model: 传递到策略模型的参数。也可以通过成员变量的方式访问。
  • optimizer: 传递给策略模型的参数。
  • max_requests_in_fighter_per_sample_worker : 对每个采样进程的最大请求数。
  • Returns:  返回更新的AlgorithmConfig对象。

2. AlgorithmConfig.environment()

        用于设置环境

  • env: 环境说明符
  • env_config: dict, 传递给env, 默认附加参数:num_rollout_workers, worker_index, vector_index, remote
  • Observation_space : 观测空间
  • action_space : 策略的动作空间
  • env_task_fn : 一个可调用函数,将最后一个训练结果、基本环境和环境上下文作为参数, 返回一个新任务来设置环境。
  • render_env : 是否渲染环境, 如果True, 尝试在本地工作线程或worker1上渲染环境。
  • clip_rewards: 是否在policy的后处理期间, 裁剪奖励。
  • normalize_actions: 是否把产生的动作归一化到动作空间范围内。
  • clip_actions: 应该被弃用
  • disable_env_checking: if true, 禁用环境预检查模块。
  • is_atari : 用于显示指定环境是否为atrai环境。
  • auto_wrap_old_gym_envs : 是否自动包装旧gym环境。
  • Return : 返回更新的AlgorithmConfig对象。

3. AlgorithmConfig.framework()

  • framework: {"torch", "tf2} 选择框架
  • eager_tracing: 在 eager模式下启用跟踪, 提升性能,但稍微不利于调试。
  • eager_max_retraces:
  • tf_session_args: 默认情况下把tf设置为单进程操作。
  • torch_compile_learner: 如果为True,则编译学习器上的TorchRLModule上的FORWARD_TRAIN方法。如果未指定,则默认为在学习者上编译前向训练。
  • torch_compile_learner_what_to_compile – TorchCompileWhatToCompile 模式指定如果 torch_compile_learner 为 True 则在学习器端编译什么。有关其使用的详细信息和建议,请参阅 TorchCompileWhatToCompile。
  • torch_compile_learner_dynamo_backend-torch 计算器模式使用的学习者。
  • torch_compile_worker – 如果为 True,则编译工作人员上 TorchRLModule 的前向探索和推理方法。如果未指定,默认情况下不会在工作线程上编译前向方法,因为回溯可能会很昂贵。
  • torch_compile_worker_dynamo_backend – 用于工作人员的 torch 计算器后端。
  • torch_compile_worker_dynamo_mode – 用于工作人员的 torch 计算器模式。
  • Returns - 返回此更新的 AlgorithmConfig 对象

4. AlgorithmConfig.rollouts()  

       用于指定rollout_worker

  • env_runner_cls : 用于环境部署的envRunner类
  • num_rollout_worker : 为并行采样创建的rollout-worker的数量, 为 0 则强制在本地工作线程,
  • num_env_per_worker : 每个进程上运行环境的个数
  • sample_collector : SampleCollector 类, 用于收集和检索环、 模型和采样数据。 重写 SampleCollector  基类可以实现自己的收集、缓冲、检索逻辑。
  • sample_async : 使用后台线程进行采样, 通常不建议打开。
  • enable_connections : 是否使用基于connector的环境运行器, 以便obs的所有的预处理和操作的后处理都在代理和操作连接器中完成。
  • use_worker_filter_stats : 是否将filter的更新从中央filter(本地filter)推送到远程worker的filter.
  • rollout_framework_length : 在推出期间将剧集分为多个步骤的片段。这种大小的轨迹是从 rollout 工作线程中收集的, 并组合成更大的一批 train_batch_size 来进行学习。例如,给定 rollout_fragment_length=100 和 train_batch_size=1000:1. RLlib 从 rollout 工作线程收集 10 个片段,每个片段有 100 个步骤。2. 这些片段被连接起来,我们执行一个 SGD 纪元。当每个工作人员使用多个环境时,片段大小将乘以 num_envs_per_worker。这是因为我们并行地从多个环境收集步骤。例如,如果 num_envs_per_worker=5,则部署工作人员将以 5*100 = 500 个步骤的块形式返回经验。这里的数据流可能因算法而异。例如,PPO 进一步将训练批次划分为多个小批次,以实现多轮 SGD。设置为“auto”以使 RLlib 计算精确的 rollout_fragment_length 以匹配给定的批量大小。
  • batch_mode : 如何使用 EnvRunner 构建单独的批次。
  • remote_worker_envs : 当设置一个进程中运行多个env时, 决定是否在远程进程中而不是同一进程中创建新的环境。
  • remote_env_batch_wait_ms: 轮询环境时远程worker的等待超时时间。
  • valid_worker_after_construction: 是否检查每个远程 worker 是否健康。
  • preprocessor_pref : 是否使用rllib或deepmind的预处理器。
  • compress_observations : 是否 LZ4 压缩在rollout期间收集的sampleBatches 中的各个观测值。
  • enable_tf1_exec_eagerly – 显式告诉 rollout Worker 启用 TF eager 执行。例如,当框架是“torch”,但需要恢复 TF2 策略以进行评估或基于联盟的目的时,这非常有用。
  • Sampler_perf_stats_ema_coef – 如果指定,性能统计数据以 EMA 为单位。这是新数据点对平均值的贡献程度的系数。默认值为“无”,它使用简单的全局平均值。 EMA更新规则为:updated = (1 - ema_coef) * old + ema_coef * new
  • Returns - 此更新的 AlgorithmConfig 对象。

5. algorithmConfig.evaluation() 

  • evaluation_interval: 在训练过程中,间隔多少个episode执行一次evaluation.
  • evaluation_duration: 在训练过程中,间隔多长时间执行一次evaluation. 持续时间的单位可以时episode, 或 timesteps.
  • evaluation_duration_unit: 配合 evaluation_duration使用, episode 或 timesteps.
  • evaluation_num_workers: evaluation使用的worker数。 默认为0. evaluation会额外增加工作进程。
  • evaluation_config: 将额外的参数传递给evaluation的创建者。
  • evaluation_sample_timeout_s – ray.get 调用远程评估工作程序的sample() 方法的超时(以秒为单位)。 在此之后,用户将收到警告和有关如何解决问题的说明。这可以是为了确保剧集结束、增加超时或切换到 evaluation_duration_unit=timesteps。
  • evaluation_parallel_to_training – 是否使用线程与 Algorithm.train() 调用并行运行评估。默认=假。例如。 evaluation_interval=2 -> 对于每个其他训练迭代,Algorithm.train() 和 Algorithm.evaluate()调用并行运行。注意:这是实验性的。可能的陷阱可能是评估循环开始时权重同步的竞争条件。
  • evaluation_config – 典型用法是将额外的参数传递给评估环境创建者,并通过计算确定性操作来禁用探索。重要提示:策略梯度算法能够找到最佳策略,即使这是随机策略。 此处设置“explore=False”将导致评估工作人员不使用此最优策略!
  • off_policy_estimation_methods – 指定如何评估当前策略以及任何可选配置参数。这仅在阅读离线体验时有效(“输入”不是“采样器”)。可用键: {ope_method_name: {“type”: ope_type, …}} 其中 ope_method_name 是用户定义的字符串,用于保存 OPE 结果,ope_type 可以是 OffPolicyEstimator 的任何子类,例如ray.rllib.offline.estimators.is::ImportanceSampling或您自己的自定义子类,或子类的完整类路径。您还可以添加其他配置参数以传递给字典中的 OffPolicyEstimator,例如{“qreg_dr”:{“类型”:DoublyRobust,“q_model_type”:“qreg”,“k”:5}}
  • ope_split_batch_by_episode – 是否使用SampleBatch.split_by_episode()将输入批次分割为多个剧集以在估计ope指标之前。在bandits的情况下,你应该将此设置为False以提高ope评估速度。在bandits的情况下, 不分割剧集也是可以的,因为每个记录已经是一个时间步长了。默认值为True
  • evaluation_num_workers – 用于评估的并行工作线程数。请注意,默认设置为零,这意味着评估将在算法进程中运行(仅当评估间隔不为 None 时)。如果增加此值,则会增加算法的 Ray 资源使用量,因为评估工作线程是与部署工作线程(用于对训练数据进行采样)分开创建的。
  • custom_evaluation_function – 自定义评估方法。这必须是签名的函数(algo:算法,eval_workers:WorkerSet)->指标:dict。请参阅 Algorithm.evaluate() 方法以查看默认实现。该算法保证所有 eval 工作线程在调用此函数之前都具有最新的策略状态。
  • always_attach_evaluation_results – 确保最新的可用评估结果始终附加到步骤结果字典中。 如果 Tune 或其他一些元控制器需要始终访问评估指标,这可能很有用。
  • enable_async_evaluation – 如果为 True,则为评估工作人员使用 AsyncRequestsManager,并使用此管理器向评估工作人员发送sample() 请求。这样,算法对于长时间运行的事件和/或失败(和重新启动)的工作程序变得更加稳健。
  • Returns - 此更新的 AlgorithmConfig 对象。

6. AlgorithmConfig.exploration()

        指定探索选项。

  • explore: 默认探索行为。 设置为None 表示没有探索行为, 例如用于evaluation.
  • explore_config : 指定 Exploration对象的配置。
  • Returns: 返回此更新的 AlgorithmConfig 对象。

7. AlgorithmConfig.resources()

  • num_gpus: 为这个算法分配多少GPU.
  • num_cpus_per_worker: 为每个进程(worker)分配多少cpu
  • num_gpus_per_worker: 为每个进程(worker)分配多少GPU,可以是小数
  • num_cpus_for_local_worker: 为本地运行的进程分配多少cpu.
  • num_learner_workers: 有多少个进程用于训练。
  • num_cpus_per_learner_worker:为 每个用于训练的进程分配多少cpu.
  • num_gpus_per_learner_worker: 为 每个用于训练的进程分配多少gpu.
  • local_gpu_idx: 如果 num_gpus_per_learner_worker>0,并且'num_learner_workers'<2,则该GPU 索引将用于训练过程。这是CUDA 可用设备列表中的索引。
  • custom_resources_per_worker: Optional[dict] = NotProvided,
  • placement_strategy: Optional[str] = NotProvided,


http://www.kler.cn/a/518436.html

相关文章:

  • K8s运维管理平台 - xkube体验:功能较多
  • 验证二叉搜索树(力扣98)
  • 瑞芯微方案:RV1126定制开发板方案定制
  • 【WebRTC - STUN/TURN服务 - COTURN配置】
  • 类与对象(下)
  • [VSCode] vscode下载安装及安装中文插件详解(附下载链接)
  • 深圳云盟智慧科技公司智慧停车管理系统GetVideo存在SQL注入漏洞
  • Java 中如何使用 SSL 连接 IoTDB
  • 蓝桥动态规划(dp)题目讲解
  • 【漫话机器学习系列】059.特征选择策略(Feature Selection Strategies)
  • ESP32S3基于espidf lvgl驱动i2c ssd1306/sh1106/7屏幕使用
  • Elastic Cloud Serverless 获得主要合规认证
  • 设计模式概述 - 设计模式的重要性
  • Linux lsblk 命令详解
  • 金融级分布式数据库如何优化?PawSQL发布OceanBase专项调优指南
  • 高级 SQL 优化:让查询飞起来
  • 1.24 共享内存和信号灯集
  • SSM框架探秘:Spring 整合 SpringMVC 框架
  • 神经网络基础 | 给定条件下推导对应的卷积层参数
  • 图神经网络系列论文阅读DAY1:《Predicting Tweet Engagement with Graph Neural Networks》
  • tomcat的accept-count、max-connections、max-threads三个参数的含义
  • 【openwrt】openwrt odhcpd IPv6 prefix_filter选项说明
  • Google Protocol Buffers的.NET与Python
  • Python之百度财务数据可视化分析
  • 7-Zip高危漏洞CVE-2025-0411 poc 攻击者可绕过安全机制远程执行代码
  • WPF 使用iconfont