Repository files navigation
--algorithm_name : 指定要使用的算法,可选值为"rmappo"(递归多智能体近端策略优化)或"mappo"(多智能体近端策略优化),默认为"mappo"。
--experiment_name : 用于区分不同实验的标识符,默认为"check"。
--seed : 用于设置numpy和torch的随机种子,默认为1。
--cuda : 布尔型,默认为True,使用GPU进行训练;否则使用CPU。
--cuda_deterministic : 布尔型,默认为True,确保随机种子有效;若设置为False,则会绕过该功能。
--n_training_threads : 用于训练的torch线程数,默认为5。
--n_rollout_threads : 用于训练rollout的并行环境数,默认为1。
--n_eval_rollout_threads : 用于评估rollout的并行环境数,默认为1。
--n_render_rollout_threads : 用于渲染rollout的并行环境数,默认为1。
--num_env_steps : 训练的环境步数,默认为1000万步。
--user_name : 用于wandb使用,指定用户名以简单收集训练数据,默认为"marl"。
--env_name : 指定环境名称,默认为"COMP0124"。
--use_obs_instead_of_state : 布尔型,默认为False,使用全局状态;若设置为True,将使用连接的观测值。
--episode_length : 任何回合的最大长度,默认为1000。
--share_policy : 布尔型,默认为False,控制是否所有智能体共享同一策略。
--use_centralized_V : 布尔型,默认为True,使用集中式值函数估计。
--stacked_frames : 用于actor/critic网络隐藏层的维度,默认为1。
--use_stacked_frames : 布尔型,默认为False,控制是否使用堆叠帧。
--hidden_size : actor/critic网络隐藏层的维度,默认为256。
--layer_N : actor/critic网络的层数,默认为3。
--use_ReLU : 布尔型,默认为False,控制是否使用ReLU激活函数。
--use_popart : 布尔型,默认为False,控制是否使用PopArt对奖励进行归一化。
--use_valuenorm : 布尔型,默认为True,控制是否使用运行均值和标准差对奖励进行归一化。
--use_feature_normalization : 布尔型,默认为True,控制是否对输入应用层归一化。
--use_orthogonal : 布尔型,默认为True,控制是否使用正交权重初始化和偏置为0的初始化。
--gain : 最后一个动作层的增益,默认为0.01。
--use_naive_recurrent_policy : 布尔型,默认为False,控制是否使用一个简单的循环策略。
--use_recurrent_policy : 布尔型,默认为False,控制是否使用循环策略。
--recurrent_N : 循环层的数量,默认为1。
--data_chunk_length : 用于训练循环策略的数据块长度,默认为10。
--lr : 学习率,默认为5e-4。
--critic_lr : critic网络的学习率,默认为5e-4。
--opti_eps : RMSprop优化器的epsilon值,默认为1e-5。
--weight_decay : 权重衰减系数,默认为0。
--ppo_epoch : PPO的循环次数,默认为15。
--use_clipped_value_loss : 布尔型,默认为True,裁剪值损失;若设置,则不裁剪值损失。
--clip_param : PPO裁剪参数,默认为0.2。
--num_mini_batch : PPO的小批次数,默认为1。
--entropy_coef : 熵系数,默认为0.01。
--value_loss_coef : 值损失系数,默认为1。
--use_max_grad_norm : 布尔型,默认为True,使用梯度的最大范数;若设置,则不使用。
--max_grad_norm : 梯度的最大范数,默认为10.0。
--use_gae : 布尔型,默认为True,使用广义优势估计。
--gamma : 奖励的折现因子,默认为0.99。
--gae_lambda : GAE的lambda参数,默认为0.95。
--use_proper_time_limits : 布尔型,默认为False,计算回报时考虑时间限制。
--use_huber_loss : 布尔型,默认为True,使用Huber损失;若设置,则不使用Huber损失。
--use_value_active_masks : 布尔型,默认为True,控制是否在值损失中屏蔽无用数据。
--use_policy_active_masks : 布尔型,默认为True,控制是否在策略损失中屏蔽无用数据。
--huber_delta : Huber损失的系数,默认为10.0。
--use_linear_lr_decay : 布尔型,默认为False,控制是否对学习率使用线性衰减策略。
--save_interval : 连续两次保存模型之间的时间间隔,默认为1。
--log_interval : 连续两次打印日志之间的时间间隔,默认为5。
--use_eval : 布尔型,默认为True,控制是否在训练过程中启动评估。
--eval_interval : 连续两次评估进度之间的时间间隔,默认为100。
--eval_episodes : 单次评估的回合数,默认为10。
--save_gifs : 布尔型,默认为False,控制是否保存渲染视频。
--use_render : 布尔型,默认为False,控制是否在训练期间渲染环境。
--use_render_eval : 布尔型,默认为True,控制是否在评估期间渲染环境。
--render_episodes : 渲染给定环境的回合数,默认为2。
--ifi : 保存视频中每个渲染图像的播放间隔,默认为0.1。
--model_dir : 设置预训练模型的路径,默认为None。
--env : 指定环境,可选值为envs字典的键,默认为"roundabout"。
--top_down : 布尔型,默认为True,使用上视角。
--num_agents : 智能体数量,默认为2。
--random_traffic : 布尔型,默认为True,在道路上随机放置其他车辆。
--human_vehicle : 布尔型,默认为True,道路上有其他车辆。
--traffic_density : 字典类型,默认为density变量,指定交通密度。
--obs_num_others : 智能体观测其他智能体的数量,默认为4。
--show_navi : 布尔型,默认为True,显示导航标记。
--show_dest : 布尔型,默认为True,显示目的地标记。
About
No description, website, or topics provided.
Resources
License
Stars
Watchers
Forks
You can’t perform that action at this time.