Update 强化学习.md #13

Malena-yy · 2021-11-02T09:21:07Z

add answer to the question:DQN的两个关键trick分别是什么？

Malena-yy · 2021-11-02T09:21:56Z

add answer to the question:DQN的两个关键trick分别是什么？

HelloCodeFlow · 2025-09-22T07:19:47Z

@MonkeyCode-AI review

MonkeyCode-AI

Pull Request 概述

本次PR修改了"强化学习.md"文件，完善了关于DQN两个关键技巧的描述，将原本的TODO项替换为具体的解释内容。

Pull Request 变更详情

文件路径	变更类型	变更内容
docs/强化学习.md	修改	完善了DQN两个关键技巧的描述，添加了Replay buffer和Fixed Q-targets的解释

MonkeyCode-AI · 2025-09-22T07:20:33Z

docs/强化学习.md

DQN的两个关键技巧描述准确，但可以进一步优化表述以提高可读性。

Suggested change

- Fixed Q-targets: 在更新Q网络参数时，用以计算$q_{target}$的网络参数是上一次迭代前的网络参数$\theta_{i-1}$，当前q值是根据网络参数为$\theta_{i}$的Q网络得出，这也是一种打乱相关性的机理。

Replay buffer（经验回放）：在训练过程中，将经验存储在经验池中，并随机采样用于更新网络参数。这种方法一方面打破了样本之间的相关性，另一方面提高了样本的利用效率（一个样本可能被多次用于网络参数更新）。

Fixed Q-targets（固定Q目标）：在更新Q网络参数时，用于计算$q_{target}$的网络参数是上一次迭代前的网络参数$\\theta_{i-1}$，而当前q值是根据网络参数为$\\theta_{i}$的Q网络得出。这也是一种打破相关性的机制。

MonkeyCode-AI · 2025-09-22T08:55:11Z

⏳ MonkeyCode-AI 正在分析，请稍等片刻...

Update 强化学习.md

b6a8474

add answer to the question:DQN的两个关键trick分别是什么？

MonkeyCode-AI reviewed Sep 22, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Update 强化学习.md #13

Update 强化学习.md #13

Uh oh!

Malena-yy commented Nov 2, 2021

Uh oh!

Malena-yy commented Nov 2, 2021

Uh oh!

HelloCodeFlow commented Sep 22, 2025

Uh oh!

MonkeyCode-AI left a comment

Uh oh!

MonkeyCode-AI Sep 22, 2025

Uh oh!

MonkeyCode-AI commented Sep 22, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

-- Fixed Q-targets: 在更新Q网络参数时，用以计算$q_{target}$的网络参数是上一次迭代前的网络参数$\theta_{i-1}$，当前q值是根据网络参数为$\theta_{i}$的Q网络得出，这也是一种打乱相关性的机理。
+Replay buffer（经验回放）：在训练过程中，将经验存储在经验池中，并随机采样用于更新网络参数。这种方法一方面打破了样本之间的相关性，另一方面提高了样本的利用效率（一个样本可能被多次用于网络参数更新）。
+Fixed Q-targets（固定Q目标）：在更新Q网络参数时，用于计算$q_{target}$的网络参数是上一次迭代前的网络参数$\\theta_{i-1}$，而当前q值是根据网络参数为$\\theta_{i}$的Q网络得出。这也是一种打破相关性的机制。

Update 强化学习.md #13

Are you sure you want to change the base?

Update 强化学习.md #13

Uh oh!

Conversation

Malena-yy commented Nov 2, 2021

Uh oh!

Malena-yy commented Nov 2, 2021

Uh oh!

HelloCodeFlow commented Sep 22, 2025

Uh oh!

MonkeyCode-AI left a comment

Choose a reason for hiding this comment

Pull Request 概述

Pull Request 变更详情

Uh oh!

MonkeyCode-AI Sep 22, 2025

Choose a reason for hiding this comment

Uh oh!

MonkeyCode-AI commented Sep 22, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants