目录

  • 必备的背景知识
  • 通过实践来学习
  • 开发一个研究项目
  • 在RL方面做研究
  • 总结
  • 补充:其它资源
  • 参考文献

如果你是一个对RL热爱的研究者,你可能已经了解了关于深度RL各方面的内容。你知道它很难,而且并不是常常都奏效。即使你按照别人提供的教程去做,可复现性仍然是一个挑战。如果你从零开始学习,那学习曲线会非常陡峭。

必备的背景知识

  • 牢固掌握相关的数学知识。

  • 对深度学习有一个全局的了解。

  • 至少熟悉一种深度学习库。

  • 掌握RL的主要概念和术语。

通过实践来学习

  • 写自己的实现。

  • 简单很重要。先从一个简单的实现着手,之后再逐步增加复杂性。

  • 选择哪种算法?REINFORCE, DQN, A2C, PPO, DDPG

  • 重点在于理解。

  • 从论文中寻找哪些信息?ablation analyses and supplementary material

  • 不要过于执着论文的细节。

  • 在简单的环境中快速迭代训练。

  • 如果RL算法不work,先假设这个算法有bug。

  • 评价算法的好坏时关注多个指标。

  • 当RL算法work时,考虑各大规模的实验(如多GPU、多CPU训练)。

  • 保持上面提到的良好习惯。

开发一个研究项目

  • 从检索要研究领域的文献开始。

  • 产生新想法的各种方法
    1. 对存在方法进行改进。
    2. 关注还未解决的问题。
    3. 提出一个新问题。
  • 避免重复造轮。

在RL方面做严谨的研究

  • 建立一个公平的比较基准。

  • 排除随机性的影响。通过设置不同的随机种子来运行多次实验

  • 实验要完整,不要只展示好的结果。

  • 分别检查每一条提出的结论。ablation analyses

总结

补充:其它资源

参考文献