Papers

  • 2019 - Google Brain - Striving for Simplicity in Off-policy Deep Reinforcement Learning
    • Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi
    • [PDF]

Talks

  • 2018.07 - DeepMind - Remi Munos - off-policy deep RL [Slide]

Books

  • Off-Policy策略梯度法
    • From 《强化学习精要:核心算法与TensorFlow实现》
    • [PDF]
    • 内容
      • Retrace
        • Retrace的基本概念
        • Retrace的算法实现
      • ACER
        • Off-Policy Actor-Critic
        • ACER算法
        • ACER的实现
      • DPG
        • 连续空间的策略优化
        • 策略模型参数的一致性
        • DDPG算法
        • DDGP的实现