贝叶斯推理 & 变分推理 (variational inference)

信息论

高斯过程 & 混合高斯模型 (GP & GMM)

不确定性建模

Blog

Course

Conference

数学与机器学习基础

  • From 《强化学习精要:核心算法与TensorFlow实现》
  • [PDF]
  • 内容
    • 线性代数基础
    • 对称矩阵的性质
    • 概率论
      • 概率与分布
      • 最大似然估计
    • 重要性采样
    • 信息论基础
    • KL散度
    • 凸函数及其性质
    • 机器学习的基本概念
    • 机器学习的目标函数

优化算法

  • From 《强化学习精要:核心算法与TensorFlow实现》
  • [PDF]
  • 内容
    • 梯度下降法
      • 什么是梯度下降法
      • 优雅的步长
    • 动量算法
    • 共轭梯度法
      • 精妙的约束
      • 共轭
      • 优化步长的确定
      • Gram-Schmidt方法
      • 共轭梯度
    • 自然梯度法
      • 基本概念
      • Fisher信息矩阵
      • 自然梯度法目标公式

基于置信域策略优化的强化学习方法

  • From 《深入浅出强化学习》
  • [PDF]
  • 内容
    • 理论基础
    • TRPO中的数学知识
      • 信息论
      • 优化方法

基于引导策略搜索的强化学习方法

  • From 《深入浅出强化学习》
  • [PDF]
  • 内容
    • 理论基础
    • GPS中涉及的数学基础
      • 监督相LBFGS优化方法
      • ADMM算法
      • KL散度与变分推理

基于模型的强化学习方法:PILCO及其扩展

  • From 《深入浅出强化学习》
  • [PDF]
  • 内容
    • 概述
    • PILCO
    • 滤波PILCO和探索PILCO
      • 滤波PILCO算法
      • 有向探索PILCO算法
    • 深度PILCO

iLQR

  • From 《强化学习精要:核心算法与TensorFlow实现》
  • [PDF]
  • 内容
    • 线性模型的求解法
    • 非线性模型的求解法
    • iLQR的实现
      • 基于连续行动的平衡车环境
      • iLQR算法