強化学習覚え書き（policy gradient法の種類） - 八谷大岳の覚え書きブログ

policyは、状態 $\bf{s}$ が与えられたもとで、行動 $a$ を選択する条件付き確率 $\pi(a|\bf{s})$ とする。

PGPE (Policy Gradient with Parameter-Based Exploration）

policyのパラメータ $\theta$ の事前分布 $p(\theta|\rho)$ を導入し、policyを学習する問題を事前分布を学習する問題に置き換える。ただし、policyはgreedyに行動を選択する。これにより、勾配の分散を抑えることができる。
http://people.idsia.ch/~juergen/icann2008sehnke.pdf

DPG (Deterministic Policy Gradient)

決定的な（greedy）policyを学習する場合、Q関数の目的関数である二乗ベルマン残差の最小化はpolicyに依存しないと仮定できる。これにより、off-policyで過去のデータを再利用しながらDeep Q関数を学習することができる。Actor-criticの枠組みで、CriticでOff-policyでDeep Q関数を更新し、ActorではDeep actor関数を更新する。
https://arxiv.org/pdf/1509.02971.pdf
http://jmlr.org/proceedings/papers/v32/silver14.pdf
http://pemami4911.github.io/blog/2016/08/21/ddpg-rl.html

―