覚え書きブログ

読者です 読者をやめる 読者になる 読者になる

強化学習覚え書き(policy gradient法の種類)

強化学習

policyは、状態\bf{s}が与えられたもとで、行動aを選択する条件付き確率\pi(a|\bf{s})とする。

  • PGPE (Policy Gradient with Parameter-Based Exploration)

policyのパラメータ\thetaの事前分布p(\theta|\rho)を導入し、policyを学習する問題を事前分布を学習する問題に置き換える。ただし、policyはgreedyに行動を選択する。これにより、勾配の分散を抑えることができる。
http://people.idsia.ch/~juergen/icann2008sehnke.pdf

  • DeepDPG (Deep Deterministic Policy Gradient)

https://arxiv.org/pdf/1509.02971.pdf