覚え書きブログ
policyは、状態が与えられたもとで、行動を選択する条件付き確率とする。 PGPE (Policy Gradient with Parameter-Based Exploration) policyのパラメータの事前分布を導入し、policyを学習する問題を事前分布を学習する問題に置き換える。ただし、policyはg…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。