覚え書きブログ

Pythonによる機械学習7(Q学習 2/3)

<< Pythonによる機械学習7(Q学習 1/3)

Pythonによる機械学習7(Q学習 2/3)】

Q関数を用いた方策関数

Q学習法により獲得したQテーブルを用いて、方策関数を定義します。代表的な方策関数としては、以下のように、貪欲方策と、 \epsilon貪欲方策があります。
f:id:hirotaka_hachiya:20181201091626p:plain

演習2

RLクラスのselectActionメソッドに、Qテーブルself.Qを用いて \epsilon貪欲方策で行動を選択するコードを追加しましょう。
なお、 \epsilonの値は、以下のように引数で得るように変更してください。

def selectAction(self, state, epsilon=0.02):

作成したスクリプトおよび出力したグラフ画像を、Moodleにて提出してください。

Pythonによる機械学習7(Q学習 3/3)>>