覚え書きブログ

Pythonによる機械学習7(Q学習 2/3)

<< Pythonによる機械学習7(Q学習 1/3)

Pythonによる機械学習7(Q学習 2/3)】

参考書

本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython機械学習プログラミング入門」に掲載されています。
機械学習に必要な数学の復習から、機械学習アルゴリズムの導出およびPythonの基本ライブラリのみを用いた実装方法まで学びたい方は、本書籍をご活用ください。
bookclub.kodansha.co.jp

Q関数を用いた方策関数

Q学習法により獲得したQテーブルを用いて、方策関数を定義します。代表的な方策関数としては、以下のように、貪欲方策と、epsilon貪欲方策があります。
f:id:hirotaka_hachiya:20181201091626p:plain

演習2

RLクラスのselectActionメソッドに、Qテーブルself.Qを用いてepsilon-貪欲方策で行動を選択するコードを追加しましょう。
なお、epsilonの値は、以下のように引数で得るように変更してください。

def selectAction(self, state, epsilon=0.02):

作成したスクリプトおよび出力したグラフ画像を、Moodleにて提出してください。

Pythonによる機械学習7(Q学習 3/3)>>