参考書
本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython機械学習プログラミング入門」に掲載されています。
機械学習に必要な数学の復習から、機械学習のアルゴリズムの導出およびPythonの基本ライブラリのみを用いた実装方法まで学びたい方は、本書籍をご活用ください。
bookclub.kodansha.co.jp
Q関数を用いた方策関数
Q学習法により獲得したQテーブルを用いて、方策関数を定義します。代表的な方策関数としては、以下のように、貪欲方策と、epsilon貪欲方策があります。
演習2
RLクラスのselectActionメソッドに、Qテーブルself.Qを用いてepsilon-貪欲方策で行動を選択するコードを追加しましょう。
なお、epsilonの値は、以下のように引数で得るように変更してください。def selectAction(self, state, epsilon=0.02):