覚え書きブログ

強化学習

Pythonによる機械学習8(Q学習の応用)

前回実装した強化学習の代表的な手法であるQ学習を、各グループで設定したタスクに応用してみましょう。 タスクは、OpenAI gymから選んでください。 gym.openai.com 参考書 本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython…

Pythonによる機械学習7(Q学習 3/3)

【Pythonによる機械学習7(Q学習 3/3)】 参考書 本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython機械学習プログラミング入門」に掲載されています。 機械学習に必要な数学の復習から、機械学習のアルゴリズムの導出お…

Pythonによる機械学習7(Q学習 2/3)

【Pythonによる機械学習7(Q学習 2/3)】 参考書 本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython機械学習プログラミング入門」に掲載されています。 機械学習に必要な数学の復習から、機械学習のアルゴリズムの導出お…

Pythonによる機械学習7(Q学習 1/3)

【Pythonによる機械学習7(Q学習 1/3)】 参考書 本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython機械学習プログラミング入門」に掲載されています。 機械学習に必要な数学の復習から、機械学習のアルゴリズムの導出お…

Pythonによる機械学習6(強化学習の基礎 3/3)

【Pythonによる機械学習6(強化学習の基礎 3/3)】 参考書 本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython機械学習プログラミング入門」に掲載されています。 機械学習に必要な数学の復習から、機械学習のアルゴリズム…

Pythonによる機械学習6(強化学習の基礎 補足)

【Pythonによる機械学習6(強化学習の基礎 補足)の目次】 参考書 本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython機械学習プログラミング入門」に掲載されています。 機械学習に必要な数学の復習から、機械学習のアルゴリ…

Pythonによる機械学習6(強化学習の基礎 2/3)

【Pythonによる機械学習6(強化学習の基礎 2/3)の目次】 参考書 本ブログの内容の詳細は、「機械学習スタートアップシリーズ ゼロからつくるPython機械学習プログラミング入門」に掲載されています。 機械学習に必要な数学の復習から、機械学習のアルゴ…

Pythonによる機械学習6(強化学習の基礎 1/3)

今回は、まず、強化学習の基礎(教師あり学習との違い、動物の行動学習、定式化)について学びます。そして、演習で用いるベンチマークツールのopen AI Gymのセットアップを行います。【Pythonによる機械学習6(強化学習の基礎 1/3)の目次】 参考書 本…

強くなるロボティック・ゲームプレイヤーの作り方勉強会

私が執筆した「強くなるロボティック・ゲームプレイヤーの作り方」の勉強会が開催されていたらしい。声をかけてくれれば参加したのに。。。techplay.jp techplay.jp強くなるロボティック・ゲームプレイヤーの作り方 プレミアムブックス版 ~実践で学ぶ強化学…

人工知能の講義資料

難しすぎると不評だった人工知能の講義資料。来年度は、表面的な簡単な内容に改変し、さらに強化学習を追加する予定。人工知能 第10回 線形サポートベクトルマシンによる学習を理解する 人工知能10 サポートベクトルマシン from Hirotaka Hachiya www.slides…

Unity ML Agents

強化学習の研究者に朗報。ついに、Unityが公式に機械学習エージェント用のAPIを発表しました。 まだ、ベータ版ですが、Unity Machine Learning Agentsというものです。 github.com以下実装の例を紹介しているサイト。 https://blogs.unity3d.com/jp/2017/09/…

シーケンスGAN(generatorのマルチタスク学習)

以前覚え書きに書いたシーケンスGANだが、いろいろなバージョンがでているようだ。 hirotaka-hachiya.hatenablog.com以下のgithubレポジトリに上がっているのは、割引報酬和と真の報酬との二乗誤差の最小化と、報酬の最大化をマルチタスク学習で、generator…

Progressive Networks

Progressive Neural Networks, A. A.Rusu et al., arxiv2016 https://arxiv.org/pdf/1606.04671.pdf ソースタスクごとにNeural Networksを学習し、下位のレイヤーをカスケード的に統合次のタスクへと統合していく方法。新しいタスクに対して強化学習でpolicy…

強化学習覚え書き(policy gradient法の種類)

policyは、状態が与えられたもとで、行動を選択する条件付き確率とする。 PGPE (Policy Gradient with Parameter-Based Exploration) policyのパラメータの事前分布を導入し、policyを学習する問題を事前分布を学習する問題に置き換える。ただし、policyはg…

シーケンスGAN

AAAI-17にて、Lantao YuらによるGAN(Generative Adversarial Net)のフレームワークで、強化学習のpolicy gradientを学習し、テキストや音楽などのシーケンスを生成する方法に関する論文が発表される。 SeqGAN: Sequence Generative Adversarial Nets with …

Deep Learning覚え書き(ChainerでDQN)

以前インストールしたChainerで、Deep Q Network(DQN)を動かしてみたのでメモっておく。 hirotaka-hachiya.hatenablog.com DQNの論文については、以下参照。 hirotaka-hachiya.hatenablog.com以下、ATARIでDQNを学習するまでの手順である。 1)RL-Glueの…

強化学習の覚え書き(アルファ碁と入門書)

2016年3月に、グーグル・ディープマインド社の囲碁の人工知能「アルファ碁」が、世界で最も強い棋士である韓国の李セドル氏に4勝1敗の大差で勝利した。このニュースは、人工知能・機械学習分野に限らず多くのメディアでも取り上げられていたので、一般の人で…

Deep Learning覚え書き(概要編)

Deep Learningは、日本語では深層学習と呼ばれている機械学習の研究分野の一つで、データを高次に抽象化するための多階層なモデルを学習する技術の総称である。機械学習の枠組みには、大きく分けて教師あり学習、教師なし学習、半教師あり学習および強化学習…

Deep Learning覚え書き(DQN論文)

DQN論文をPlaying Atari with Deep Reinforcement Learning, V. Mnih, K. Kavukcuogl et al.を読んでみた。 http://arxiv.org/pdf/1312.5602.pdf DQNは、行動価値関数(Q関数)を、Convolutional Neural Network(CNN)によりモデル化し、強化学習の反復アルゴ…