覚え書きブログ

強化学習

Unity ML Agents

強化学習の研究者に朗報。ついに、Unityが公式に機械学習エージェント用のAPIを発表しました。 まだ、ベータ版ですが、Unity Machine Learning Agentsというものです。 github.com以下実装の例を紹介しているサイト。 https://blogs.unity3d.com/jp/2017/09/…

シーケンスGAN(generatorのマルチタスク学習)

以前覚え書きに書いたシーケンスGANだが、いろいろなバージョンがでているようだ。 hirotaka-hachiya.hatenablog.com以下のgithubレポジトリに上がっているのは、割引報酬和と真の報酬との二乗誤差の最小化と、報酬の最大化をマルチタスク学習で、generator…

Progressive Networks

Progressive Neural Networks, A. A.Rusu et al., arxiv2016 https://arxiv.org/pdf/1606.04671.pdf ソースタスクごとにNeural Networksを学習し、下位のレイヤーをカスケード的に統合次のタスクへと統合していく方法。新しいタスクに対して強化学習でpolicy…

強化学習覚え書き(policy gradient法の種類)

policyは、状態が与えられたもとで、行動を選択する条件付き確率とする。 PGPE (Policy Gradient with Parameter-Based Exploration) policyのパラメータの事前分布を導入し、policyを学習する問題を事前分布を学習する問題に置き換える。ただし、policyはg…

シーケンスGAN

AAAI-17にて、Lantao YuらによるGAN(Generative Adversarial Net)のフレームワークで、強化学習のpolicy gradientを学習し、テキストや音楽などのシーケンスを生成する方法に関する論文が発表される。 SeqGAN: Sequence Generative Adversarial Nets with …

Deep Learning覚え書き(ChainerでDQN)

以前インストールしたChainerで、Deep Q Network(DQN)を動かしてみたのでメモっておく。 hirotaka-hachiya.hatenablog.com DQNの論文については、以下参照。 hirotaka-hachiya.hatenablog.com以下、ATARIでDQNを学習するまでの手順である。 1)RL-Glueの…

強化学習の覚え書き(アルファ碁と入門書)

2016年3月に、グーグル・ディープマインド社の囲碁の人工知能「アルファ碁」が、世界で最も強い棋士である韓国の李セドル氏に4勝1敗の大差で勝利した。このニュースは、人工知能・機械学習分野に限らず多くのメディアでも取り上げられていたので、一般の人で…

Deep Learning覚え書き(概要編)

Deep Learningは、日本語では深層学習と呼ばれている機械学習の研究分野の一つで、データを高次に抽象化するための多階層なモデルを学習する技術の総称である。機械学習の枠組みには、大きく分けて教師あり学習、教師なし学習、半教師あり学習および強化学習…

Deep Learning覚え書き(DQN論文)

DQN論文をPlaying Atari with Deep Reinforcement Learning, V. Mnih, K. Kavukcuogl et al.を読んでみた。 http://arxiv.org/pdf/1312.5602.pdf DQNは、行動価値関数(Q関数)を、Convolutional Neural Network(CNN)によりモデル化し、強化学習の反復アルゴ…