覚え書きブログ

読者です 読者をやめる 読者になる 読者になる

3次元空間の圧縮表現

  • Hilbert Map

センサーデータをクラスタリングし、クラスター中心とのカーネル関数を用いて3次元のoccupancy mapを特徴量化している
https://www.semanticscholar.org/paper/Large-scale-3D-scene-reconstruction-with-Hilbert-Guizilini-Ramos/f1d8ab06faefab45f6f9f238318c0f1dc8288598
http://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14419/14106

強化学習覚え書き(policy gradient法の種類)

policyは、状態\bf{s}が与えられたもとで、行動aを選択する条件付き確率\pi(a|\bf{s})とする。

  • PGPE (Policy Gradient with Parameter-Based Exploration)

policyのパラメータ\thetaの事前分布p(\theta|\rho)を導入し、policyを学習する問題を事前分布を学習する問題に置き換える。ただし、policyはgreedyに行動を選択する。これにより、勾配の分散を抑えることができる。
http://people.idsia.ch/~juergen/icann2008sehnke.pdf

  • DPG (Deterministic Policy Gradient)

決定的な(greedy)policyを学習する場合、Q関数の目的関数である二乗ベルマン残差の最小化はpolicyに依存しないと仮定できる。これにより、off-policyで過去のデータを再利用しながらDeep Q関数を学習することができる。Actor-criticの枠組みで、CriticでOff-policyでDeep Q関数を更新し、ActorではDeep actor関数を更新する。
https://arxiv.org/pdf/1509.02971.pdf
http://jmlr.org/proceedings/papers/v32/silver14.pdf
http://pemami4911.github.io/blog/2016/08/21/ddpg-rl.html

つくばチャレンジ覚え書き(2017年ホームページ)

2017年のつくばチャレンジのホームページが開設された。
http://www.tsukubachallenge.jp/tc2017/kadai

「つくばチャレンジ」は、つくば市内の遊歩道等の実環境を、移動ロボットに自律走行させる技術チャレンジであり、地域と研究者が協力して行う、人間とロボットが共存する社会の実現のための先端的技術への挑戦です。つくばチャレンジは、2007年からにつくば市内の遊歩道や公園、広場に設定された1km+αのコースを自律走行させることを課題として行われてきました。今までに、大学の研究室や国立研究所、企業などから、延べ500を超えるチームが参加して、自律移動ロボットの開発と、そのロボットの市街地での走行実験を行っています。この活動は、ロボットに、実験室の中のみでなく、市民が日常使っている実際の市街地の中で、自分で環境を認識しつつ自分で行動を決めて走行させる技術を目指しており、移動ロボットの自律走行技術の発展に大きな役割を果たしてきました。実際、つくばチャレンジに参加しているロボットの技術は年々向上し、この活動は、技術的・学術的にも大いに評価されています。

http://www.tsukubachallenge.jp/tc2017/about