覚え書きブログ

CGデータを用いたDeep Neural Networkの学習

最近、Deep Learningを学習するためにCGデータを活用するための研究が注目を集めている。単にCGデータを生成して学習に使うのではなく、学習にとって有用なデータを生成するために、CGのパラメータを適応的に調整するのが特徴である。以下は最近の論文の簡単な紹介。

  • Adversarially Tuned scene generation V.S.R. Veeravasarapu et al., arxiv2017

https://arxiv.org/abs/1701.00405
GANを用いて、光源の輝度値、位置、カメラの位置などのパラメータを、実写と近くなるように調整する方法。各パラメータ[\tex:\theta]により生成されたCGデータVに対する識別モデルの結果に基づき、各パラメータが与えられたもとでの実写度(またはCG度)分布p_D(c=1|\theta)を密度推定する。そして、この分布を事前確率として事後確率p(\theta)ベイズ更新する。

  • Learning from Simulated and Unsupervised Images through Adversarial Training, A. Shrivastava et al., arxiv2016

https://arxiv.org/abs/1612.07828
アップル初の人工知能の論文として話題になった方法。GANを用いて、CGデータをリファインするフィルタ関数R_\theta(x)を学習している。xはCGデータサンプル。フィルタ関数を学習する際に、もともとのCGデータとの差が大きくなりすぎないように、制約を入れている。
f:id:hirotaka_hachiya:20170406173259p:plain

  • Procedural Generation of Videos to Train Deep Action Recognition Networks, César Roberto de Souza et al, arxiv2016.

https://arxiv.org/abs/1612.00881
Xeroxの論文。TSN(Temporal Segment Network)にて、CGデータと実写データのセグメントを、4対6くらいの割り合いで混ぜてミニバッチを作り、CGと実写それぞれの行動認識のlossを用意しマルチタスク学習する。これにより、CGと実写両方に有効なCNNが学習できることが期待されている。

  • The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes, German Ros et al., CVPR2016

http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.html
SYNTHIAという街の3Dモデルと、天候のバリエーションに対応したCGデータ生成に関する論文。
http://synthia-dataset.net/

  • Virtual Worlds as Proxy for Multi-Object Tracking Analysis, Adrien Gaidon et al., CVPR2016

http://download.xrce.xerox.com/virtual-kitti-1.2/virtual_worlds_multi_object_tracking.pdf
Xeroxの論文。SYNTHIAと同様にVirtual KITTIと呼ばれる街の3Dモデルと天候のバリエーションに対応したCGデータ生成に関する論文。
http://www.xrce.xerox.com/Our-Research/Computer-Vision/Proxy-Virtual-Worlds

ダイムラーの論文。こちらはCGではないが、一応紹介。大規模の実写の領域ラベル付きデータを提供しているCityScapeに関する論文。
www.cityscapes-dataset.com