群衆カウントの覚え書き - 八谷大岳の覚え書きブログ

Cross-sceneCrowdCountingviaDeepConvolutionalNeuralNetworks, C. Zhang et al., CVPR2015

Xiaogang Wang先生のグループの論文。perspective mapを学習データセットごとに用意しておいて、ターゲットのperspetive mapを手動（自動？）で求めて、ターゲットのperspetive mapと類似のperspetive mapを持つ学習データを選択する。そして、選択した学習データを用いてターゲット用にCNNをfine tuningする。
http://www.ee.cuhk.edu.hk/~xgwang/papers/zhangLWYcvpr15.pdf
以下手書きメモ：
f:id:hirotaka_hachiya:20170529174334p:plain
perspetitve mapの近似方法は以下の論文に記載されている。
http://visal.cs.cityu.edu.hk/static/pubs/conf/cvpr08-peoplecnt.pdf

Towards perspective-free object counting with deep learning, D. Onoro-Rubio and R. J. Lopez-Sastre, ECCV2016

GTとしてパッチごとのdensity mapを用意し、入力画像パッチからdensity mapを推定するように学習している。パッチのスケールはピラミッドで複数用意し、それぞれのスケールごとにCNNストリームを学習し、late fusionしている。画像をパッチに分割し、ピラミッドで様々なスケールに対応しているから、perspective-free（カメラ設置環境に依存しない）だと主張しているが、疑わしいのでtowardsというのがついている。
http://agamenon.tsc.uah.es/Investigacion/gram/publications/eccv2016-onoro.pdf
https://github.com/gramuah/ccnn
以下手書きメモ：
f:id:hirotaka_hachiya:20170529155429p:plain

評価データとして、TRANCOSとUCSDとが使われている。UCSDは異常行動検知の論文を書いた際にお世話になったので懐かしいと思うとともに、解像度が低くモノクロ画像が今も使われていることに驚いた。。。
http://www.svcl.ucsd.edu/projects/peoplecnt/

CrowdNet: A Deep Convolutional Network for Dense Crowd Counting, L. Boominathan et al., arxiv2016

https://arxiv.org/pdf/1608.06197.pdf
人数をカウントする場合、近くで大きく写っている被写体はリッチな特徴量を抽出した方がいいが、遠くにいる小さい被写体はむしろリッチな特徴量は使わない方がよい。という観察のもと前者はdeep networkで、後者shallow networkでそれぞれカウントして、late fusionするという方式。
f:id:hirotaka_hachiya:20170529175116p:plain

あとは、とりあえず論文のリンクをあげておく。

http://dl.acm.org/citation.cfm?id=3007745&CFID=767020407&CFTOKEN=78719804