- Cross-sceneCrowdCountingviaDeepConvolutionalNeuralNetworks, C. Zhang et al., CVPR2015
Xiaogang Wang先生のグループの論文。perspective mapを学習データセットごとに用意しておいて、ターゲットのperspetive mapを手動(自動?)で求めて、ターゲットのperspetive mapと類似のperspetive mapを持つ学習データを選択する。そして、選択した学習データを用いてターゲット用にCNNをfine tuningする。
http://www.ee.cuhk.edu.hk/~xgwang/papers/zhangLWYcvpr15.pdf
以下手書きメモ:
perspetitve mapの近似方法は以下の論文に記載されている。
http://visal.cs.cityu.edu.hk/static/pubs/conf/cvpr08-peoplecnt.pdf
- Towards perspective-free object counting with deep learning, D. Onoro-Rubio and R. J. Lopez-Sastre, ECCV2016
GTとしてパッチごとのdensity mapを用意し、入力画像パッチからdensity mapを推定するように学習している。パッチのスケールはピラミッドで複数用意し、それぞれのスケールごとにCNNストリームを学習し、late fusionしている。画像をパッチに分割し、ピラミッドで様々なスケールに対応しているから、perspective-free(カメラ設置環境に依存しない)だと主張しているが、疑わしいのでtowardsというのがついている。
http://agamenon.tsc.uah.es/Investigacion/gram/publications/eccv2016-onoro.pdf
https://github.com/gramuah/ccnn
以下手書きメモ:
評価データとして、TRANCOSとUCSDとが使われている。UCSDは異常行動検知の論文を書いた際にお世話になったので懐かしいと思うとともに、解像度が低くモノクロ画像が今も使われていることに驚いた。。。
http://www.svcl.ucsd.edu/projects/peoplecnt/
- CrowdNet: A Deep Convolutional Network for Dense Crowd Counting, L. Boominathan et al., arxiv2016
https://arxiv.org/pdf/1608.06197.pdf
人数をカウントする場合、近くで大きく写っている被写体はリッチな特徴量を抽出した方がいいが、遠くにいる小さい被写体はむしろリッチな特徴量は使わない方がよい。という観察のもと前者はdeep networkで、後者shallow networkでそれぞれカウントして、late fusionするという方式。
あとは、とりあえず論文のリンクをあげておく。