Adversarial examples - 八谷大岳の覚え書きブログ

Adversarial examplesという、入力画像に意図的に妨害するノイズを入れることにより、DNNの認識を失敗させる方法が研究されている。

Explaining and Harnessing Adversarial Examples, Goodfellow et al., arxiv2015

入力画像 $x$ に、DNNのロス関数 $J(\theta,x,y)$ の $x$ に関する勾配をsign関数をとったものを足すだけで以下のように、パンダをテナガザル（gibbon）と高い信頼度で間違えるようになる。ちなみに、以下のように画像の見た目はほとんど変わっていない。ここで、 $\theta$ はDNNのパラメータ、 $y$ は分類ラベルである。
f:id:hirotaka_hachiya:20170407092552p:plain

具体的には、以下のノイズを入力画像に付加する。この方法はFGSM(Fast Gradient Sign Method)と呼ばれている。
f:id:hirotaka_hachiya:20170407093210p:plain

なぜ、こんな単純なノイズ付加で失敗するのか？DNNの各レイヤーにて線形和を計算してからactivationしているからだと説明されている。単純な１階層の線形モデルを考えた場合、入力画像にノイズを加えることは、以下のように、 $w^\top \eta$ を足していることに対応する。
f:id:hirotaka_hachiya:20170407095950p:plain
ここで、 $\eta=sign(w)$ となるので、ノイズ項は、 $w$ の絶対値和に対応し、max normの制約（最大値が $\epsilon$ 以下）のもとでは最大の値をとることができる。例えば、 $w=(0.1,-0.2,-0.5)^\top$ だとすると、 $\eta=(1,-1,-1)^\top$ となり、 $w^\top\eta=0.1+0.2+0.5=0.8$ となる。特に、 $w$ の次元が高い場合、 $w^\top\eta$ は次元数に比例した大きな値をとり、インパクトのあるノイズを加えることが出来る。つまり、線形和でノイズを積算してしまっている。