覚え書きブログ

異種混合学習(FIC編)

下記のブログを参考にして、
d.hatena.ne.jp
NECの異種混合学習技術に関連する論文を読んでみることにした。

今回は、AISTATS2012で発表された藤巻さんと森永さんの論文「Factorized Asymptotic Bayesian Inference for Mixture Modeling」の前半FIC(Factorized Information Criterion)を読んだので、メモっておく。
http://jmlr.org/proceedings/papers/v22/fujimaki12/fujimaki12.pdf

本論文では、最初にモデルMのもとでの観測データX^Nの周辺尤度P(X^N|M)を、変分ベイズ(Jensen不等式、潜在変数の分解)、ラプラス近似、ガウス積分などの数学的テクニックを駆使して近似する方法FIBを提案している。そして、FIBをさらに近似して、(近似)周辺尤度の最大化を反復的に解く方法FAB(Factorized Asymptotic Bayesian)を提案している。

【1. Introduction】
従来のBIC(Bayes information criteon)とVB(Variational Bayes)が混合モデルでは使えないことと、FICとFABを定性的な利点を説明している。
具体的には、

  • BICBICでは周辺尤度を、ML(Maximum Likelihood)推定\bf{\theta}_{ML}の周辺でラプラス近似している。ラプラス近似では周辺尤度のヘッセ行列(特に\bf{\theta}_{ML}まわり)が正則(regular)、つまりランク落ちしないと仮定している。混合モデルではヘッセ行列が縮退しやすいのでBICの精度が悪くなる問題があるが、論文では、そもそもML推定の精度が悪いことを指摘している。理由としては、混合モデルの周辺尤度は、正則(つまり、ML推定の漸近正規性(asymptotic normality))と、識別可能性(identifiable)を持たないからとのこと。漸近正規性とは、推定量が一致性を持ち、漸近的に正規分布に従う(\sqrt{N}(\theta_{ML}-\theta) \longrightarrow \mathcal{N}(0,\sigma^{2}))という性質である。また、識別可能性は、パラメータと尤度が1対1に対応しているという性質である。詳しくは以下参照。

http://web.econ.keio.ac.jp/staff/bessho/lecture/09/091014ML.pdf
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/ds2009dec.pdf

  • VBVBでは、周辺尤度の下限(Jenssenの不等式)を最大化しているので、漸近正規性や識別可能性を保持しているとのこと。しかしながら、VBでは潜在変数とモデルパラメータとを分割しているため、下限が緩くなっている(周辺尤度との等式が成り立たない)ため、精度が良くない。

FICとFABの概要と利点の説明は省略。

【2. Preliminaries】
論文では、以下のように混合モデル、各種変数を定義している。
混合モデル:p(X|\theta)=\sum_{c=1}^{C}\alpha_cp_c(X|\phi_c)
XD次元の確率変数
C:要素モデル数
\bf{\alpha}=(\alpha_1,...\alpha_C):混合比
\bf{\theta}=(\bf{\alpha},\phi_1,...,\phi_C):モデルパラメータ
仮定A1:各モデルp_c(X|\phi_c):正則だが、混合モデルp(X|\bf{\theta})は特異(例えば、ガウス混合モデルなど)
仮定A2:p(X,Z|\bf{\theta})<\infty
M=(C,S_1,...,S_C):混合モデルの簡易表現(S_cは要素モデルcの簡易表現)
\bf{x}^N=\bf{x}_1,\bf{x}_2,...,\bf{x}_N:観測データ
\bf{z}^N=\bf{z}_1,\bf{z}_2,...,\bf{z}_N:各観測データ点に対する潜在変数、\bf{z}_n=(z_{n1},...,z_{nC})
Z=(Z_1,...,Z_C):1 of C表現の潜在変数。XZ_c=1の要素モデルから生成される。混合モデルは、潜在変数を用いて以下のように表すことができる。
\displaystyle
\begin{align*}
p(X|\theta)&=\sum_{Z} p(X|Z,\theta)\\
&=\sum_{Z} p(Z|\bf{\alpha})p(X|Z,\bf{\phi})\\
&=\sum_{Z} \prod_{c=1}^{C}\alpha_{c}^{Z_c} \prod_{c=1}^{C}(p_c(X|\phi_c))^{Z_c}\\
&=\sum_{c=1}^{C}\alpha_c p_c(X|\phi_c)
\end{align*}
ここで、p(Z|\bf{\alpha})=\prod_{c=1}^{C}\alpha_{c}^{Z_c}はZの周辺確率、p(X|Z,\bf{\phi})=\prod_{c=1}^{C}(p_c(X|\phi_c))^{Z_c}はZのもとでのXの条件付き確率である。


【3. Factorized Information Criterion for Mixture Models】
これからFICを導出する。まず、潜在変数の周辺確率q(\bf{z}^N)に対して、Jensenの不等式を用いて周辺尤度の下限を考える。
式2:\displaystyle
\begin{align*}
\log p(\bf{x}^N|M) &= \log\sum_{\bf{z}^N}q(\bf{z}^N)p(\bf{x}^N|M,\bf{z}^N)\\
&\ge \sum_{\bf{z}^N}q(\bf{z}^N)\log p(\bf{x}^N|M,\bf{z}^N)\\
&=\sum_{\bf{z}^N}q(\bf{z}^N)\log \left(\frac{p(\bf{x}^N,\bf{z}^N|M)}{q(\bf{z}^N)}\right)
\end{align*}

Lemma1:下限は、任意のq\bf{z}^Nに対して成立し、等式は、q(\bf{z}^N)=p(\bf{z}^N|M,\bf{x}^N)のときに成立する。これは式2の左辺と右辺の\logの中身が等しくなるように、q(\bf{z}^N)を求めれば得られる。実際に、式2のq(\bf{z}^N)に代入してみると、以下のように等式が成り立つ。
\displaystyle
\begin{align*}
&\sum_{\bf{z}^N}p(\bf{z}^N|M,\bf{x}^N)\log \left(\frac{p(\bf{x}^N,\bf{z}^N|M)}{p(\bf{z}^N|M,\bf{x}^N)}\right)\\
&=\sum_{\bf{z}^N}p(\bf{z}^N|M,\bf{x}^N)\log \left(\frac{p(\bf{x}^N,\bf{z}^N|M)p(\bf{x}^N|M)}{p(\bf{z}^N|M,\bf{x}^N)p(\bf{x}^N|M)}\right)\\
&=\sum_{\bf{z}^N}p(\bf{z}^N|M,\bf{x}^N)\log \left(p(\bf{x}^N|M)\right)\\
&=\log p(\bf{x}^N|M)
\end{align*}

これから、下限(式2)の分子p(\bf{x}^N,\bf{z}^N|M)を、ラプラス近似とガウス積分を用いて近似していく。まず、下記のようにラプラス近似をする。
\displaystyle
\log p(\bf{x}^N,\bf{z}^N|\bf{\theta})\approx \log p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})-\frac{1}{2}(\bf{\theta}-\bar{\bf{\theta}})^\top A (\bf{\theta}-\bar{\bf{\theta}})

Aは、\log p(\bf{x}^N,\bf{z}^N|\bf{\theta})のヘッセ行列(2階微分)である。
\displaystyle
\begin{align*}
A&=\nabla^2_\bf{\theta} \left. \log p(\bf{x}^N,\bf{z}^N|\bf{\theta})\right|_{\bf{\theta}=\bar{\bf{\theta}}}\\
&=\nabla^2_\bf{\theta} \left. \log \left( p(\bf{z}^N|\bf{\alpha}) p(\bf{x}^N|\bf{z}^N,\bf{\phi})\right)\right|_{\bf{\theta}=\bar{\bf{\theta}}}\\
&=\nabla^2_\bf{\theta} \left. \log p(\bf{z}^N|\bf{\alpha}) \right|_{\bf{\theta}=\bar{\bf{\theta}}} + \nabla^2_\bf{\theta} \left. \log p(\bf{x}^N|\bf{z}^N,\bf{\phi}) \right|_{\bf{\theta}=\bar{\bf{\theta}}}
\end{align*}

Aを上記のラプラス近似の式に代入すると、下記のように分解することができる。
式5:\displaystyle
\begin{align*}
&\log p(\bf{x}^N,\bf{z}^N|\bf{\theta})\\
&\approx\log p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\\
&-\frac{1}{2}(\bf{\alpha}-\bar{\bf{\alpha}})^\top \nabla_{\bf{\alpha}}^2 \left. \log p(\bf{z}^N|\bf{\alpha}) \right|_{\bf{\alpha}=\bar{\bf{\alpha}}} (\bf{\alpha}-\bar{\bf{\alpha}})\\
&-\frac{1}{2}(\bf{\phi}-\bar{\bf{\phi}})^\top \nabla_{\bf{\phi}}^2 \left. \log p(\bf{x}^N|\bf{z}^N,\bf{\phi}) \right|_{\bf{\phi}=\bar{\bf{\phi}}} (\bf{\phi}-\bar{\bf{\phi}})\\
&=\log p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\\
&-\frac{N}{2}(\bf{\alpha}-\bar{\bf{\alpha}})^\top \bar{\mathcal{F}}_Z (\bf{\alpha}-\bar{\bf{\alpha}})\\
&-\sum_{c=1}^{C}\frac{\sum_{n=1}^{N}z_{nc}}{2}(\bf{\phi}_c-\bar{\bf{\phi}_c})^\top \bar{\mathcal{F}}_c (\bf{\phi}_c-\bar{\bf{\phi}_c})
\end{align*}

ここで、\bar{\bf{\theta}}=(\bar{\bf{\alpha}},\bar{\phi}_1,...,\bar{\phi}_C)は、\log p(\bf{x}^N,\bf{z}^N|\bf{\theta})のML推定量である。また、\bar{\mathcal{F}}_Z\bar{\mathcal{F}}_cは、下記のようにフィッシャー情報行列のサンプル近似である。
f:id:hirotaka_hachiya:20170120182652p:plain

大数の法則より、下記のLemma2が成り立つ。式8は\sum_{n=1}^N z_{nc}コンポーネントcが選択される回数なので、コンポーネントcのサンプルで平均をとっていることに対応する。
f:id:hirotaka_hachiya:20170120182829p:plain
ちなみに、この時点では、2階微分なのでヘッセ行列そのままに見えるが、下記のようにフィッシャー情報行列に変換することができる。

\displaystyle
\begin{align*}
&\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} \log p(Z|\bf{\alpha})\\
&=\frac{\partial }{\partial \bf{\alpha}}\frac{\frac{\partial}{\partial \bf{\alpha}}p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})}\\
&=\frac{\left( \frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha})\right)p(Z|\bf{\alpha}) - \frac{\partial}{\partial \bf{\alpha}}p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})p(Z|\bf{\alpha})}\\
&=\frac{\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})} - \frac{\frac{\partial}{\partial \bf{\alpha}}p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})}\frac{\frac{\partial}{\partial \bf{\alpha}^\top}p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})}\\
&=\frac{\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})} - \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})
\end{align*}
ここで、Zに関して期待値をとると、フィッシャー情報行列になる。
\displaystyle
\begin{align*}
&\int \frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} \log p(Z|\bf{\alpha}) p(Z|\bf{\alpha}) dZ\\
&=\int \frac{\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})}p(Z|\bf{\alpha}) dZ - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ\\
&=\int \frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha}) dZ - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ \\
&=\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top}\int p(Z|\bf{\alpha}) dZ - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ \\
&=\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top}1 - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ\\
&= - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ
\end{align*}

さて、ここで先ほどラプラス近似した式5の両辺に指数をとる。
\displaystyle
\begin{align*}
&p(\bf{x}^N,\bf{z}^N|\bf{\theta})\\
&\approx p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\\
&\times\exp\left(-\frac{N}{2}(\bf{\alpha}-\bar{\bf{\alpha}})^\top \bar{\mathcal{F}}_Z (\bf{\alpha}-\bar{\bf{\alpha}})\right)\\
&\times\exp\left(-\prod_{c=1}^{C}\frac{\sum_{n=1}^{N}z_{nc}}{2}(\bf{\phi}_c-\bar{\bf{\phi}_c})^\top \bar{\mathcal{F}}_c (\bf{\phi}_c-\bar{\bf{\phi}_c})\right)
\end{align*}

これを、式4の右辺の積分の中の1,2項目に代入する。
f:id:hirotaka_hachiya:20170120224720p:plain
\displaystyle
\begin{align*}
&p(\bf{x}^N,\bf{z}^N|M)\\
&\approx p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\\
&\times \int \exp\left(-\frac{N}{2}(\bf{\alpha}-\bar{\bf{\alpha}})^\top \bar{\mathcal{F}}_Z (\bf{\alpha}-\bar{\bf{\alpha}})\right)\\
&\times \exp\left(-\prod_{c=1}^{C}\frac{\sum_{n=1}^{N}z_{nc}}{2}(\bf{\phi}_c-\bar{\bf{\phi}_c})^\top \bar{\mathcal{F}}_c (\bf{\phi}_c-\bar{\bf{\phi}_c})\right) p(\bf{\theta}|M) d\bf{\theta}
\end{align*}

ここで、理由不十分の原則よりpriorの\log p(\bf{\theta}|M)は、特定の\thetaにより大きく変化しないので定数オーダーとする。そして、指数関数の積分を、ガウス分布の正規化項の計算(ガウス積分)と同じ要領で計算すると、次のようになる(論文の式5)。
多変数のガウス積分 | 高校数学の美しい物語

\displaystyle
\begin{align*}
&p(\bf{x}^N,\bf{z}^N|M)\\
&\approx p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\frac{(2\pi)^{D_{\alpha}/2}}{N^{D_{\alpha}/2}|\bar{\mathcal{F}}_Z|^{1/2}} \frac{(2\pi)^{D_{c}/2}}{(\sum_{c=1}^C z_{nc})^{D_{c}/2}|\bar{\mathcal{F}}_C|^{1/2}}
\end{align*}

ここで、D_{\alpha}は、パラメータ\bf{\alpha}の次元(C-1)で、D_{c}は、パラメータ\bf{\phi}_cの次元である。

Lemma2より、2つのフィッシャー情報行列の行列式|\bar{\mathcal{F}}_Z|^{1/2}|\bar{\mathcal{F}}_c|^{1/2})は、それぞれ対数尤度関数\log p(Z|\alpha)\log p_c(X|\phi_c)の勾配の分散(共分散行列の行列式)に対応している。そして、仮説A1より、 p(Z|\alpha)p_c(X|\phi_c)は正則なので、勾配の分散は非ゼロ(フィッシャー情報行列はランク落ちしない)で、対数をとってもCやZの値によって多く変化することはないので定数オーダーとする。そして、式5の両辺に対数をとってから、式2の\log p(\bf{x}^N,\bf{z}^N|M)と置き換えて、相対的に値の小さい項を無視すると、下記のFICを導出できる。
f:id:hirotaka_hachiya:20170120232354p:plain
f:id:hirotaka_hachiya:20170122101725p:plain

FICの\frac{D_{\bf{\alpha}}}{2}\log N\frac{D_c}{2}\log \sum_{n=1}^N z_{nc}は、モデルの複雑さを表している。