異種混合学習（FIC編） - 八谷大岳の覚え書きブログ

下記のブログを参考にして、
d.hatena.ne.jp
NECの異種混合学習技術に関連する論文を読んでみることにした。

今回は、AISTATS2012で発表された藤巻さんと森永さんの論文「Factorized Asymptotic Bayesian Inference for Mixture Modeling」の前半FIC(Factorized Information Criterion)を読んだので、メモっておく。
http://jmlr.org/proceedings/papers/v22/fujimaki12/fujimaki12.pdf

本論文では、最初にモデルMのもとでの観測データ $X^N$ の周辺尤度 $P(X^N|M)$ を、変分ベイズ（Jensen不等式、潜在変数の分解）、ラプラス近似、ガウス積分などの数学的テクニックを駆使して近似する方法FIBを提案している。そして、FIBをさらに近似して、（近似）周辺尤度の最大化を反復的に解く方法FAB(Factorized Asymptotic Bayesian)を提案している。

【1. Introduction】
従来のBIC(Bayes information criteon)とVB(Variational Bayes)が混合モデルでは使えないことと、FICとFABを定性的な利点を説明している。
具体的には、

BIC：BICでは周辺尤度を、ML（Maximum Likelihood）推定 $\bf{\theta}_{ML}$ の周辺でラプラス近似している。ラプラス近似では周辺尤度のヘッセ行列（特に $\bf{\theta}_{ML}$ まわり）が正則（regular）、つまりランク落ちしないと仮定している。混合モデルではヘッセ行列が縮退しやすいのでBICの精度が悪くなる問題があるが、論文では、そもそもML推定の精度が悪いことを指摘している。理由としては、混合モデルの周辺尤度は、正則（つまり、ML推定の漸近正規性（asymptotic normality））と、識別可能性（identifiable）を持たないからとのこと。漸近正規性とは、推定量が一致性を持ち、漸近的に正規分布に従う（ $\sqrt{N}(\theta_{ML}-\theta) \longrightarrow \mathcal{N}(0,\sigma^{2})$ ）という性質である。また、識別可能性は、パラメータと尤度が１対１に対応しているという性質である。詳しくは以下参照。

http://web.econ.keio.ac.jp/staff/bessho/lecture/09/091014ML.pdf
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/ds2009dec.pdf

VB：VBでは、周辺尤度の下限（Jenssenの不等式）を最大化しているので、漸近正規性や識別可能性を保持しているとのこと。しかしながら、VBでは潜在変数とモデルパラメータとを分割しているため、下限が緩くなっている（周辺尤度との等式が成り立たない）ため、精度が良くない。

FICとFABの概要と利点の説明は省略。

【2. Preliminaries】
論文では、以下のように混合モデル、各種変数を定義している。
混合モデル： $p(X|\theta)=\sum_{c=1}^{C}\alpha_cp_c(X|\phi_c)$
$X$ ： $D$ 次元の確率変数
$C$ ：要素モデル数
$\bf{\alpha}=(\alpha_1,...\alpha_C)$ ：混合比
$\bf{\theta}=(\bf{\alpha},\phi_1,...,\phi_C)$ ：モデルパラメータ
仮定A1：各モデル $p_c(X|\phi_c)$ ：正則だが、混合モデル $p(X|\bf{\theta})$ は特異（例えば、ガウス混合モデルなど）
仮定A2： $p(X,Z|\bf{\theta})<\infty$
$M=(C,S_1,...,S_C)$ ：混合モデルの簡易表現（ $S_c$ は要素モデル $c$ の簡易表現）
$\bf{x}^N=\bf{x}_1,\bf{x}_2,...,\bf{x}_N$ ：観測データ
$\bf{z}^N=\bf{z}_1,\bf{z}_2,...,\bf{z}_N$ ：各観測データ点に対する潜在変数、 $\bf{z}_n=(z_{n1},...,z_{nC})$
$Z=(Z_1,...,Z_C)$ ：1 of C表現の潜在変数。 $X$ は $Z_c=1$ の要素モデルから生成される。混合モデルは、潜在変数を用いて以下のように表すことができる。
$\displaystyle \begin{align*} p(X|\theta)&=\sum_{Z} p(X|Z,\theta)\\ &=\sum_{Z} p(Z|\bf{\alpha})p(X|Z,\bf{\phi})\\ &=\sum_{Z} \prod_{c=1}^{C}\alpha_{c}^{Z_c} \prod_{c=1}^{C}(p_c(X|\phi_c))^{Z_c}\\ &=\sum_{c=1}^{C}\alpha_c p_c(X|\phi_c) \end{align*}$
ここで、 $p(Z|\bf{\alpha})=\prod_{c=1}^{C}\alpha_{c}^{Z_c}$ はZの周辺確率、 $p(X|Z,\bf{\phi})=\prod_{c=1}^{C}(p_c(X|\phi_c))^{Z_c}$ はZのもとでのXの条件付き確率である。

【3. Factorized Information Criterion for Mixture Models】
これからFICを導出する。まず、潜在変数の周辺確率 $q(\bf{z}^N)$ に対して、Jensenの不等式を用いて周辺尤度の下限を考える。
式2： $\displaystyle \begin{align*} \log p(\bf{x}^N|M) &= \log\sum_{\bf{z}^N}q(\bf{z}^N)p(\bf{x}^N|M,\bf{z}^N)\\ &\ge \sum_{\bf{z}^N}q(\bf{z}^N)\log p(\bf{x}^N|M,\bf{z}^N)\\ &=\sum_{\bf{z}^N}q(\bf{z}^N)\log \left(\frac{p(\bf{x}^N,\bf{z}^N|M)}{q(\bf{z}^N)}\right) \end{align*}$

Lemma1：下限は、任意の $q$ と $\bf{z}^N$ に対して成立し、等式は、 $q(\bf{z}^N)=p(\bf{z}^N|M,\bf{x}^N)$ のときに成立する。これは式２の左辺と右辺の $\log$ の中身が等しくなるように、 $q(\bf{z}^N)$ を求めれば得られる。実際に、式２の $q(\bf{z}^N)$ に代入してみると、以下のように等式が成り立つ。
$\displaystyle \begin{align*} &\sum_{\bf{z}^N}p(\bf{z}^N|M,\bf{x}^N)\log \left(\frac{p(\bf{x}^N,\bf{z}^N|M)}{p(\bf{z}^N|M,\bf{x}^N)}\right)\\ &=\sum_{\bf{z}^N}p(\bf{z}^N|M,\bf{x}^N)\log \left(\frac{p(\bf{x}^N,\bf{z}^N|M)p(\bf{x}^N|M)}{p(\bf{z}^N|M,\bf{x}^N)p(\bf{x}^N|M)}\right)\\ &=\sum_{\bf{z}^N}p(\bf{z}^N|M,\bf{x}^N)\log \left(p(\bf{x}^N|M)\right)\\ &=\log p(\bf{x}^N|M) \end{align*}$

これから、下限（式2）の分子 $p(\bf{x}^N,\bf{z}^N|M)$ を、ラプラス近似とガウス積分を用いて近似していく。まず、下記のようにラプラス近似をする。
$\displaystyle \log p(\bf{x}^N,\bf{z}^N|\bf{\theta})\approx \log p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})-\frac{1}{2}(\bf{\theta}-\bar{\bf{\theta}})^\top A (\bf{\theta}-\bar{\bf{\theta}})$

$A$ は、 $\log p(\bf{x}^N,\bf{z}^N|\bf{\theta})$ のヘッセ行列（２階微分）である。
$\displaystyle \begin{align*} A&=\nabla^2_\bf{\theta} \left. \log p(\bf{x}^N,\bf{z}^N|\bf{\theta})\right|_{\bf{\theta}=\bar{\bf{\theta}}}\\ &=\nabla^2_\bf{\theta} \left. \log \left( p(\bf{z}^N|\bf{\alpha}) p(\bf{x}^N|\bf{z}^N,\bf{\phi})\right)\right|_{\bf{\theta}=\bar{\bf{\theta}}}\\ &=\nabla^2_\bf{\theta} \left. \log p(\bf{z}^N|\bf{\alpha}) \right|_{\bf{\theta}=\bar{\bf{\theta}}} + \nabla^2_\bf{\theta} \left. \log p(\bf{x}^N|\bf{z}^N,\bf{\phi}) \right|_{\bf{\theta}=\bar{\bf{\theta}}} \end{align*}$

Aを上記のラプラス近似の式に代入すると、下記のように分解することができる。
式5： $\displaystyle \begin{align*} &\log p(\bf{x}^N,\bf{z}^N|\bf{\theta})\\ &\approx\log p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\\ &-\frac{1}{2}(\bf{\alpha}-\bar{\bf{\alpha}})^\top \nabla_{\bf{\alpha}}^2 \left. \log p(\bf{z}^N|\bf{\alpha}) \right|_{\bf{\alpha}=\bar{\bf{\alpha}}} (\bf{\alpha}-\bar{\bf{\alpha}})\\ &-\frac{1}{2}(\bf{\phi}-\bar{\bf{\phi}})^\top \nabla_{\bf{\phi}}^2 \left. \log p(\bf{x}^N|\bf{z}^N,\bf{\phi}) \right|_{\bf{\phi}=\bar{\bf{\phi}}} (\bf{\phi}-\bar{\bf{\phi}})\\ &=\log p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\\ &-\frac{N}{2}(\bf{\alpha}-\bar{\bf{\alpha}})^\top \bar{\mathcal{F}}_Z (\bf{\alpha}-\bar{\bf{\alpha}})\\ &-\sum_{c=1}^{C}\frac{\sum_{n=1}^{N}z_{nc}}{2}(\bf{\phi}_c-\bar{\bf{\phi}_c})^\top \bar{\mathcal{F}}_c (\bf{\phi}_c-\bar{\bf{\phi}_c}) \end{align*}$

ここで、 $\bar{\bf{\theta}}=(\bar{\bf{\alpha}},\bar{\phi}_1,...,\bar{\phi}_C)$ は、 $\log p(\bf{x}^N,\bf{z}^N|\bf{\theta})$ のML推定量である。また、 $\bar{\mathcal{F}}_Z$ と $\bar{\mathcal{F}}_c$ は、下記のようにフィッシャー情報行列のサンプル近似である。
f:id:hirotaka_hachiya:20170120182652p:plain

大数の法則より、下記のLemma2が成り立つ。式8は $\sum_{n=1}^N z_{nc}$ がコンポーネントcが選択される回数なので、コンポーネントcのサンプルで平均をとっていることに対応する。
f:id:hirotaka_hachiya:20170120182829p:plain
ちなみに、この時点では、２階微分なのでヘッセ行列そのままに見えるが、下記のようにフィッシャー情報行列に変換することができる。

$\displaystyle \begin{align*} &\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} \log p(Z|\bf{\alpha})\\ &=\frac{\partial }{\partial \bf{\alpha}}\frac{\frac{\partial}{\partial \bf{\alpha}}p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})}\\ &=\frac{\left( \frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha})\right)p(Z|\bf{\alpha}) - \frac{\partial}{\partial \bf{\alpha}}p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})p(Z|\bf{\alpha})}\\ &=\frac{\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})} - \frac{\frac{\partial}{\partial \bf{\alpha}}p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})}\frac{\frac{\partial}{\partial \bf{\alpha}^\top}p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})}\\ &=\frac{\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})} - \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha}) \end{align*}$
ここで、Zに関して期待値をとると、フィッシャー情報行列になる。
$\displaystyle \begin{align*} &\int \frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} \log p(Z|\bf{\alpha}) p(Z|\bf{\alpha}) dZ\\ &=\int \frac{\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha})}{p(Z|\bf{\alpha})}p(Z|\bf{\alpha}) dZ - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ\\ &=\int \frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top} p(Z|\bf{\alpha}) dZ - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ \\ &=\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top}\int p(Z|\bf{\alpha}) dZ - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ \\ &=\frac{\partial^2}{\partial \bf{\alpha} \partial \bf{\alpha}^\top}1 - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ\\ &= - \int \frac{\partial}{\partial \bf{\alpha}}\log p(Z|\bf{\alpha})\frac{\partial}{\partial \bf{\alpha}^\top}\log p(Z|\bf{\alpha})p(Z|\bf{\alpha}) dZ \end{align*}$

さて、ここで先ほどラプラス近似した式5の両辺に指数をとる。
$\displaystyle \begin{align*} &p(\bf{x}^N,\bf{z}^N|\bf{\theta})\\ &\approx p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\\ &\times\exp\left(-\frac{N}{2}(\bf{\alpha}-\bar{\bf{\alpha}})^\top \bar{\mathcal{F}}_Z (\bf{\alpha}-\bar{\bf{\alpha}})\right)\\ &\times\exp\left(-\prod_{c=1}^{C}\frac{\sum_{n=1}^{N}z_{nc}}{2}(\bf{\phi}_c-\bar{\bf{\phi}_c})^\top \bar{\mathcal{F}}_c (\bf{\phi}_c-\bar{\bf{\phi}_c})\right) \end{align*}$

これを、式4の右辺の積分の中の1,2項目に代入する。
f:id:hirotaka_hachiya:20170120224720p:plain
$\displaystyle \begin{align*} &p(\bf{x}^N,\bf{z}^N|M)\\ &\approx p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\\ &\times \int \exp\left(-\frac{N}{2}(\bf{\alpha}-\bar{\bf{\alpha}})^\top \bar{\mathcal{F}}_Z (\bf{\alpha}-\bar{\bf{\alpha}})\right)\\ &\times \exp\left(-\prod_{c=1}^{C}\frac{\sum_{n=1}^{N}z_{nc}}{2}(\bf{\phi}_c-\bar{\bf{\phi}_c})^\top \bar{\mathcal{F}}_c (\bf{\phi}_c-\bar{\bf{\phi}_c})\right) p(\bf{\theta}|M) d\bf{\theta} \end{align*}$

ここで、理由不十分の原則よりpriorの $\log p(\bf{\theta}|M)$ は、特定の $\theta$ により大きく変化しないので定数オーダーとする。そして、指数関数の積分を、ガウス分布の正規化項の計算（ガウス積分）と同じ要領で計算すると、次のようになる（論文の式5）。
多変数のガウス積分 | 高校数学の美しい物語

$\displaystyle \begin{align*} &p(\bf{x}^N,\bf{z}^N|M)\\ &\approx p(\bf{x}^N,\bf{z}^N|\bar{\bf{\theta}})\frac{(2\pi)^{D_{\alpha}/2}}{N^{D_{\alpha}/2}|\bar{\mathcal{F}}_Z|^{1/2}} \frac{(2\pi)^{D_{c}/2}}{(\sum_{c=1}^C z_{nc})^{D_{c}/2}|\bar{\mathcal{F}}_C|^{1/2}} \end{align*}$

ここで、 $D_{\alpha}$ は、パラメータ $\bf{\alpha}$ の次元（ $C-1$ ）で、 $D_{c}$ は、パラメータ $\bf{\phi}_c$ の次元である。

Lemma2より、２つのフィッシャー情報行列の行列式（ $|\bar{\mathcal{F}}_Z|^{1/2}$ と $|\bar{\mathcal{F}}_c|^{1/2}$ ）は、それぞれ対数尤度関数 $\log p(Z|\alpha)$ と $\log p_c(X|\phi_c)$ の勾配の分散（共分散行列の行列式）に対応している。そして、仮説A1より、 $p(Z|\alpha)$ と $p_c(X|\phi_c)$ は正則なので、勾配の分散は非ゼロ（フィッシャー情報行列はランク落ちしない）で、対数をとってもCやZの値によって多く変化することはないので定数オーダーとする。そして、式5の両辺に対数をとってから、式2の $\log p(\bf{x}^N,\bf{z}^N|M)$ と置き換えて、相対的に値の小さい項を無視すると、下記のFICを導出できる。
f:id:hirotaka_hachiya:20170120232354p:plain
f:id:hirotaka_hachiya:20170122101725p:plain

FICの $\frac{D_{\bf{\alpha}}}{2}\log N$ と $\frac{D_c}{2}\log \sum_{n=1}^N z_{nc}$ は、モデルの複雑さを表している。