下記のブログを参考にして、
d.hatena.ne.jp
NECの異種混合学習技術に関連する論文を読んでみることにした。
今回は、AISTATS2012で発表された藤巻さんと森永さんの論文「Factorized Asymptotic Bayesian Inference for Mixture Modeling」の前半FIC(Factorized Information Criterion)を読んだので、メモっておく。
http://jmlr.org/proceedings/papers/v22/fujimaki12/fujimaki12.pdf
本論文では、最初にモデルMのもとでの観測データの周辺尤度を、変分ベイズ(Jensen不等式、潜在変数の分解)、ラプラス近似、ガウス積分などの数学的テクニックを駆使して近似する方法FIBを提案している。そして、FIBをさらに近似して、(近似)周辺尤度の最大化を反復的に解く方法FAB(Factorized Asymptotic Bayesian)を提案している。
【1. Introduction】
従来のBIC(Bayes information criteon)とVB(Variational Bayes)が混合モデルでは使えないことと、FICとFABを定性的な利点を説明している。
具体的には、
- BIC:BICでは周辺尤度を、ML(Maximum Likelihood)推定の周辺でラプラス近似している。ラプラス近似では周辺尤度のヘッセ行列(特にまわり)が正則(regular)、つまりランク落ちしないと仮定している。混合モデルではヘッセ行列が縮退しやすいのでBICの精度が悪くなる問題があるが、論文では、そもそもML推定の精度が悪いことを指摘している。理由としては、混合モデルの周辺尤度は、正則(つまり、ML推定の漸近正規性(asymptotic normality))と、識別可能性(identifiable)を持たないからとのこと。漸近正規性とは、推定量が一致性を持ち、漸近的に正規分布に従う()という性質である。また、識別可能性は、パラメータと尤度が1対1に対応しているという性質である。詳しくは以下参照。
http://web.econ.keio.ac.jp/staff/bessho/lecture/09/091014ML.pdf
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/ds2009dec.pdf
- VB:VBでは、周辺尤度の下限(Jenssenの不等式)を最大化しているので、漸近正規性や識別可能性を保持しているとのこと。しかしながら、VBでは潜在変数とモデルパラメータとを分割しているため、下限が緩くなっている(周辺尤度との等式が成り立たない)ため、精度が良くない。
FICとFABの概要と利点の説明は省略。
【2. Preliminaries】
論文では、以下のように混合モデル、各種変数を定義している。
混合モデル:
:次元の確率変数
:要素モデル数
:混合比
:モデルパラメータ
仮定A1:各モデル:正則だが、混合モデルは特異(例えば、ガウス混合モデルなど)
仮定A2:
:混合モデルの簡易表現(は要素モデルの簡易表現)
:観測データ
:各観測データ点に対する潜在変数、
:1 of C表現の潜在変数。はの要素モデルから生成される。混合モデルは、潜在変数を用いて以下のように表すことができる。
ここで、はZの周辺確率、はZのもとでのXの条件付き確率である。
【3. Factorized Information Criterion for Mixture Models】
これからFICを導出する。まず、潜在変数の周辺確率に対して、Jensenの不等式を用いて周辺尤度の下限を考える。
式2:
Lemma1:下限は、任意のとに対して成立し、等式は、のときに成立する。これは式2の左辺と右辺のの中身が等しくなるように、を求めれば得られる。実際に、式2のに代入してみると、以下のように等式が成り立つ。
これから、下限(式2)の分子を、ラプラス近似とガウス積分を用いて近似していく。まず、下記のようにラプラス近似をする。
は、のヘッセ行列(2階微分)である。
Aを上記のラプラス近似の式に代入すると、下記のように分解することができる。
式5:
ここで、は、のML推定量である。また、とは、下記のようにフィッシャー情報行列のサンプル近似である。
大数の法則より、下記のLemma2が成り立つ。式8はがコンポーネントcが選択される回数なので、コンポーネントcのサンプルで平均をとっていることに対応する。
ちなみに、この時点では、2階微分なのでヘッセ行列そのままに見えるが、下記のようにフィッシャー情報行列に変換することができる。
ここで、Zに関して期待値をとると、フィッシャー情報行列になる。
さて、ここで先ほどラプラス近似した式5の両辺に指数をとる。
これを、式4の右辺の積分の中の1,2項目に代入する。
ここで、理由不十分の原則よりpriorのは、特定のにより大きく変化しないので定数オーダーとする。そして、指数関数の積分を、ガウス分布の正規化項の計算(ガウス積分)と同じ要領で計算すると、次のようになる(論文の式5)。
多変数のガウス積分 | 高校数学の美しい物語
ここで、は、パラメータの次元()で、は、パラメータの次元である。
Lemma2より、2つのフィッシャー情報行列の行列式(と)は、それぞれ対数尤度関数との勾配の分散(共分散行列の行列式)に対応している。そして、仮説A1より、とは正則なので、勾配の分散は非ゼロ(フィッシャー情報行列はランク落ちしない)で、対数をとってもCやZの値によって多く変化することはないので定数オーダーとする。そして、式5の両辺に対数をとってから、式2のと置き換えて、相対的に値の小さい項を無視すると、下記のFICを導出できる。
FICのとは、モデルの複雑さを表している。