- 情報論的学習理論では情報量は基本的な概念であるが,情報量と名のつく量はいろいろあってその関係も複雑なので整理しておく必要がある.
- 単に情報量と言えば確率変数のエントロピーのことを指す. 物理的にはエントロピーは乱雑さの度合いをあらわしているが,情報としてみれば情報のあいまいさの度合いをあらわしている.
エントロピーにもいろいろあるが通常Bolzmann-Shannonエントロピー \(H(x)=-\int p(x)\log p(x)dx\) を指す.
- エントロピーは平均符号長とほぼ同義である. なぜならエントロピーにいくらでも近い平均符号長をもつ符号の存在が知られているからである.
- 確率推論など情報処理の問題では,観測される変数と推論したい変数など,二つの変数の間の関係に興味がある. そのような場合には相互情報量が重要な量となる. これは,一方が観測されたときに他方に関してもつ情報量をあらわす(さらに相互情報量は3個以上の確率変数の間でも定義されている).
- 一方,統計的推定では,推定した分布が真の分布に対してどれだけの情報量を持っているかに関心がある. 不偏推定量が真の分布の周りに漸近的に正規分布をしていると仮定すると(特異でない場合),その分散の下限はFisher情報行列の逆行列をサンプル数で割ったものになる(Cramer-Raoの不等式). 従って,Fisher情報行列(の固有値)が大きな値を取れば分散は小さくなり,それだけ真の分布に対する情報を与えていることになる. ちなみにFisher情報行列はスカラー量ではないが,多変量正規分布のエントロピーは -log(分散の行列式)(の定数倍プラス定数)だから,エントロピーとして意味があるのはFisher情報行列の行列式の対数のマイナスである.
- 情報幾何でFisher情報行列を計量にしているのも直感的にはそれが一つの理由である. 計量は分布の長さを測るものさしだから,この場合の情報量は分布と分布との距離をはかるものさしになっている.
- 局所的にはFisher情報行列で分布と分布の距離を測ればよいが,遠く離れた場合には(情報幾何の観点からは)ダイバージェンスと呼ばれる尺度で測るのが自然である. Kullback-Leiblerダイバージェンスなどが情報量と呼ばれるのはこのゆえんである(また別名相対エントロピーとも呼ばれている). α分布族の各αに対してαダイバージェンスが定義されるが,α=1,-1のときがKullback-Leiblerダイバージェンス,α=0のときがHellinger距離(角谷情報量)となっている. このような分布間距離を表す情報量は,加法性などの公理を課すと,
\[\int p(x) f(p(x)/q(x)) dx\]
の形に限定されることが知られている(\(f(r)=\log r\) ならKullback-Leiblerダイバージェンス,\(f(r)=1-1/\sqrt{r}\)ならHellinger距離).
- αダイバージェンスは微小なところではFisher情報行列を計量として測った距離に一致する.
- 二つの確率変数の分布 p(x, y) があったとき,それぞれの周辺分布 p(x), p(y) に対し, \(KL(p(x,y)||p(x)p(y))\) が x と y の間の相互情報量になる.
--あかほ
関連項目 †
リンク集 †
関連文献 †
|