ロジスティック回帰は,説明変数が特徴ベクトル \(\mathbf{x}=[x_1,\ldots,x_m]^\top\) で,被説明変数 \(y\) は,値 \(1,\ldots,K\) を取り得るカテゴリ変数でであるような回帰分析.
ロジット変換をリンク関数に用いた一般化線形モデル \[\log\frac{\Pr[y=j|\mathbf{x}]}{\Pr[y=K|\mathbf{x}]}=\theta_{j0}+{\mathbf{\theta}_j}^\top\mathbf{x}\] ただし,\(j=1,\ldots,K-1\).\(\theta_{j0}\) と \(\mathbf{\theta}_j=[\theta_{j1},\ldots,\theta_{jm}]^\top\) はパラメータ.
このときクラスの事後確率分布は次式 \[\Pr[y=j|\mathbf{x}]=\frac{\exp(\theta_{j0}+{\mathbf{\theta}_j}^\top\mathbf{x})}{1+\sum_{k=0}^{K-1}\Bigl(\theta_{k0}+{\mathbf{\theta}_k}^\top\mathbf{x}\Bigr)},\ \ j=1,\ldots,K-1\] \[\Pr[y=K|\mathbf{x}]=\frac{1}{1+\sum_{k=0}^{K-1}\Bigl(\theta_{k0}+{\mathbf{\theta}_k}^\top\mathbf{x}\Bigr)}\] すなわち,\(K=2\)なら,右辺は,シグモイド関数,\(K\gt2\)ならソフトマックス関数となる.
この事後確率が多項分布に従うことを利用し,学習事例から最尤推定でパラメータ \(\theta_{10},\theta_{20},\ldots,\theta_{K-1,0},\mathbf{\theta_{1}},\mathbf{\theta_{2}},\ldots,\mathbf{\theta_{K-1}}\) をNewton法で解くと,IRLS法として解釈できる.
-- しましま