ベイズモデルでは事後確率は次式 \[\Pr[\theta|x]\propto\Pr[x|\theta]\Pr[\theta]\] 本来は,事前確率 \(\Pr[\theta]\) はデータとは関係なく「事前に」与えられる.
それに対して,データから事前確率を「経験的に」与えるのが経験ベイズ. 事前確率はパラメータ \(\eta\) によって表される \(\Pr[\theta;\eta]\).ここで,階層ベイズとは違い超パラメータ \(\eta\) は確率変数ではない.そして,この超パラメータは,パラメータを周辺化した次の周辺尤度を最大にするように選ぶ \[\hat{\eta}=\arg\max_\eta \Pr[x;\eta]=\arg\max_\eta \int\Pr[x|\theta]\Pr[\theta;\eta]d\theta\] 本来の階層ベイズでは \(\eta\) についても事前分布を決めて適宜周辺化するが, 経験ベイズでは,このように事前分布のデータから経験的に決めて近似的な計算をする. 階層ベイズにおいて,超事前分布を周辺尤度最大化超パラメータの上のデルタ分布にした特別な場合と考えることができる.
エビデンス \(\Pr[x]\) を近似的に求めるのでエビデンス近似(evidence approximation),パラメータではなく超パラメータを最大化するので第2種の最尤推定(type 2 maximum likelihood)とも呼ばれる.
-- しましま,こびと