通常の非階層的なベイズモデルではデータが与えられたときのパラメータの事後分布はベイズの定理により次式で与えられる \Pr[\theta|D]\propto\Pr[D|\theta]\Pr[\theta] すなわち,\Pr[\theta] に従ってパラメータ \theta が発生し,そのパラメータの下でデータ D が \Pr[D|\theta] に従って発生する.
それを多段階にしたのが階層ベイズモデル. 超パラメータ \eta が \Pr[\eta] に従って発生,その超パラメータの下でパラメータ \theta が \Pr[\theta|\eta] に従って発生,さらに,そのパラメータの下でデータ D が \Pr[D|\theta] に従って発生する.このモデルの下で,パラメータと超パラメータの事後分布は,やはりベイズの定理を用いて次式で与えられる. \Pr[\theta,\eta|x]\propto\Pr[D|\theta]\Pr[\theta|\eta]\Pr[\eta]
データが幾つかのグループに分かれている場合に,グループに共通する要因を超パラメータの事前分布でモデル化するとよい結果が得られる場合がある.例えば,今日のデータのモデルと昨日のデータのモデルを作りたいとする.これらは確かに違う振る舞いもするが,共通の要因もある.そこで共通要因を \Pr[\theta|\eta] で表し,今日と昨日のデータを別個に \Pr[D_\mathrm{today}|\theta] と \Pr[D_\mathrm{yesterday}|\theta] のようにモデル化したりする.
超パラメータの先をさらに階層化して3段階以上にすることも考えられる.
-- しましま