これらのキーワードがハイライトされています:逐次学習 逐次推定 オンライン学習

Robbins-Monroアルゴリズム (Robbins-Monro algorithm)

確率変数のパラメータ\(\theta\)と,これに依存した確率変数\(z\)があるとする.そして,回帰関数\(f(\theta)=\mathrm{E}[z|\theta]\)を定義. このとき,\(f(\theta)=0\)の根\(\theta^\ast\)を求める.

条件付分散が\(\mathrm{E}[(z-f)^2|\theta]\lt\infty\)のように有限で,\(\theta\gt\theta^\ast\)では\(f(\theta)\gt0\), \(\theta\lt\theta^\ast\)では\(f(\theta)\lt0\) であるとする.

\(n-1\)個のデータを観測したあとの推定値を\(\theta^{(n-1)}\),このパラメータの下での\(n\)個目の\(z\)の観測値は\(z(\theta^{(n-1)})\)とする.このとき,\(n\)回目のパラメータを次式で更新する. \[\theta^{(n)}=\theta^{(n-1)}-a_{n-1}z(\theta^{(n-1)})\]

係数\(\{a_n\}\)が次の条件を満たすなら \[\lim_{n\rightarrow\infty}a_N=0,\;\sum_{n=1}^\infty a_n=\infty,\;\sum_{n=1}^\infty a_n^2\lt\infty\] \(\theta^{(n)}\)は確率1で目標の根に収束する.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:11:23