Bellman方程式 (Bellmann equation)

マルコフ決定過程において最適政策が満たす再帰方程式. この方程式に基づいて,動的計画法を効率的に解くことができる. 隠れマルコフモデルにおける ViterbiアルゴリズムBaum-Welchアルゴリズムグラフィカルモデルにおけるビリーフプロパゲーションアルゴリズムも基本的に 同じ原理に基づいた再帰方程式によって構成されており,マルコフ的な環境下での 効率アルゴリズムの基本原理と考えることが出来る.

--あかほ

強化学習だと,価値関数 \(V(s)\),政策 \(\pi,a\),時刻 \(t\) での行動 \(a_t\),時刻 \(t\) と \(t+1\) での状態 \(s_t\) と \(s_{t+1}\).割引率 \(\gamma\) を用いて \[V^{\pi}(s)=\sum_a\pi(s,a)\sum_{s'}\Pr[s_{t+1}=s'|s_t=s,a_t=a]\Bigl[\mathrm{E}[r_{t+1}|s_t=s,a_t=a,s_{t+1}=s']+\gamma V^{\pi}(s')\Bigr]\] ただし,最初の和は状態 \(s\)で可能な行動全てについて,二つ目の和は状態 \(s\) から遷移可能な状態全てについてとる.

-- しましま

関連項目

リンク集

関連文献

  • R.S.Sutton, A.G.Barto (著), 三上, 皆川 (訳) 強化学習, 森北出版 (2000),3.7節
    Amazon.co.jpへのリンク:

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:10:45 (2490d)