* Bellman方程式 (Bellmann equation) [#m3567f6a]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

マルコフ決定過程において最適政策が満たす再帰方程式.
この方程式に基づいて,動的計画法を効率的に解くことができる.
隠れマルコフモデルにおける Viterbiアルゴリズムや Baum-Welchアルゴリズム,
グラフィカルモデルにおけるビリーフプロパゲーションアルゴリズムも基本的に
同じ原理に基づいた再帰方程式によって構成されており,マルコフ的な環境下での
効率アルゴリズムの基本原理と考えることが出来る.
 
> --あかほ

強化学習だと,価値関数 \(V(s)\),政策 \(\pi,a\),時刻 \(t\) での行動 \(a_t\),時刻 \(t\) と \(t+1\) での状態 \(s_t\) と \(s_{t+1}\).割引率 \(\gamma\) を用いて
\[V^{\pi}(s)=\sum_a\pi(s,a)\sum_{s'}\Pr[s_{t+1}=s'|s_t=s,a_t=a]\Bigl[\mathrm{E}[r_{t+1}|s_t=s,a_t=a,s_{t+1}=s']+\gamma V^{\pi}(s')\Bigr]\]
ただし,最初の和は状態 \(s\)で可能な行動全てについて,二つ目の和は状態 \(s\) から遷移可能な状態全てについてとる.

> -- しましま

**関連項目 [#s77d5a51]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.

-[[Bellmann equation]]
#br
-[[Markov決定過程]]
-[[凸二次計画]]
-[[動的計画法]]
-[[数理計画]]
-[[強化学習]]
-[[Viterbiアルゴリズム]]
-[[Baum-Welchアルゴリズム]]
-[[確率伝播]]
#br
-[[検索:Bellman方程式 ベルマン方程式]]

**リンク集 [#q88bc77c]

-[[Wikipedia:Bellman_equation]]

**関連文献 [#pe0c8046]

//この%項目%に関連する書籍や論文を紹介してください.

-R.S.Sutton, A.G.Barto (著), 三上, 皆川 (訳) 強化学習, 森北出版 (2000),3.7節~
Amazon.co.jpへのリンク:&amazon(4627826613);

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS