マルコフ決定過程において最適政策が満たす再帰方程式. この方程式に基づいて,動的計画法を効率的に解くことができる. 隠れマルコフモデルにおける Viterbiアルゴリズムや Baum-Welchアルゴリズム, グラフィカルモデルにおけるビリーフプロパゲーションアルゴリズムも基本的に 同じ原理に基づいた再帰方程式によって構成されており,マルコフ的な環境下での 効率アルゴリズムの基本原理と考えることが出来る.
--あかほ
強化学習だと,価値関数 \(V(s)\),政策 \(\pi,a\),時刻 \(t\) での行動 \(a_t\),時刻 \(t\) と \(t+1\) での状態 \(s_t\) と \(s_{t+1}\).割引率 \(\gamma\) を用いて \[V^{\pi}(s)=\sum_a\pi(s,a)\sum_{s'}\Pr[s_{t+1}=s'|s_t=s,a_t=a]\Bigl[\mathrm{E}[r_{t+1}|s_t=s,a_t=a,s_{t+1}=s']+\gamma V^{\pi}(s')\Bigr]\] ただし,最初の和は状態 \(s\)で可能な行動全てについて,二つ目の和は状態 \(s\) から遷移可能な状態全てについてとる.
-- しましま