Bellman方程式 - 機械学習の「朱鷺の杜Wiki」

[ トップ ] [ 編集 | 凍結 | 差分 | 履歴 | 添付 | リロード ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ]

Bellman方程式 (Bellmann equation)†

マルコフ決定過程において最適政策が満たす再帰方程式．この方程式に基づいて，動的計画法を効率的に解くことができる．隠れマルコフモデルにおける Viterbiアルゴリズムや Baum-Welchアルゴリズム，グラフィカルモデルにおけるビリーフプロパゲーションアルゴリズムも基本的に同じ原理に基づいた再帰方程式によって構成されており，マルコフ的な環境下での効率アルゴリズムの基本原理と考えることが出来る．

--あかほ

強化学習だと，価値関数 \(V(s)\)，政策 \(\pi,a\)，時刻 \(t\) での行動 \(a_t\)，時刻 \(t\) と \(t+1\) での状態 \(s_t\) と \(s_{t+1}\)．割引率 \(\gamma\) を用いて \[V^{\pi}(s)=\sum_a\pi(s,a)\sum_{s'}\Pr[s_{t+1}=s'|s_t=s,a_t=a]\Bigl[\mathrm{E}[r_{t+1}|s_t=s,a_t=a,s_{t+1}=s']+\gamma V^{\pi}(s')\Bigr]\] ただし，最初の和は状態 \(s\)で可能な行動全てについて，二つ目の和は状態 \(s\) から遷移可能な状態全てについてとる．

-- しましま

関連項目†

リンク集†

Wikipedia:Bellman_equation

関連文献†

R.S.Sutton, A.G.Barto (著), 三上, 皆川 (訳) 強化学習, 森北出版 (2000)，3.7節
Amazon.co.jpへのリンク：&amazon(4627826613);

朱鷺の杜Wiki

参加しよう

Wiki超入門
練習用ページ
数式の表示
こびとさん
編集用ID: ibis
パスワード: 「VC次元」のVのフルスペルで最初だけ大文字

最新の30件
2024-04-13
- python
2024-04-09
- K-NEL
- K-NEL/errata
2023-11-22
- PRML/errata2
2023-11-21
- PRML/errata1
2023-11-01
- しましま/IBIS2023
2023-10-29
- IBIS
2023-06-16
- 人工知能学会全国大会
2023-06-11
- しましま/人工知能学会全国大会2023
2023-03-28
- Book
2022-11-27
- 朱鷺の社
2022-11-24
- しましま/IBIS2022
2022-07-08
- AutoTicketLinkName
2022-06-17
- しましま/人工知能学会全国大会2022
2021-11-13
- しましま/IBIS2021
2021-10-29
- 回帰分析
2021-06-11
- しましま/人工知能学会全国大会2021
2021-03-07
- MenuBar
2021-02-15
- python/numpy
2020-12-22
- 特異値分解
2020-12-18
- complement naive Bayes
2020-11-27
- しましま/IBIS2020
2020-10-17
- Paper/bias-on-the-web
2020-07-16
- F値
2020-06-30
- DataSet
2020-06-24
- バイアス-バリアンス
2020-06-10
- Paper
2020-03-15
- PRML
- PRML/link
2020-01-13
- Wiki超入門

カウンタ

累計: 19347
今日: 2
昨日: 1

Last-modified: 2010-02-11 (木) 16:10:45