強化学習 (reinforcement learning)

知識をもった教師からサンプルが与えられるのではなく,環境から与えられる報酬を元に,環境のモデルと報酬を最大化する政策を学習する枠組み.

-- しましま

強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという2つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化(サンプリング)は方策オンと方策オフの2つ分類される。

応用上の問題点としては次のようなものが挙げられる。

-- こびとさん

関連項目

リンク集

Freeware

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-06-06 (月) 09:21:22