*強化学習 (reinforcement learning) [#b70f34db]

知識をもった教師からサンプルが与えられるのではなく,環境から与えられる報酬を元に,環境のモデルと報酬を最大化する政策を学習する枠組み.

> -- しましま

強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという2つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化(サンプリング)は方策オンと方策オフの2つ分類される。

応用上の問題点としては次のようなものが挙げられる。
-状態s(あるいは行動a)の空間が次元とともに指数的に大きくなる。
-観測している状態がMarkov決定過程で近似できない。
--例1:ボールを的にぶつける問題において、サッカーボールとバスケットボールがランダムに与えられるが、重さが観測できない場合([[部分観測Markov決定過程]])。
--例2:サッカーをするロボットを学習させる問題にて、他のプレイヤー全員の行動を考慮すると、状態空間が非常に大きくなる。(他プレイヤーと相関のある状態だけ抜き出せないだろうか?)

> -- こびとさん

**関連項目 [#v2be8511]

-[[reinforcement learning]]
#br
-[[機械学習]]
-[[Markov決定過程]]
-[[部分観測Markov決定過程]]
-[[動的計画法]]
-[[能動学習]]
#br
-[[検索:強化学習 reinforcement]]

** リンク集 [#rdd07cc7]

-[[強化学習とは?>http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html]] @ 木村 元
-[[強化学習>http://www.murata.eb.waseda.ac.jp/ryotaro.nishino/openhouse/reinforce.php]] @ 村田 昇
-[[Temporal Difference Learning and TD-Gammon>http://www.research.ibm.com/massive/tdl.html]] @ Gerald Tesauro
強化学習の著名な応用であるTDギャモンのごくごく簡単な説明
-[[RL competition>http://rl-competition.org/]]:強化学習アルゴリズムの競技会
-[[強化学習>http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/26-3.html]] @ 人工知能学会 私のブックマーク
#br
-[[Scholarpedia:Reinforcement_learning]]
-[[Wikipedia:Reinforcement_learning]]
-[[Wikipedia.jp:強化学習]]

*** Freeware [#u8df71a3]

-[[mloss:reinforcement-learning]]
-[[Connectionist Q-learning - Free Java Framework>http://elsy.gdan.pl/]]
-[[Maja Machine Learning Framework>http://mmlf.sourceforge.net/]]
-[[Reinforcement Learning Toolkit>http://rlai.cs.ualberta.ca/RLAI/RLtoolkit/RLtoolkit1.0.html]]:[[python]], C++
-[[RL-Glue>http://glue.rl- community.org/]]:強化学習のためのベンチマークとプロトコル
-[[Verve>http://verve-agents.sourceforge.net/]]:強化学習エージェント実装用ライブラリ

** 関連文献 [#o045992a]

- [[Richard S. Sutton, Andrew G. Barto "Reinforcement Learning: An Introduction" MIT Press (1998)>http://www.cs.ualberta.ca/~sutton/book/the-book.html]]:強化学習の定番教科書.HTML版が公開されている.~
[[GoogleScholarAll:Reinforcement Learning: An Introduction]]
- 上記の教科書の邦訳版~
R.S.Sutton and A.G.Barto, "強化学習", 森北出版 (2000)(三上 貞芳,皆川 雅章 訳)

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS