強化学習 - 機械学習の「朱鷺の杜Wiki」

[ トップ ] [ 編集 | 凍結 | 差分 | 履歴 | 添付 | リロード ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ]

強化学習 (reinforcement learning)†

知識をもった教師からサンプルが与えられるのではなく，環境から与えられる報酬を元に，環境のモデルと報酬を最大化する政策を学習する枠組み．

-- しましま

強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという２つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化（サンプリング）は方策オンと方策オフの2つ分類される。

応用上の問題点としては次のようなものが挙げられる。

状態s(あるいは行動a)の空間が次元とともに指数的に大きくなる。
観測している状態がMarkov決定過程で近似できない。
- 例1：ボールを的にぶつける問題において、サッカーボールとバスケットボールがランダムに与えられるが、重さが観測できない場合（部分観測Markov決定過程）。
- 例2：サッカーをするロボットを学習させる問題にて、他のプレイヤー全員の行動を考慮すると、状態空間が非常に大きくなる。(他プレイヤーと相関のある状態だけ抜き出せないだろうか？)

-- こびとさん

関連項目†

リンク集†

強化学習とは？ @ 木村元
強化学習 @ 村田昇
Temporal Difference Learning and TD-Gammon @ Gerald Tesauro 強化学習の著名な応用であるTDギャモンのごくごく簡単な説明
RL competition：強化学習アルゴリズムの競技会
強化学習 @ 人工知能学会私のブックマーク
Scholarpedia:Reinforcement_learning
Wikipedia:Reinforcement_learning
Wikipedia.jp:強化学習

Freeware †

mloss:reinforcement-learning
Connectionist Q-learning - Free Java Framework
Maja Machine Learning Framework
Reinforcement Learning Toolkit：python, C++
RL-Glue：強化学習のためのベンチマークとプロトコル
Verve：強化学習エージェント実装用ライブラリ

関連文献†

Richard S. Sutton, Andrew G. Barto "Reinforcement Learning: An Introduction" MIT Press (1998)：強化学習の定番教科書．HTML版が公開されている．
GoogleScholarAll:Reinforcement Learning: An Introduction
上記の教科書の邦訳版
R.S.Sutton and A.G.Barto, "強化学習", 森北出版 (2000)（三上貞芳，皆川雅章訳）

朱鷺の杜Wiki

参加しよう

Wiki超入門
練習用ページ
数式の表示
こびとさん
編集用ID: ibis
パスワード: 「VC次元」のVのフルスペルで最初だけ大文字

最新の30件
2024-04-13
- python
2024-04-09
- K-NEL
- K-NEL/errata
2023-11-22
- PRML/errata2
2023-11-21
- PRML/errata1
2023-11-01
- しましま/IBIS2023
2023-10-29
- IBIS
2023-06-16
- 人工知能学会全国大会
2023-06-11
- しましま/人工知能学会全国大会2023
2023-03-28
- Book
2022-11-27
- 朱鷺の社
2022-11-24
- しましま/IBIS2022
2022-07-08
- AutoTicketLinkName
2022-06-17
- しましま/人工知能学会全国大会2022
2021-11-13
- しましま/IBIS2021
2021-10-29
- 回帰分析
2021-06-11
- しましま/人工知能学会全国大会2021
2021-03-07
- MenuBar
2021-02-15
- python/numpy
2020-12-22
- 特異値分解
2020-12-18
- complement naive Bayes
2020-11-27
- しましま/IBIS2020
2020-10-17
- Paper/bias-on-the-web
2020-07-16
- F値
2020-06-30
- DataSet
2020-06-24
- バイアス-バリアンス
2020-06-10
- Paper
2020-03-15
- PRML
- PRML/link
2020-01-13
- Wiki超入門

カウンタ

累計: 33639
今日: 4
昨日: 1

Last-modified: 2011-06-06 (月) 09:21:22