強化学習 (reinforcement learning)

知識をもった教師からサンプルが与えられるのではなく,環境から与えられる報酬を元に,環境のモデルと報酬を最大化する政策を学習する枠組み.

-- しましま

強化学習は、ベルマン方程式 \(Q(s,a)=\int Q(s'|a)p(a|\theta)+r_{ss'} p(s'|s,a)da\)のもとで期待報酬和\(\int Q(s,a)p(a|\theta)da\)を最大化する政策θを探す問題として、定式化される。このように定式化された強化学習では、ベルマン方程式を解くことと、最適な政策を探すという2つの操作を同時に行う。ベルマン方程式の解き方によって、モンテカルロ法、TD(λ)、動的計画法と呼び分ける。一方、政策の最適化(サンプリング)は方策オンと方策オフの2つ分類される。

応用上の問題点としては次のようなものが挙げられる。

  • 状態s(あるいは行動a)の空間が次元とともに指数的に大きくなる。
  • 観測している状態がMarkov決定過程で近似できない。
    • 例1:ボールを的にぶつける問題において、サッカーボールとバスケットボールがランダムに与えられるが、重さが観測できない場合(部分観測Markov決定過程)。
    • 例2:サッカーをするロボットを学習させる問題にて、他のプレイヤー全員の行動を考慮すると、状態空間が非常に大きくなる。(他プレイヤーと相関のある状態だけ抜き出せないだろうか?)

-- こびとさん

関連項目

リンク集

Freeware

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-06-06 (月) 09:21:22 (2014d)