確率的勾配降下法 - 機械学習の「朱鷺の杜Wiki」

[ トップ ] [ 編集 | 凍結 | 差分 | 履歴 | 添付 | リロード ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ]

確率的勾配降下法 (stochastic gradient descent method)†

予測の誤差関数が \(E^N=\sum_i^NE_i\) のように，各データ点についての誤差の総和で表されているとする．例えば，2乗誤差なら \[E_i=(y_i-f(\mathbf{x}_i))^2\] とすれば， \[E^N=\sum_i^NE_i=\sum_i^N(y_i-f(\mathbf{x}_i))^2\] のように，各データ点の誤差の総和となっている．

最急降下法では \(N\) 個のデータ全体についての勾配を考えた \[\theta\leftarrow\theta-\nabla E^N\]

確率的勾配降下法では，総和の勾配を計算する代わりに，\(i\)個目データについての勾配を計算してパラメータを更新する手続きを \(i=1,\ldots,N\) について行う． \[\theta\leftarrow\theta-\eta_i\nabla E_i,\;i=1,\ldots,N\]

全データで反復しても収束が十分でなければ，同じデータ集合を何度か適用する．
収束するには\(\eta\)を適切なスケジュールで減少させる必要がある．
一回の更新で，データ一つしか参照しないためメモリ効率が良く，大規模データの処理で注目されている．
逆にデータが少なく，\(\eta\) のスケジューリングが悪いと良い近似にならない．

-- しましま

異常値を参照してしまうことを避けやすくするために、データ全体をいくつかごとに分割してそれぞれの勾配を計算するミニバッチ学習という手法もある。
近年（2018年7月24日追記日現在から見て）、深層学習の発展を背景として確率的勾配降下法の様々なバリアントが提案されている。

-- こびとさん

関連項目†

リンク集†

Learning with Stochastic Gradient Descent @ Léon Bottou
Stochastic Optimization: ICML 2010 Tutorial @ Nathan Srebro
Wikipedia:Stochastic_gradient_descent

関連文献†

Book/わかりやすいパターン認識 8.3節
Book/Pattern Recognition and Machine Learning 3.1.3節

朱鷺の杜Wiki

参加しよう

Wiki超入門
練習用ページ
数式の表示
こびとさん
編集用ID: ibis
パスワード: 「VC次元」のVのフルスペルで最初だけ大文字

最新の30件
2024-04-13
- python
2024-04-09
- K-NEL
- K-NEL/errata
2023-11-22
- PRML/errata2
2023-11-21
- PRML/errata1
2023-11-01
- しましま/IBIS2023
2023-10-29
- IBIS
2023-06-16
- 人工知能学会全国大会
2023-06-11
- しましま/人工知能学会全国大会2023
2023-03-28
- Book
2022-11-27
- 朱鷺の社
2022-11-24
- しましま/IBIS2022
2022-07-08
- AutoTicketLinkName
2022-06-17
- しましま/人工知能学会全国大会2022
2021-11-13
- しましま/IBIS2021
2021-10-29
- 回帰分析
2021-06-11
- しましま/人工知能学会全国大会2021
2021-03-07
- MenuBar
2021-02-15
- python/numpy
2020-12-22
- 特異値分解
2020-12-18
- complement naive Bayes
2020-11-27
- しましま/IBIS2020
2020-10-17
- Paper/bias-on-the-web
2020-07-16
- F値
2020-06-30
- DataSet
2020-06-24
- バイアス-バリアンス
2020-06-10
- Paper
2020-03-15
- PRML
- PRML/link
2020-01-13
- Wiki超入門

カウンタ

累計: 53534
今日: 2
昨日: 4

Last-modified: 2018-07-24 (火) 11:29:30