予測の誤差関数が \(E^N=\sum_i^NE_i\) のように,各データ点についての誤差の総和で表されているとする.例えば,2乗誤差なら \[E_i=(y_i-f(\mathbf{x}_i))^2\] とすれば, \[E^N=\sum_i^NE_i=\sum_i^N(y_i-f(\mathbf{x}_i))^2\] のように,各データ点の誤差の総和となっている.
最急降下法では \(N\) 個のデータ全体についての勾配を考えた \[\theta\leftarrow\theta-\nabla E^N\]
確率的勾配降下法では,総和の勾配を計算する代わりに,\(i\)個目データについての勾配を計算してパラメータを更新する手続きを \(i=1,\ldots,N\) について行う. \[\theta\leftarrow\theta-\eta_i\nabla E_i,\;i=1,\ldots,N\]
-- しましま
-- こびとさん