データスカッシング (data squashing)

\(1/n\) のデータをランダムサンプリングして学習すると,推定したパラメータの偏差はn倍になってしまう.この偏差を元と同じオーダーに抑える.

基本文献はデータスカッシング (data squashing)の端緒となった論文.次のようなサンプリング法を提案:

  1. データを領域ごとにbinに分割
  2. 適当な次数のモーメントを,各bin内で計算
  3. 各領域内のモーメントを用い,推定に使う尤度関数が一致するように,少数のデータと重みを導く.

こうして得られた重みとサンプルを使って学習をすることで,少数のデータで高精度の推定が可能になる.

このようにサンプリング手法の工夫による方法をデータスカッシングと著者は呼んだが,大規模クラスタリング手法のBIRCHのようにデータを 粗視化 (coarse graining) するような方法もデータスカッシングと呼ばれることが多いと思う.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:22