* データスカッシング (data squashing) [#a9a94f0a]
//ここには %項目の説明を書いてください.よろしければ署名しておいてください.
\(1/n\) のデータをランダムサンプリングして学習すると,推定したパラメータの偏差はn倍になってしまう.この偏差を元と同じオーダーに抑える.
基本文献は''データスカッシング (data squashing)''の端緒となった論文.次のようなサンプリング法を提案:
+ データを領域ごとにbinに分割
+ 適当な次数のモーメントを,各bin内で計算
+ 各領域内のモーメントを用い,推定に使う尤度関数が一致するように,少数のデータと重みを導く.
こうして得られた重みとサンプルを使って学習をすることで,少数のデータで高精度の推定が可能になる.
このようにサンプリング手法の工夫による方法をデータスカッシングと著者は呼んだが,大規模クラスタリング手法の[[BIRCH]]のようにデータを ''粗視化 (coarse graining)'' するような方法もデータスカッシングと呼ばれることが多いと思う.
> -- しましま
**関連項目 [#x7207e4e]
//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[data squashing]]
#br
-[[データマイニング]]
#br
-[[検索:データスカッシング]]
**リンク集 [#e9f38da3]
//関連するWWW資源があればリンクしてください.
**関連文献 [#be928587]
//この%項目%に関連する書籍や論文を紹介してください.
-基本文献~
William DuMouchel, Chris Volinsky, Theodore Johnson, Corinna Cortes, and Daryl Pregibon "Squashing Flat Files Flatter" 5th KDD, pp.6-15 (1999)~
[[GoogleScholarAll:Squashing Flat Files Flatter]]
- 鈴木 英之進 "データスカッシング ---逆転の発想によるスケールダウン戦略---" 情報処理, vol.46, no.1 (2005)