* データスカッシング (data squashing) [#a9a94f0a]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

\(1/n\) のデータをランダムサンプリングして学習すると,推定したパラメータの偏差はn倍になってしまう.この偏差を元と同じオーダーに抑える.

基本文献は''データスカッシング (data squashing)''の端緒となった論文.次のようなサンプリング法を提案:
+ データを領域ごとにbinに分割
+ 適当な次数のモーメントを,各bin内で計算
+ 各領域内のモーメントを用い,推定に使う尤度関数が一致するように,少数のデータと重みを導く.

こうして得られた重みとサンプルを使って学習をすることで,少数のデータで高精度の推定が可能になる.

このようにサンプリング手法の工夫による方法をデータスカッシングと著者は呼んだが,大規模クラスタリング手法の[[BIRCH]]のようにデータを ''粗視化 (coarse graining)'' するような方法もデータスカッシングと呼ばれることが多いと思う.

> -- しましま

**関連項目 [#x7207e4e]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[data squashing]]
#br
-[[データマイニング]]
#br
-[[検索:データスカッシング]]

**リンク集 [#e9f38da3]

//関連するWWW資源があればリンクしてください.

**関連文献 [#be928587]

//この%項目%に関連する書籍や論文を紹介してください.

-基本文献~
William DuMouchel, Chris Volinsky, Theodore Johnson, Corinna Cortes, and Daryl Pregibon "Squashing Flat Files Flatter" 5th KDD, pp.6-15 (1999)~
[[GoogleScholarAll:Squashing Flat Files Flatter]]
- 鈴木 英之進 "データスカッシング ---逆転の発想によるスケールダウン戦略---" 情報処理, vol.46, no.1 (2005)

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS