k-means法 - 機械学習の「朱鷺の杜Wiki」

Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

[ トップ ] [ 編集 | 凍結 | 差分 | 履歴 | 添付 | リロード ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ]

これらのキーワードがハイライトされています：正規分布 Gauss分布 ガウス分布

k-means法 (k-means method)†

次の目的関数を最小化する分割最適化クラスタリングの代表的手法．

$\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2$ ただし，データ集合

$X$ は，ベクトルで表現されたデータ

$\mathbf{x}$ の集合．クラスタ

$X_i$ は，データ集合の網羅的で互いに素な部分集合．

$\bar{\mathbf{x}}_i$ は

$X_i$ 中の重心(セントロイドともいう)．

$\|\cdot\|$ はユークリッドノルム．

アルゴリズム †

入力はデータ集合 $X$ とクラスタ数 $k$ ，および最大反復数 maxIter．

初期化：データ集合をランダムに $k$ 個のクラスタ分割し，初期クラスタを得る
各クラスタについてセントロイド $\mathbf{x}_i=\frac{1}{|X_i|}\sum_{\mathbf{x}\in X_i} \mathbf{x}$ を計算
全てのデータ $\mathbf{x}\in X$ を，各クラスタのセントロイド $\mathbf{x}_i$ との距離 $\|\mathbf{x}-\mathbf{x}_i\|$ を最小にするクラスタ $X_i$ へ割り当てる
前の反復とクラスタに変化がないか反復数が maxIter を超えたら終了しクラスタ $\{X_i\}$ を出力．そうでなければ，ステップ2に戻る．

目的関数 $\mathrm{Err}(\{X_i\})$ の値は単調非増加になり，局所最適解が必ず見つかる．通常は，異なる初期クラスタで上記アルゴリズムを何回か適用し，目的関数を最小化する分割を選んで，より大域最適に近い解を探す．計算量はデータ数を $N$ として，反復回数を定数とみなせば $O(Nk)$ ．

正規分布の混合分布との関連†

全てのクラスタについて共通の標準偏差 σ と単位行列 I で表される共分散行列 $\sigma^2 I$ と，各クラスタごとに異なる中心点 $\bar{\mathbf{x}}_i$ の多変量正規分布 $f(\mathbf{x};\bar{\mathbf{x}}_i,\sigma^2 I)$ を考える．これらの混合分布は次式：

$f(\mathbf{x})=\sum_i^k \alpha_i f(\mathbf{x};\bar{\mathbf{x}}_i,\sigma^2 I)$ この混合分布のデータ集合

$X$ に対する最尤推定をEMアルゴリズムで求める．この過程はk-means法と関連がある．相違点は，データのクラスタへの割り当てを [0,1] の範囲の実数が混合分布+EMアルゴリズムでは許されるが，k-means法では，一つのデータはいずれか一つのクラスタの要素にしかならない点が異なる．

このことから，k-means法では，クラスタが全て超球状になり，また，そのクラスタの半径はほぼ等しくなることが暗黙的に仮定されている．よってこの仮定に合わないクラスタは抽出されないことに注意．

R や Weka など，クラスタリングができる統計・機械学習統合ソフトには入っている．

-- しましま

関連項目†

リンク集†

クラスタリングとは (クラスター分析とは) @ 神嶌敏弘：基本的な手法の説明とクラスタリングを用いた分析での注意点
A Tutorial on Clustering Algorithms ：Javaアプレットのデモがある
Wikipedia:K-means_algorithm
MathWorld:K-MeansClusteringAlgorithm
Wikipedia.jp:K平均法

関連文献†

基本文献
J.McQueen "Some methods for classification and analysis of multivariate observations" In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pp.281-297 (1967)
GoogleScholarAll:Some methods for classification and analysis of multivariate observations
初期化法の改良
P.S.Bradley and U.M.Fayyad: Refining Initial Points for K-Means Clustering, in Proceedings of the 15th International Conference on Machine Learning, pp.91-99 (1998)
GoogleScholarAll:Refining Initial Points for K-Means Clustering
混合正規分布の最適化を確定的焼き鈍しで解くとき，k-means法は温度0の状態とみることができることを示す
S.Zhong and J.Ghosh "A Unified Framework for Model-based Clustering",JMLR, vol.4, pp.1001-1037 (2003)
GoogleScholarAll:A Unified Framework for Model-based Clustering
距離が三角不等式を満たすことを利用し，冗長な距離の計算を削減することによる高速化．反復数をL として，通常は n k L 回距離を計算するが，それを n回に近づける
Charles Elkan "Using the Triangle Inequality to Accelerate k-Means" 20th ICML, pp.147-153 (2003)
GoogleScholarAll:Using the Triangle Inequality to Accelerate k-Means
Book/Pattern Recognition and Machine Learning 9.1章
Book/パターン認識と学習の統計学(統計科学のフロンティア6) 第I部 4.2節
Book/データマイニングの基礎 3.2.3-3.2.4節
Book/Pattern Classification 10.8節
Book/Rで学ぶクラスタ解析 5章
Book/パターン認識(Rで学ぶデータサイエンス5) 2.2節

朱鷺の杜Wiki

参加しよう

Wiki超入門
練習用ページ
数式の表示
こびとさん
編集用ID: ibis
パスワード: 「VC次元」のVのフルスペルで最初だけ大文字

最新の30件
2025-01-31
- PRML/errata2
- PRML/errata1
2024-12-21
- しましま/IBISML055
2024-11-07
- しましま/IBIS2024
2024-11-04
- IBIS
2024-05-31
- 人工知能学会全国大会
- しましま/人工知能学会全国大会2024
2024-04-13
- python
2024-04-09
- K-NEL
- K-NEL/errata
2023-11-01
- しましま/IBIS2023
2023-06-11
- しましま/人工知能学会全国大会2023
2023-03-28
- Book
2022-11-27
- 朱鷺の社
2022-11-24
- しましま/IBIS2022
2022-07-08
- AutoTicketLinkName
2022-06-17
- しましま/人工知能学会全国大会2022
2021-11-13
- しましま/IBIS2021
2021-10-29
- 回帰分析
2021-06-11
- しましま/人工知能学会全国大会2021
2021-03-07
- MenuBar
2021-02-15
- python/numpy
2020-12-22
- 特異値分解
2020-12-18
- complement naive Bayes
2020-11-27
- しましま/IBIS2020
2020-10-17
- Paper/bias-on-the-web
2020-07-16
- F値
2020-06-30
- DataSet
2020-06-24
- バイアス-バリアンス
2020-06-10
- Paper

カウンタ

累計: 70265
今日: 2
昨日: 1

Last-modified: 2010-02-11 (木) 16:11:48 (5511d)