群平均法 (group average method)

凝集型階層的クラスタリングの一種. 任意の対象の対 \(x_1\) と \(x_2\) の非類似度 \(d(x_1,x_2)\) が与えられたデータを扱う. クラスタ \(C_1\) と \(C_2\) の非類似度 \(d(C_1,C_2)\) を次式で測る. \[d(C_1,C_2)=\frac{1}{|C_1||C_2|}\sum_{x_1\in C_1}\sum_{x_2\in C_2} d(x1,x2)\] これは二つのクラスタの要素間の非類似度の平均値. 全てクラスタが単一の対象で構成された状態から,このクラスタ間の距離が最小になるクラスタを,再帰的に併合することで階層構造を獲得する.単リンク法完全リンク法よりも実データでは直観にそったクラスタが得られることが多い.

クラスタ\(C_1\)が,クラスタ\(C_{1a}\)と\(C_{1b}\)について \(C_1=C_{1a}\cup C_{1b}\) であるとき次式が成立 \[\frac{|C_{1a}|}{|C_{1}|}d(C_{1a},C_2)+\frac{|C_{1b}|}{|C_{1}|}d(C_{1b},C_2)\] リンクの重みが全て等しいので,UPGMA (unweighted pair-group method using arithmetic averages) とも呼ばれる. ここで非類似度の更新を \[\frac{1}{2}\biggl(d(C_{1a},C_2)+d(C_{1b},C_2)\biggr)\] これはリンクの重みが等しくないので WPGMA (weighted pair-group method using arithmetic averages) と呼ばれる

--しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-04-26 (火) 21:06:23