* 群平均法 (group average method) [#b06e0069]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

凝集型階層的クラスタリングの一種.
任意の対象の対 \(x_1\) と \(x_2\) の非類似度 \(d(x_1,x_2)\) が与えられたデータを扱う.
クラスタ \(C_1\) と \(C_2\) の非類似度 \(d(C_1,C_2)\) を次式で測る.
\[d(C_1,C_2)=\frac{1}{|C_1||C_2|}\sum_{x_1\in C_1}\sum_{x_2\in C_2} d(x1,x2)\]
これは二つのクラスタの要素間の非類似度の平均値.
全てクラスタが単一の対象で構成された状態から,このクラスタ間の距離が最小になるクラスタを,再帰的に併合することで階層構造を獲得する.単リンク法と完全リンク法よりも実データでは直観にそったクラスタが得られることが多い.

クラスタ\(C_1\)が,クラスタ\(C_{1a}\)と\(C_{1b}\)について \(C_1=C_{1a}\cup C_{1b}\) であるとき次式が成立
\[\frac{|C_{1a}|}{|C_{1}|}d(C_{1a},C_2)+\frac{|C_{1b}|}{|C_{1}|}d(C_{1b},C_2)\]
リンクの重みが全て等しいので,UPGMA (unweighted pair-group method using arithmetic averages) とも呼ばれる.
ここで非類似度の更新を
\[\frac{1}{2}\biggl(d(C_{1a},C_2)+d(C_{1b},C_2)\biggr)\]
これはリンクの重みが等しくないので WPGMA (weighted pair-group method using arithmetic averages) と呼ばれる

> --しましま

**関連項目 [#l6f79811]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.

-[[group average method]]
-[[平均リンク法]]
-[[average linkage method]]
-[[UPGMA]]
-[[unweighted pair-group method using arithmetic averages]] 
-[[WPGMA]]
-[[weighted pair-group method using arithmetic averages]] 
#br
-[[クラスタリング]]
-[[階層的クラスタリング]]
-[[凝集型階層的クラスタリング]]
-[[Lance-Williams updating formula]]
#br
-[[検索:群平均法 UPGMA WPGMA]]

**リンク集 [#q3acd8e1]

//関連するWWW資源があればリンクしてください.

-[[クラスタリングとは (クラスター分析とは)>http://www.kamishima.net/jp/clustering/]] @ 神嶌敏弘:
基本的な手法の説明とクラスタリングを用いた分析での注意点

**関連文献 [#nfa89794]

//この%項目%に関連する書籍や論文を紹介してください.

-[[Book/データマイニングの基礎]] 3.2.1c節
-[[Paper/ICML-2002-p283]]~
d(x1,x2)が通常とは若干異なる2乗ユークリッド距離の場合:最大分散 v を考えて,各クラスタは var(C)≦v を満たすように形成される.全体としてはこの最大分散が小さくなるようなクラスタが選ばれる.このことから,単リンク法と完全リンク法の中間的なクラスタが導かれる.

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS