classification and regression tree (CART)

Leo Breiman が考案した代表的な決定木アルゴリズム

ID3と同様に分割統治アルゴリズムで,各ノードで分割する属性を木全体の Gini index の減少を最大にするという規準で選ぶ.

目的変数がカテゴリ変数のときは決定木が,目的変数が連続数値変数なら回帰木が得られる.

Gini係数

クラス \(c\in C\) のサンプルの,全サンプルに対する割合を \(p_c\) で表すと Gini係数 (Gini index) は \[ \mathrm{Gini}\mathrm{\ index} = 1 - \sum_{c\in C} p_c^2 \]

各葉ノードについてGini係数を求め,それを,その葉ノードに分類されるサンプルの割合で重み付けする.この重み付けしたGini係数を全てのはノードについてとった総和を,決定木全体のGini係数とする.

Gini係数は,入力データがどれだけ一様に分布しているか測る目的で考案された.オリジナルはこのような離散値ではなく,連続値について定義され,国民の収入の偏りを測るのに用いられた.

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:10:50