classification and regression tree (CART) †Leo Breiman が考案した代表的な決定木アルゴリズム. ID3と同様に分割統治アルゴリズムで,各ノードで分割する属性を木全体の Gini index の減少を最大にするという規準で選ぶ. 目的変数がカテゴリ変数のときは決定木が,目的変数が連続数値変数なら回帰木が得られる. Gini係数 †クラス \(c\in C\) のサンプルの,全サンプルに対する割合を \(p_c\) で表すと Gini係数 (Gini index) は \[ \mathrm{Gini}\mathrm{\ index} = 1 - \sum_{c\in C} p_c^2 \] 各葉ノードについてGini係数を求め,それを,その葉ノードに分類されるサンプルの割合で重み付けする.この重み付けしたGini係数を全てのはノードについてとった総和を,決定木全体のGini係数とする. Gini係数は,入力データがどれだけ一様に分布しているか測る目的で考案された.オリジナルはこのような離散値ではなく,連続値について定義され,国民の収入の偏りを測るのに用いられた.
関連項目 †リンク集 †
関連文献 †
|