Rで学ぶクラスタ解析†
#amazon(4274067033)
@Book{jb:040:00,
author = "新納 浩幸",
title = "{R}で学ぶクラスタ解析",
publisher = "オーム社",
year = 2007,
yomi = "Shinnou"
}
キーワード†
R, クラスタリング, 階層的クラスタリング, k-means法, スペクトラルクラスタリング, 次元削減, 主成分分析, probabilistic latent semantic analysis, ファジィc-means法, EMアルゴリズム, non-negative matrix factorization
- 統計のクラスタリングの本はアヤメデータとかから始まるが,この本は文書データのクラスタリングを中心に扱っている
- 形態素解析などが済んで,文書をBag-of-Wordsで,頻度ベクトルやTF-IDFで重み付けしたベクトルに変換したあとの処理に特化して書かれている
- Rの基本的な説明は,ほとんど知っていることが前提のような感じ
- 大規模データでRで効率的に計算するために小技がたっぷり.for文を使わずに,ベクトルや行列の演算に持ち込むとRは速くなるが,そうしたプログラミングテクニックが載っている本は少ない.
- purity など,分割の類似性を測る指標の説明が載っているのはこの本の特色.
- probabilistic latent semantic analysis, スペクトラルクラスタリング, non-negative matrix factorizationの日本語の説明は,あまり他では載っていない.こうした手法があるのは,文書クラスタリングを対象にした本ならでは.
-- しましま
リンク集†