* Data Mining: Concepts and Techniques [#fe353621]
//ここには文献のリファレンスを書いてください.bibtex形式で書くことを推奨します.

*** 第3版 [#jc0d18e9]
#amazon(0123814790)
 @book{eb:044:00,
  Author = {J. Han and M. Kamber and J. Pei},
  Edition = {third},
  Publisher = {Morgan Kaufmann},
  Title = {Data Mining: Concepts and Techniques},
  Year = 2011}
#amazon(,clear)

*** 第2版 [#fbd79d4e]
#amazon(1558609016)
 @Book{eb:044:00, 
  author =       "J. Han and M. Kamber",
  title =        "Data Mining: Concepts and Techniques",
  publisher =    "Morgan Kaufmann",
  year =         2006,
  edition =      "second"
 }
#amazon(,clear)

*** 第1版 [#r372c499]
#amazon(1558604898)
 @Book{eb:044:00, 
  author =       "J. Han and M. Kamber",
  title =        "Data Mining: Concepts and Techniques",
  publisher =    "Morgan Kaufmann",
  year =         2000
 }
#amazon(,clear)

*キーワード [#w243c538]
//ここにはキーワードを列挙してください.

データマイニング, [[OLAP]], 相関ルール, 決定木, ベイジアンネット, [[FOIL]], ニューラルネット, [[SVM]], 事例ベース推論, 回帰分析, アンサンブル学習, クラスタリング, 部分空間クラスタリング, 制約付クラスタリング, 外れ値検出, データストリーム, 時系列, グラフマイニング, リンクマイニング, 構造化データ, 空間データ, テキストマイニング, Webマイニング

*メモ [#l2a5cef0]

//内容とかを簡単に書いてください

-Z.-H. Zhou "Book Review: Three Perspectives of Data Mining", Artificial Intelligence, vol.143, pp.139-146 (2003)~
で紹介されているデータマイニングの著名な教科書の一つ.この書評によれば次のような傾向がある
--文献1:[[Book/Data Mining - Practical Machine Learning Tools and Techniques]] -- 機械学習寄り
--文献2:[[Book/Principles of Data Mining]] -- [[統計]]寄り
--文献3:[[Book/Data Mining - Concepts and Techniques]] -- データベース寄り

*** 概要と特徴 [#bffe16f4]

- 数式は上記,3冊の中で中間的.仮想コードを使った説明はあまりない.
- 時系列データなど,ベクトルデータ以外のデータを扱う代表的な手法なども紹介するのが他の2冊にはない
- データウェアハウスや[[OLAP]]などデータベース関連について他の2冊より手厚い.
-- 第2版では"Data Cube Computation and Data Generalization" の章がデータベース関係で加わっている.
- 相関ルールなどの頻出パターン抽出,決定木や[[SVM]]などのクラス分類と回帰分析,およびクラスタリングと用途別に分類した章立て
-- 相関ルールは例題がいっぱいで詳しい
-- クラス分類や回帰分析については他の2冊と比べて少い.ふれる程度だが遺伝アルゴリズムやラフ集合があるところが特徴的
-- クラスタリングについては,[[BIRCH]]はもちろん,[[DBSCAN]],[[CLIQUE]]など他の2冊より大幅に充実.
- 第2版では,ベクトルで表現されないデータの扱いが大幅に強化されている.
-- データストリームと時系列データ,グラフとネットワーク,構造化データなど,データの形式ごとに分類した章立ては他に2冊にはない
-- 最後に金融やバイオといった応用分野について述べた章でしめくくり
- 第3版では,はずれ値検出などが強化された一方で,データストリームやグラフマイニング関係は削除された
-- 章立てが,第2版までは手法別のあとデータ種類別だったが,全部手法別に統一された
--- 基本,データベース関係,頻出パターンマイニング,分類,クラスタリング,はずれ値検出という感じの章立てに変わった
-- グラフ・ネットワーク系の gSpan やストリーム系の Hoeffding tree や lossy countingアルゴリズム はなくなっているので注意
- 汎化誤差とかの理論関係は全くないので [[文献2>Book/Principles of Data Mining]] や [[Book/The Elements of Statistical Learning]] とかを見るべき
- いろいろなアルゴリズムを知りたい人向けだと思う

>--しましま

*リンク集 [#ub3158cd]

//サポートページなど関連リンクを書いてください.
-[[第3版サポートページ>http://www.cs.illinois.edu/~hanj/bk3/]],[[第2版サポートページ>http://www-sal.cs.uiuc.edu/~hanj/bk2/]],[[第1版サポートページ>http://www.cs.sfu.ca/~han/dmbook]]:目次,訂正,図表ファイル,講義用プレゼン資料
-[[GoogleScholarAll:Data Mining: Concepts and Techniques]]
-Amazon.co.jpへのリンク:&amazon(1558609016);

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS