パターン認識(Rで学ぶデータサイエンス5)

@Book{book,
 author =    "金森 敬文 and 竹之内 高志 and 村田 昇",
 title =        "パターン認識",
 publisher =    "共立出版",
 year =         2009,
 volume =    5,
 series =    "{R}で学ぶデータサイエンス",
 yomi =      "Kanamori and Takenouchi and Murata"
}

キーワード

R, 交差確認, F値, k-means法, 階層的クラスタリング, EMアルゴリズム, 混合分布, 判別分析, ロジスティック回帰, ニューラルネット, 多層パーセプトロン, カーネル密度推定, k最近傍法, 学習ベクトル量子化, 決定木, SVM, ミニマックス確率マシン, バギング, ブースティング, 誤り訂正出力符号

メモ

著者の金森,竹之内,村田の3氏は統数研の江口先生と共に U-divergence を用いたブースティングで有名で,私も個人的に知り合いです. 本には当然ブースティングも入っていますが,クラスタリング判別分析ロジスティック回帰k-近傍法LVQ, 決定木SVM などの機械学習の基本的なアルゴリズムが網羅されています.

このシリーズがややこしいのは,既刊にマシンラーニング (Rで学ぶデータサイエンス 6)というのもあることで,こちらは統計や平滑化などの著書で有名な辻谷 将明,竹澤 邦夫両先生の著によるものです. SVM とニューラルネットは入っていますが,基本的には伝統的な統計手法の本です.というわけで題名からするとなんだか紛らわしいので,著者の研究分野と目次をよく見て買った方がよいと思います.

さて「パターン認識」本に話を戻すと,まずいきなり1章は評価法の説明で,ROC とか AUC とかからはじまります. ただしまえがきによると「初学者は1章はとばせ」と書いてあります^^; その後の章はそれぞれの手法をオムニバス式に並べて,必要に応じてどの章から読んでも大丈夫なようにできています. 手法の説明はすっきり明快であまりくどくないのがいいです(初学者にはちょっときついかも). とりあえずプログラムがあるので百聞は一見にしかずということでしょう.逆に言うと全体のストーリーを追うというような読み方には向いていないです.

最近の話題では,パス追跡アルゴリズムとミニマックス確率マシンが入っているのが目新しいところです. この辺りは岩波本のサポートページでも書いておかなくっちゃと思っていたところなので,この本で勉強してまとめておこうと思いました. あと,多値判別のために ECOC を実装しているのですが,復号にコントラスティブダイバージェンス平均場近似・MCMC というマニアックな手法を使っていて,入門者にはマニアック過ぎだろうとか思いましたが,この辺りは最後の方なので専門家向けという面もあるのでしょうね.

それにしても R のコードの整備は大変だったろうなと思います. まあ,この3氏は私と違って几帳面な性格ですからバグや誤植も少ないことでしょう. 一応私が昔作った Splus 向けの混合分布のコードを参考にしてくださっている部分があり,それで謝辞に入れていただいており恐縮しています. 90年代に書いたコードなので kernlab とかで使われている S4 メソッドではなく,古い S3 のメソッドを使っているところが少々恥ずかしいところです.

-- あかほ

  • B4〜M2 レベルぐらいの感じの本.R の(勉強用の)コードもあって,いろいろ試せる.
  • U-ブースト,min-max確率マシン,ECOC, パス追跡などはちょっと趣味に走っているが,バランスが非常にいいと思う.
  • クラスタリングはスルーされがちだが,2章分がさかれている.
  • 逆に,ベイズはバッサリである.単純ベイズさえない.アルゴリズミックな頻出パターンマイニングとかもない.
  • この「Rで学ぶデータサイエンス」シリーズは「マシンラーニング」→「統計的予測」で,「パターン認識」→「機械学習」とタイトルを変えた方が自然な感じがする

-- しましま

リンク集


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-08-27 (金) 12:49:46 (2291d)