@Book{book, author = "金森 敬文 and 竹之内 高志 and 村田 昇", title = "パターン認識", publisher = "共立出版", year = 2009, volume = 5, series = "{R}で学ぶデータサイエンス", yomi = "Kanamori and Takenouchi and Murata" }
R, 交差確認, F値, k-means法, 階層的クラスタリング, EMアルゴリズム, 混合分布, 判別分析, ロジスティック回帰, ニューラルネット, 多層パーセプトロン, カーネル密度推定, k最近傍法, 学習ベクトル量子化, 決定木, SVM, ミニマックス確率マシン, バギング, ブースティング, 誤り訂正出力符号
著者の金森,竹之内,村田の3氏は統数研の江口先生と共に U-divergence を用いたブースティングで有名で,私も個人的に知り合いです. 本には当然ブースティングも入っていますが,クラスタリング,判別分析,ロジスティック回帰,k-近傍法,LVQ, 決定木,SVM などの機械学習の基本的なアルゴリズムが網羅されています.
このシリーズがややこしいのは,既刊にマシンラーニング (Rで学ぶデータサイエンス 6)というのもあることで,こちらは統計や平滑化などの著書で有名な辻谷 将明,竹澤 邦夫両先生の著によるものです. SVM とニューラルネットは入っていますが,基本的には伝統的な統計手法の本です.というわけで題名からするとなんだか紛らわしいので,著者の研究分野と目次をよく見て買った方がよいと思います.
さて「パターン認識」本に話を戻すと,まずいきなり1章は評価法の説明で,ROC とか AUC とかからはじまります. ただしまえがきによると「初学者は1章はとばせ」と書いてあります^^; その後の章はそれぞれの手法をオムニバス式に並べて,必要に応じてどの章から読んでも大丈夫なようにできています. 手法の説明はすっきり明快であまりくどくないのがいいです(初学者にはちょっときついかも). とりあえずプログラムがあるので百聞は一見にしかずということでしょう.逆に言うと全体のストーリーを追うというような読み方には向いていないです.
最近の話題では,パス追跡アルゴリズムとミニマックス確率マシンが入っているのが目新しいところです. この辺りは岩波本のサポートページでも書いておかなくっちゃと思っていたところなので,この本で勉強してまとめておこうと思いました. あと,多値判別のために ECOC を実装しているのですが,復号にコントラスティブダイバージェンス・平均場近似・MCMC というマニアックな手法を使っていて,入門者にはマニアック過ぎだろうとか思いましたが,この辺りは最後の方なので専門家向けという面もあるのでしょうね.
それにしても R のコードの整備は大変だったろうなと思います. まあ,この3氏は私と違って几帳面な性格ですからバグや誤植も少ないことでしょう. 一応私が昔作った Splus 向けの混合分布のコードを参考にしてくださっている部分があり,それで謝辞に入れていただいており恐縮しています. 90年代に書いたコードなので kernlab とかで使われている S4 メソッドではなく,古い S3 のメソッドを使っているところが少々恥ずかしいところです.
-- あかほ
-- しましま