(本書まえがきより)

 本書ではカーネル法と呼ばれるデータ解析の手法を解説する.カーネル法は
サポートベクトルマシンの発明によって一躍注目されるようになった.しかしながら, 
その本質はもともと古くからあった手法の延長線上に位置づけられるので,カーネル法
を形容するのにはむしろ温故知新という言葉がぴったりとくる.すなわち,カーネル法
は基本的には伝統的な線形多変量解析と同じ土俵の上にあると考えることができる一方,
従来できなかったような問題にも適用できる柔軟性を持ち合わせている.

 複雑な非線形データが与えられたとき,非線形のモデルを作ってそれにデータを
あてはめる手法を開発するというのが素朴な考え方だが,大抵の場合,複雑な最適化
問題に直面し,大規模なデータ解析をすることが困難になる.

 そこでカーネル法では,線形のモデルで非線形の問題を解くという逆転の発想をする.
データを一旦高い次元の空間に移してから処理を行なうのだが,高次元の空間には
いわゆる次元の呪いという問題があり,従来の常識からすると,これは一見禁じ手の
ように見える操作である.カーネル法は,次元の呪いを受けないために,正則化と
呼ばれる枠組を持ち出し,高次元の中で複雑になりすぎたモデルをなましてやる.

 正則化の導入は一方で計算を複雑にするという副作用を産んでしまうのだが,
ここでまた逆転の発想が働く.カーネル法では与えられた問題の構造を精緻にモデル化
した上でデータ解析手法を導くというのではなく,計算がやりやすいように,逆に
手法に問題の方を合わせるのである.

(中略)

 カーネル法のもつさまざまな性質は,その主役であるカーネル関数と呼ばれる
ものに強く依存している.このカーネル関数を使うのにはもう一つの利点があり,
文字列やグラフなど近年急速に重要度を増しつつある複雑な構造をもつデータに対して
適用可能になるということがある.これらのデータに対して従来の多変量解析を
そのまま使うことは難しい.しかしながら,カーネル関数というオブラートでくるんで
やれば,たとえどんなに複雑な構造をもったデータでも,それとは関係なくデータ解析
の手法を開発することができるのである.

 さて,データ解析をする際には,どのような問題に(対象),どのような理論に
基づいて(仕組み),どのように適用するか(手法)という3つの要素がある.
このうち本書では特に仕組みについて詳しく書いてある.データ解析のユーザという
視点から見ると仕組みについて知ることはそれほど重要でないと思われるかもしれない.
よく言われることは,車を運転するのに自動車が走る仕組みを知る必要はないという
ことである.

 しかしながら,複雑なデータを対象とする際に,与えられたデータにどのような
手法を使うかは自明ではなく,マニュアル的な手法では対処できないことも多い.
データ解析のユーザも,解析手法の作り手になっていろいろ試行錯誤を繰り返す必要が
ある.このように,現代のデータ解析では,道具は単に使うだけでなく,作り出す
必要もあるため,仕組みをきちんと押さえておくことが重要となる.

トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-08-04 (水) 14:04:12 (2319d)