第3回 人工知能学会 データマイニングと統計数理研究会(SIG-DMSM)†
このページはしましまが人工知能学会 第3回データマイニングと統計数理研究会 に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.
○佐藤美佳 (筑波大)
※ 難しかったので,だいぶ不正確っぽいメモ
クラスター分析:類似性に基づいて,内在する構造を見つける†
- ものを分類する→人間のもつ原始的能力,最も古い科学的探求
- Sokal&Sneath Principles of Numerical Taxonomy (1963) らによって客観的な数値分類法が確立される
全データは必ずクラスタに所属するという条件の下では,複数のクラスタに同じくらい自然に分類されるべき対象が生じる
→そういった対象はクラスタAとBにそれぞれ1/2ずつ所属すると考える
- ファジィ部分集合をもって定義されるクラスタ.
- 具体的にはメンバーシップ関数によって記述される
- ハードでは所属度 μA(x)∈{0,1} だが,ファジィでは μA(x)∈[0,1]
- Dunn (1973) 級内偏差平方和にファジィ分割の考えを導入
- Bezdek (1981) ファジィ c-means
最近の展開†
sij=Σk^K wk uik ujk + εij
- s: 類似度
- w: クラスタの重み
- u: クラスタの帰属度
- ε: エラー
少数のクラスタで類似性の構造説明 (類似性の構造をより柔軟に表現)
aggregation関数
ρ(uik,ujl):i と j が共にクラスタkとlについて共通の性質をもつ割合
類似度 sij が非対称の場合†
- ρの設計を変える
- 類似度の非対称性をもが類似しているものをまとめる
問題点†
- 解全体 U は回転できると,不定になるが,その可能性はごくわずか
区間データ†
- データが区間の形で表される場合 ξia=[_x_ia, ~x_ia]
- 区間に均一分布をかけて処理する → 中心を見ているのと変わらない
- さらにPCAする:射影する前のグループ構造を保持しつつ射影したい
- ファジィの解の柔軟すぎて解釈が難しい
- 回帰モデルを使って,
uik=Σz^p x_ia z_ak + ε
として帰属度をモデル化して,負荷量 z_ak を求める.
- 重み付最小二乗で計算できる.
○北原洋一,折原良平 (東芝)
感染症の流行現況把握・流行予測のアルゴリズムの検討 −地域における小児ウイルス感染症流行の把握−†
○長谷川伸作 (北海道立衛生研), 井上 仁 (鳥取大), 陶山昭彦 (放射線影響研)
感染症の発症についての保健所からの報告のデータ:
目で見て検証し,周期性などはおおまかに把握できる→もっと統計的で客観的な観測
- パワースペクトルやコレログラムを用いた解析のケーススタディ
15:30-17:30 【多変量解析,可視化】
Local Fisher Discriminant Analysis for Dimensionality Reduction†
○杉山 将 (東工大)
- (ICML2006での発表)線形の教師あり次元圧縮
- クラス内多峰性がある場合:クラス内で密な部分が複数個存在
- Fisher判別分析をpairwiseに書くと,同じクラスを近くに,違うクラスを遠くに埋め込むようになる
- 多峰性だとFDAは,離れた同じクラスのデータを近くに埋め込もうとしたりして不都合がおきる
- 局所性保存射影(LPP):下の空間で近くにあるものは近くに埋め込む.密な部分をよりつぶす.
- LPP+FDA:同じクラスの近くの標本は近く,違うクラスなら遠く,同じクラスの遠くのものは無視
→局所フィッシャー判別分析 (LFDA):pairwise表現のFDAに局所性考慮する修正.固有値問題として簡単に解ける.
- FDAは(クラス数-1)個の次元しかとりだせないが,任意の個数の軸を抽出可能
- 関連研究:Hastie&Tibshrani(PAMI 1996)のLDIとの違い:多峰性の保持で問題がある
- MDA:Hastie&Tibshrani,NCA:Goldberger,Roweis,Hingon,Salakhutdinov(NIPS2004),MCML:Globerson&Roweis(NIPS2005)
- 局所性を決めるノルムの選択が提案手法の課題
不均一関数データに対する主成分分析と手書き文字データへの応用†
○茅野光範, 堂園剛司, 小西貞則 (九大)
- 不均一関数データ:関数の値が,観測点数や観測区間がバラバラのものが,いろいろな個体(関数一つに対応)についてとられる
- 関数主成分分析:関数の集まりが与えられたとき,これらにPCAを実行する.主成分関数と,その成分が求まる.
- 不均一関数データに関数主成分分析を縮小ランクモデルで解く方法の提案
R,GAM,そして生存時間解析†
○辻谷将明 (大阪電通大)
- GAM:一般化加算モデルに平滑化スプライン項を加えて解析
テュートリアル教育(情報科学演習)における学習行動の類似性に関する定量分析†
○安田 晃, 平野章二, 阿部秀尚, 中國秀章, 花田英輔, 津本周作 (島根大)
- 演習中の学生の行動の時系列上での変化を定量的に評価するケーススタディ
- データは各演習後に提出する評価シートから得る
- 各演習の順位相関を使って学生の行動が変化する時期を見つける
- Russel and Rao係数で類似度を測る.最終週のガンバリをみる.
- MDSで可視化
事例に論理構造に基づく関係的知識発見†
○元山純一, 中野智文, 犬塚信博 (名工大)
- ILPで,意味があり,頻出のパターンを,関係データから列挙する
- 「意味がある」:1引数の事実を表す述語(一つ以上必要)が最後にあり,頭部からこの述語までを2引数の関数的な述語で連結するような節だけを考える
- 各事例(具体的な関係を展開した木)が,節で表された性質を満たすかどうかで,事例をトランザクション,性質をアイテムとしてAprioriを適用
- 同値なパターンや部分構造の組み合わせなどを考慮する工夫
分散共起尺度の提案†
○中野智文, 犬塚信博, 小山由紀江, 石川有香 (名工大)
- コーパス中の単語の共起関係の尺度を,分散計算機環境で計算する
- 各計算機でレンマ化(stemming)する前の共起関係を見つけ,同じ語に正規化される語についての量をそれぞれの計算機で求め,あとでまとめることで分散計算する
データマイニング手法に基づくインシデントレポートデータの分析†
○阿部秀尚, 津本周作, 中國秀章, 平野章二, 花田英輔 (島根大)
- 専門家がデータ集合を作るのは大変なので,各アルゴリズムごとに,有効なルールが求められる最小事例数を求めたい
- 有効な学習ができるようになるために,データ全体を使ったときの正解率を1として,最大クラスの全事例に占める割合に,経験正解率が達するようなデータ数を,有効なルールが獲得できる最小事例数と考える.
- 有効性を実験的に検証
10:45-12:15 【系列・グラフマイニング】
○大塚尚貴, 岩沼宏治, 鍋島英知 (山梨大)
- 長い系列 S から,系列と無矛盾なシンボル系列パターンで頻出するものを見つける問題.パターンにマッチする系列の長さはたかだか k.
- kごとのスライディングウィンドウに切って,PrefixSpan を適用すると,短い系列が重複して抽出されるので,PrefixSpanやAprioriAllとは違う問題.
- 頻度ではなく,情報量利得を使う抽出基準.
- 深さ優先探索をするが,探索の枝狩りをする基準の提案.
頻出系列パターンマイニング手法を用いたWeb利用パターン発見†
○早川潤一, 中野智文, 犬塚信博 (名工大)
- ログレコードグラフ(ログのアクセス順を考慮したグラフ),URLグラフ(アクセス順は考慮しないグラフ),Webの内容の全てを考慮してパターンを見つける試み
情報利得値の上界を枝刈り基準とした特徴的部分グラフの探索†
○原 昌弘, 高林健登, 大原剛三, 元田 浩, 鷲尾 隆 (阪大)
- 頻出する部分グラフを見つける Cl-GBI法の改良
- 見つけた部分グラフは,それを特徴として,クラス分類に利用する
- この目的で,頻出するものの中でも,クラスとの相互情報量が大きなものを抽出したい
- この相互情報量についてbranch-and-boundを実行するための枝狩り基準
○鈴木英之進 (九大)
- 選択,前処理,変換,抽出,評価のプロセスを反復的に実行
- パターンの抽出と評価を中心に
- 母体分野:機械学習,統計,DB
- パターン表現:異常値,構造ルール,分類ルール
- データ:サイズ,属性の粒度,例の粒度
- 評価による違い:専門家,複数・単数
- 機械学習:人間の推論を実現.自動評価好き.
- 統計学:統データの解析手法
- データベース:データ処理.記憶媒体の処理特性を考慮
研究分野の違いによる評価の違い†
DB系の研究の視点から†
ICDM2001のJim Grayの招待講演
- データベースの研究者
- 知識の発見,興味深さ,意味には興味なし
- データの保存や検索などの処理には,興味があり,効率的な方法をもっている
- 相関ルール発見:
- ポイント:データがメモリに配置できないことを考慮し,アルゴリズムとデータ構造をうまく設定
- 評価は,データや実行環境の制約を変えて,効率の評価
→ ルールの良さは評価しない
- 批判
- 多数のルールが出てきて役立たない→あとは,DBにクエリを発して探せばよい
- 支持度や確信度では不足?
- アルゴリズムとデータ構造が素朴?→基本的な枠組みの提案
ルール意味とかを無視できない
- ITRULE: 表形式データから if-then ルールを J値と呼ぶ基準に基づき選ぶ.
- ポイント:圧縮情報量(評価値J)とbranch-and-boundによる探索
- 評価は,理論的価値と実用的価値の両面がある
離散的アプローチと統計的アプローチ†
遺伝子からのモチーフ発見
- 拡張可能モチーフというパターンを定義し,その性質の定理を証明し,アルゴリズムも作る
- 統計では,頑健性とかに関心はあるが,データ構造に関心はない
- 統計系の研究:pLSA
- d:文書,z:潜在クラス,w:単語:p(d),P(z|d),P(w|z) のグラフィカルモデルで,最尤推定で z を求める.
- 評価:データを使った経験的評価
- 批判:正解率などは過剰に厳しい場合もある?直観的でない定量指標
パターン表現の粒度例†
DBOutlier†
- 表形式データから,半径 D 内には(1-p)個の事例しか存在しない
- セルを作って離散的に事前に数えあげておくことで,分枝限定法で切る
- 評価:例外にされた事例は定性的にも評価されている.(機械学習の要素もちょっと)
- ROCなどの指標を使った評価はしていないので定量的評価としてはあまい?
構造ルール発見の研究例:例外ルールの同時発見†
- Y → X,と Y→X∧Z から例外パターンルールを作る
- とても小数の例を説明するルール
- 評価:単一の軸ではなく,複数の視点からの評価.妥当,有用,意外,新規など複数の視点での定性評価.
データの難易度†
- サイズ:例数,属性数,記憶媒体
- 属性の粒度:目的に応じて調整済み・まだ
- 例の粒度:知識にしやすい高次なものか,低次の観測量
専門家評価の注意点†
- 単複:専門家で意見が違うことはよくあるので,影響は大きい
- 最高・平均:どちらを目指すかは,かなり差がでる
- 性格:楽観的・慎重
- 実証可能性:結果の良さが分からない (例:創薬などは検証に10年とかかかる)
- 本物か?:計算機でシュミレートした評価者
- 評価法の違いはよく検定すべき
- 本当にやったことをタイトルに書こう「Beware of the hype (KDD 96)」
- 将来:より多くの種類の評価が要求されるようになる
Q&A: 知識とは†
- メタな議論は生産的ではない
- 再利用可能性があるというあたりで手をうつ
データ解析履歴に基づくマイニングアルゴリズム選択支援†
○陸 洪涛, 大原剛三, 鷲尾 隆 (阪大)
観点を考慮した知識整理のための地図型アニメーションインタフェース†
○田中大智, 砂山 渡 (広島市立大)
- あるテーマの単語集合の関係を可視化する.また,それらに関する観点を示すキーワードも入力する
- 単語間の関係の強さを定義し,バネモデルで配置
- Newton 2004 の方法でクラスタを求め,それらを島としてメタファ
- 局所的な関係を「道路」,大局的な関係を「線路と橋」によって可視化.これらは,目的に応じた指標によって選択する.
- 観点を使うと,観点に関する単語だけについて地図が生成される.
幾何学的制約に基づいた高相関変数集合導出手法†
○中西耕太郎, 鷲尾 隆 (阪大)
- 相関解析は属性間の相関を調べ,相関の強いを見つける
- AC, AB の相関が計算済みのとき,BCの相関がしきい値以上かどうかを判定できる場合があることを使って枝狩り.
- 最悪の場合,かえって計算量が増えるので,相関が強そうなペアを中心に処理する工夫.
- 相関の強い変数が多くなると高速になる
局所単調性に基づく条件付相関変化の探索法に関する一考察†
○谷口 剛, 原口 誠 (北大)
- 大域的なDBでは相関・共起が低いが,ある条件を満たす局所DBでは高くなるような対を見つける
カテゴリー変数に対する共分散と主成分分析および実データへの適用†
○新妻弘崇(産総研),岡田 孝(関西学院大学)
- カテゴリ変数の変数選択をするための共分散の定義
- Gini Indexで,同じ変数について2乗するところを,違う変数についての差を使う.
- カテゴリ変数の差は,regularな単体上で定義した座標を使う
- さらに座標系を合わせるための回転も考慮
- これは固有値問題として解くことができる
- 同様の手法で,カテゴリ変数に対する PCA も定義