#freeze
* The 5th International Workshop on Data-Mining and Statistical Science (DMSS2011) [#ga2a591b]

このページはしましまが[[The 5th International Workshop on Data-Mining and Statistical Science (DMSS2011)>DMSS#DMSS2011]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.

* DMSS: Session 1 [#xc3acb36]

** A Decision Forest with Feature Space Enlarged by Low Biased SVM [#wb774a41]
Classifiers
Faisal M. Zaman*, Hideo Hirose (Kyushu Institute of Technology)

- バギングでベース学習器のバイアスを減らしたい
- ベース学習器を作るときに使わなかった残りのサンプルをSVMで分類し,その分類した結果を特徴量としてベース学習器の学習で,元の学習器に加える

** Adaptive Target Neighbor Change for Feature Weighting in Nearest [#be13b0b7]
Neighbor Classification*
Ichiro Takeuchi* (Nagoya Institute of Technology), Masashi Sugiyama (Tokyo Institute of Technology)

- 重み付きの2乗距離を使った最近隣法で距離学習をする
- k近傍内でクラス分類の結果のcasting voteを握るのがtarget neighbor
- target neighborが誤分類されている近傍より近づくように距離を変更するため nearest neighbor margin を定義しこれを最小化する
- target neighbor が不変な領域ごとに二次計画問題を考え,それを連続して解く

* DMSS: Sesson 2 [#ia060741]

* Graph-based Semi-Supervised Kernel Regression via Gaussian Process [#zf2a0d4e]
Xinlu Guo* (Kobe University)  Yoshiaki Yasumura (Shibaura Institute of Technology), Kuniaki Uehara (Kobe University)

- ガウス過程の回帰で事前分布をラベルなしデータから決める.
- その事前分布をグラフを利用して定義

* Mining RNA Families with Structure Histograms [#s0d36611]
Yudai Kawai, Mahito Sugiyama, Akihiro Yamamoto* (Kyoto University)

- RNAの系列では相補的な塩基がくっつくが,そのくっつき方のパターンを数え上げる
-- パターン:個数と入れ子の深さ
- Catalan数と関係がありエレガントに数え上げができるが非効率 → 新アプローチ
- パターンを複雑化する演算子を考え,木構造を作りあげ効率的な表現をする
- このパターンの頻度を特徴量をして分類やクラスタリング

* Fast Global Alignment Kernels* [#ic7e9d0a]
Marco Cuturi* (Kyoto University)

- 時系列間のカーネル
- Dynamic Time Warping でカーネルを作ると負定値になっていない
- 2点間のコストのsoft minimumを利用したGlobal Alignment Kernel(ちゃんと正定値)
-- soft minimum:全ての可能な対応付けの間の距離について -exp の和をとったもの
- 計算がたいへんなので Triangular Global Alignment Kernel というのを提案

* DMSS/LLLL Invited Talk 1: Distributional Learning of Extensions of Context-Free Grammars [#j1dc24ef]
Ryo Yoshinaka

-Context-Sensitive
- Distributional Learning:文の一部が抜けたようなコンテキストにある単語をはめ込んで大丈夫かどうか?
- Context-Free
-- 対応付けに交差があるような場合:遺伝子の塩基の対応付け
- これらの中間の Mildy Context-Sensitive

Substitutable CFL
- ある文の一部の単語を置き換えても成立するようなら,任意の文で同じ単語の置き換えをしてもその文は成立
-- Clark & Eyraud's Algorithm:正例だけから学習可能

Multiple Context-Free Grammer
- 任意の非終端記号ではなく,順番を保存した非終端記号を置換するルール

Context-Free Tree Grammer
- シンボルに順位があり,下位のノードから,上位のノードは展開されない

* DMSS: Session 3 [#e1f855cf]

** Mining Frequent Sequences with Flexible Time Intervals [#v9ba2b62]
Kazuya Maruo, Danaipat Sodkomkham*, Ken-ichi Fukui, Koichi Moriyama, Satoshi Kurihara, Masayuki Numao (Osaka University)

- アイテム間の時間間隔を考慮した頻出パターンを見つけるため,時間間隔もアイテムと考えた系列パターンを見つける
- 時間間隔を挟んだアイテムの対をいろいろ抽出し,それをクラスタリングして,時間間隔を離散化
- この短い系列で頻出するものから,より長い系列を生成(?)

** Sufficient Component Analysis for Supervised Dimension Reduction* [#f3dc4cdc]
Makoto Yamada*, Gang Niu, Jun Takagi, Masashi Sugiyama (Tokyo Institute of Technology)

- 次元削減後に射影した値が与えられたときの,入出力の値の条件付き独立性を最大化する部分空間を見つける

** Dependence-Maximization Clustering with Least-Squares Mutual Information* [#c8f2c7b2]
Manabu Kimura*, Masashi Sugiyama (Tokyo Institute of Technology)

- クラスタラベルと,入力変数の依存性を最大化するようにクラスタのラベルを選ぶ
- 依存性を2乗相互情報量(SMI)で測る

* DMSS/LLLL Invited Talk 2: Computation over Topological Spaces via Streams with a Bottom [#a689ca74]
Hideki Tsuiki

- Type2マシン:入力に0/1以外にボトム記号があるチューリングマシン.ボトムを読むと止まる
- IM2マシン:入出力のヘッドが二つ以上あり,Type2マシンなどで表現できない有限精度実数などが扱える
- 有限精度実数を表現するためにGrayコードを使うが,IM2マシンでないと受理できない

* DMSS/LLLL Invited Talk 3: Kernel-based Similarity Search in Massive Graph Databases with Wavelet [#s731fef3]
Yasuo Tabei

- グラフ類似度検索 (graph similarity search):クエリに類似したグラフを見つける
-- DB中のグラフは2万ほどあるので大変
- グラフを BoW 表現に変換して検索
- BoW表現:Weisfeiler-Lehman法では,ノードとその隣接ノードを一定の方法で変換し,各ノードを一つの語のように変換
-- コサイン距離や,共通の語彙の共通数などで類似度検索
-- 転置インデックスでは,同じ語を含んでいたり,索引語が多すぎたりでいろいろ非効率的
- 提案手法:Wavelet木を用いてメモリ効率的な木構造探索ができるようにする

* DMSS: Session 4 [#cad418d8]

** Agent-Based Convex Skyline Set Query for Cloud Computing Environment [#pf29010a]
Yasuhiko Morimoto (Hiroshima Univ.), Mohammad Anisuzzaman Siddique (Univ. of Rajshahi), Mohammad Shamsul Arefin* (Hiroshima Univ.)

- 二つの評価値指標があるとき,両方の評価で負けているものは意味がないので,一方でも意味のあるような事例の集合がスカイライン
- これを分散環境で探す.子サーバにある法線方向で一番端にある点を見つけるクエリを実装することで,全サーバを集めたデータに対するするスカイラインを計算する方法の提案

** Predicting Growth Fluctuation in Network Economy [#jffa7305]
Yoshiharu Maeno (NEC Corporation)

- 賃借関係に依存した連鎖倒産のリスク → 賃借関係のリンクを考慮した企業価値のモデル化
- 現在の企業価値とリンクした企業の現在価値に依存した企業価値の変動を確率微分方程式で表す

** Importance-Weighted Least-Squares Probabilistic Classifier for Covariate Shift Adaptation with Application to Human Activity Recognition [#ff980999]

Hirotaka Hachiya*, Masashi Sugiyama (Tokyo Institute of Technology), Naonori Ueda (NTT Communication Science Laboratories)

- 3次元の加速度計を人間が持ったときの時系列データ
- 別の利用者の予測に活用するため共変量シフトをする
-- 予測の確信度も考慮すると精度を改善できた

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS