International Workshop on Data-Mining and Statistical Science (DMSS2006)

このページはしましまThe International Workshop on Data-Mining and Statistical Science (DMSS2006) に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.

General Consistency Theorems for Proper Discrete Bayesian Learning

Jan Poland

Baysian consistency: 生じないことを取り除いたときには,残りは無矛盾 (?)

三つのベイズ推定:周辺化,MAP(最大値),確率的選択(分布に従ってサンプリング)

Clustering Without Data: the Relevant-Set Correlation Model

Michael E. Houle

Clustering Without Data: the GreedyRSC Heuristic

Michael E. Houle

類似度などが与えられない場合に,データ点であるクエリへの適合性で順位付けしたデータ点のリストを基にクラスタリング. 集合の相関によって,クラスタのまとまりなどを定義.(?)

A Probabilistic Fuzzy Clustering Algorithm with Application to Web Document Collections

Nataliya Lamonova, Yuzuru Tanaka

類似度の値に上限があるような工夫して頑健化したファジィc-means.

A Spectrum Tree Kernel

Tetsuji Kuboyama, Hisashi Kashima, F. Aoki-Kinoshita, Kouichi Hirata, Hiroshi Yasuda

木の類似度:最大共通パターン,共通パターンの頻度.後者のタイプで,高表現力かつ,高速なカーネルの提案.Tree q-gram を利用するのがミソ.

On Designing Trust Calculation Algorithms on P2P Networks with Turnover

Kouki Yonezawa

P2P環境上の信頼ネットワークに,新たなエージェントが加わったときに,ネットワークを効率的に更新する方法.

Online Construction of Truncated Suffix Tree with Word Count Limitation

Takuya Kida, Takashi Uemura, Hiroki Arimura

Suffix Treeを,長さに制限を設けることで,高速でメモリ効率のよいものにする.

Parallel EM Learning for Symbolic-Statistical Models

Yusuke Izumi, Yoshitaka Kameya, Taisuke Sato

確率的論理言語PRISMの並列化.EMの計算を並列化.マスタープロセスから,スレーブに仕事を割り振るタイプ.

A Knowledge Discovery from POS Data using State Space Models: An Analysis of Change in Price Elasticities by New Product’s Entry to Market

Sato Tadahiko, Higuchi Tomoyuki

新製品が導入されたことによる,既存製品間の競合関係の売上や価格付けの変化を調べる.解析には状態空間モデルを使う.新たな製品に対応するパラメータは適宜事前分布を与えることで扱う.

Casualty Insurance Pure Premium Estimation Using Two-Stage Regression Tree

Kumiko Nishi, Ichiro Takeuchi

保険料の推定では,分布の歪みが大きく,頻度の少ない部分での推定が必要になる点が難しい.条件付期待値関数を,条件付の分位点関数と,差分項に分け,それぞれを回帰木で求める.第1項は安定的に推定でき,第2項も特殊な場合なのでうまく推定できる.

Invited Talk: Methods for Network Structure Prediction

Hisashi Kashima (IBM, TRL, contacting)

データがリンクで結合したネットワークデータ.各データは特徴ベクトルで表現. linkマイニングの分類

  • node related: node ranking, classification, clusteirng
  • struture related: link-prediction structured-pattern mining

部分的にリンクのある/なしが教師信号として与えられる. このとき,他の教師信号のないノード間にリンクがあるかどうかを予測. リンクは,互いに独立に生成されると仮定.

予測は,ノードの特徴と,リンクの構造に基づいて予測:

ノードの特徴に基づく場合

  • 両端のノードの特徴ベクトルのテンソル積をとって,一つの特徴ベクトルにまとめる.
  • この特徴ベクトルから,リンクのある/なし をクラス分類問題として解く.

リンク構造に基づく場合

  • 特徴:(重み付)共通の近隣,長距離共通近隣(近隣までのパス長を考慮),preferential attachment(近傍の多いノードはノードを集め易い)
  • 手順:1) ネットの停留状態を求める,2) 停留状態にあてはめて予測をする
  • 停留状態の推定
    • 停留状態は,その状態にいたるまでの過程が示されていないので求められないので,期待停留状態を求める.この期待停留状態を現在のネットワークと仮定.
    • 生成過程をKleinbergのcopy&pasteモデルとして,現状が停留状態になる可能性を最大化するようにパラメータを学習する

Invited Talk: Random Sampling via Markov Chain

Shuji Kijima (Univ. Tokyo, Dept. of Math. Informatics), Tomomi Matsui

MCMCの適用例

  • 一致表の周辺和だけが与えられたときに,それらを満たすような要素に比例する分布でサンプリング

定常分布の設計

  • π=P π を満たす分布を定常分布という
  • 詳細均衡式:f(x) P(x,y)=f(y)P(y,x)を満たす非負関数があるとき,π(x)はf(x)に比例

perfect sampler (完璧サンプリング)

Discovering Constrained Frequent Closed Ordered Subtrees

Tomonobu Ozaki, Takenao Ohkawa

同じノード構成の木で極大なものを飽和木(?),しきい値以上に頻出するものを頻出木といい,頻出部分順序木を見つける.

Fast Reachability Test on DAGs for XML

Yusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto

有向非循環グラフ上で,あるノードから,有向辺をたどってあるノードへ到達できるかどうかを検証.深さが定数の場合に,事前にメモリがO(n^2),計算量がO(n).到達判定は時間はO(1),メモリはO(n).

Anti-unifcation of Semi-structured Documents Compressed with Tree Grammars

Koichiro Doi, Jun Onuma, Akihiro Yamamoto

反単一化:論理の考えで,共通の部分はそのまま,違うところを変数で置き換える.

12:00-13:10 Lunch Tuesday, Afternoon, Room C 13:10 - 14:30 Session C2 (Tuesday Afternoon, Room C) Mining Rules and Models 1

Nantonac Collaborative Filtering --- Recommendation Based on Multiple Order Responses

Toshihiro Kamishima, Shotaro Akaho

質問

  • 実際のシステムを作ったか?
    サーベイデータを使った.
  • すでに持っているものばかりを推薦されないようにするには?
    持っていることのデータを入力する手段がないと対処できない.
  • 分割した嗜好データ間の不整合は?
    好きなものはより高頻度で上位になるのでそれほど問題にならないと思う
  • 好きなパターンに加えて嫌いなパターンも似ているという仮定は妥当か?
    近傍をとれば,近いものだけが考慮される.全部考慮しても実験的には精度の低下はない.

Incipient Fault Diagnosis of Pressure Regulator for High Pressure Gas by Using SVM with the Kullback-Leibler Kernel

Tsukasa Ishigaki, Tomoyuki Higuchi, Kajiro Watanabe

ガスボンベの検査結果の時系列データから劣化しているかどうかを判定する. 時系列の周波数データを特徴とし,KLカーネルを用いたSVMで判別する.

Mining Sectorial Episodes from Bacterial Culture Data

Takashi Katoh, Kouichi Hirata, Masateru Harao

系列マイニング [Mannila 97]:各時刻でいくつかのシンボルが観測される.ある時間ウィンドウ内で,一定の順序で発生するシンボルの系列で,一定頻度以上のものを見つけ蹴る.

従来は,並列エピソードと直列エピソード,およびこれらの組み合わせのDAGエピソードがあったが,新たな形式として扇状エピソードの抽出を行う.

Efficient Variable Selection Method for Exposure Variables on Binary Data

Manabu Ohno, Tomoyuki Tarumi

Cを考慮しないとAとBは独立だが,Cを加えると結合確率分布が独立でなくなるような変数Cを健在変数(exposure variable)という.

独立な変数の集合をApriori型の探索手法を用いて探索する.x1,x2,x3が独立なら,x1とx2,x2とx3,x3とx1は独立.独立性の判定にはAICを用いるが,この指標だとこういった単調性は成立しないが,多くの場合はOKと考えて使う.

独立な集合にくっつけて,独立でなくなったら,その変数は顕示変数.

Filter for Detecting Unknown Computer Viruses Using Graham Bayes Learning Algorithm for Spam Detection

Ryuiti Koike, Naoshi Nakaya, Yuuji Koui

コンピュータウイルスの蔓延:大量の亜種のため,パターンマッチングによる検出が難しくなっている.また,シグネチャを使うパターンマッチング手法では,未知のウイルスに対応できない.

Bayesian Virus Filter: バイナリファイルをstringsコマンドで表示した結果が特徴.動的ライブラリ,メッセージ,printfパターンなどが分かる.

Graham Bayes: ウイルス中で高頻度に生じる文字列パターンを見つける.それらの確率が高いもの15個をとりだし,それらの確率から得られるスコアがしきい値以上ならウイルスと判定.

Design of discussion information sharing system between Municipalities

Masahiro Ehara, Michio Ito

自治体の電子会議室の問題の特徴:話題の散らばりが大きい,参加者の投稿時間がまちまちなので議論が長引く,参加者の知識や関わりの散らばりが大きい,知識の再利用の困難さ

議論の構造化モデルIBIS(Issue-Based Informaiton system):Topic - Issue - Position - Argumentsの4階層の議論の枠を作り,参加者は自身のpositionを明示しながら議論を進行する.

Natto: A Tool for Exploratory Data Analysis with Information Theoretic Approach

Ryota Suzuki, Tatsuhiro Nagai, Tomoya Taniguchi

http://www.ef-prime.com/natto/

ノードを変数とし,辺は変数間のassociation (その強さをuncerainty coefficientで測る) であるようなグラフで可視化.変数間の関連を探索的に調べる.

Frequent Closed Item Set Mining Based on Zero-suppressed BDDs

Shin-ichi Minato, Hiroki Arimura

頻出パターンマイニング:検出結果の効率的な保存と,結果の解析について.

BDD(binary decision tree)という二進木をコンパクトに格納できる構造.Zero-suppressed BDDというものを提案し利用する.頻出アイテムと,その頻度を二進表記し,その二進表記の各ビットをごとに,そのビットが1になる頻出アイテム集合を記述.


トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:15 (2492d)