このページはしましまが The International Workshop on Data-Mining and Statistical Science (DMSS2006) に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.
Jan Poland
Baysian consistency: 生じないことを取り除いたときには,残りは無矛盾 (?)
三つのベイズ推定:周辺化,MAP(最大値),確率的選択(分布に従ってサンプリング)
Michael E. Houle
Michael E. Houle
類似度などが与えられない場合に,データ点であるクエリへの適合性で順位付けしたデータ点のリストを基にクラスタリング. 集合の相関によって,クラスタのまとまりなどを定義.(?)
Nataliya Lamonova, Yuzuru Tanaka
類似度の値に上限があるような工夫して頑健化したファジィc-means.
Tetsuji Kuboyama, Hisashi Kashima, F. Aoki-Kinoshita, Kouichi Hirata, Hiroshi Yasuda
木の類似度:最大共通パターン,共通パターンの頻度.後者のタイプで,高表現力かつ,高速なカーネルの提案.Tree q-gram を利用するのがミソ.
Kouki Yonezawa
P2P環境上の信頼ネットワークに,新たなエージェントが加わったときに,ネットワークを効率的に更新する方法.
Takuya Kida, Takashi Uemura, Hiroki Arimura
Suffix Treeを,長さに制限を設けることで,高速でメモリ効率のよいものにする.
Yusuke Izumi, Yoshitaka Kameya, Taisuke Sato
確率的論理言語PRISMの並列化.EMの計算を並列化.マスタープロセスから,スレーブに仕事を割り振るタイプ.
Sato Tadahiko, Higuchi Tomoyuki
新製品が導入されたことによる,既存製品間の競合関係の売上や価格付けの変化を調べる.解析には状態空間モデルを使う.新たな製品に対応するパラメータは適宜事前分布を与えることで扱う.
Kumiko Nishi, Ichiro Takeuchi
保険料の推定では,分布の歪みが大きく,頻度の少ない部分での推定が必要になる点が難しい.条件付期待値関数を,条件付の分位点関数と,差分項に分け,それぞれを回帰木で求める.第1項は安定的に推定でき,第2項も特殊な場合なのでうまく推定できる.
Hisashi Kashima (IBM, TRL, contacting)
データがリンクで結合したネットワークデータ.各データは特徴ベクトルで表現. linkマイニングの分類
部分的にリンクのある/なしが教師信号として与えられる. このとき,他の教師信号のないノード間にリンクがあるかどうかを予測. リンクは,互いに独立に生成されると仮定.
予測は,ノードの特徴と,リンクの構造に基づいて予測:
ノードの特徴に基づく場合
リンク構造に基づく場合
Shuji Kijima (Univ. Tokyo, Dept. of Math. Informatics), Tomomi Matsui
MCMCの適用例
定常分布の設計
perfect sampler (完璧サンプリング)
Tomonobu Ozaki, Takenao Ohkawa
同じノード構成の木で極大なものを飽和木(?),しきい値以上に頻出するものを頻出木といい,頻出部分順序木を見つける.
Yusaku Nakamura, Tetsuya Maita, Hiroshi Sakamoto
有向非循環グラフ上で,あるノードから,有向辺をたどってあるノードへ到達できるかどうかを検証.深さが定数の場合に,事前にメモリがO(n^2),計算量がO(n).到達判定は時間はO(1),メモリはO(n).
Koichiro Doi, Jun Onuma, Akihiro Yamamoto
反単一化:論理の考えで,共通の部分はそのまま,違うところを変数で置き換える.
12:00-13:10 Lunch Tuesday, Afternoon, Room C 13:10 - 14:30 Session C2 (Tuesday Afternoon, Room C) Mining Rules and Models 1
Toshihiro Kamishima, Shotaro Akaho
質問
Tsukasa Ishigaki, Tomoyuki Higuchi, Kajiro Watanabe
ガスボンベの検査結果の時系列データから劣化しているかどうかを判定する. 時系列の周波数データを特徴とし,KLカーネルを用いたSVMで判別する.
Takashi Katoh, Kouichi Hirata, Masateru Harao
系列マイニング [Mannila 97]:各時刻でいくつかのシンボルが観測される.ある時間ウィンドウ内で,一定の順序で発生するシンボルの系列で,一定頻度以上のものを見つけ蹴る.
従来は,並列エピソードと直列エピソード,およびこれらの組み合わせのDAGエピソードがあったが,新たな形式として扇状エピソードの抽出を行う.
Manabu Ohno, Tomoyuki Tarumi
Cを考慮しないとAとBは独立だが,Cを加えると結合確率分布が独立でなくなるような変数Cを健在変数(exposure variable)という.
独立な変数の集合をApriori型の探索手法を用いて探索する.x1,x2,x3が独立なら,x1とx2,x2とx3,x3とx1は独立.独立性の判定にはAICを用いるが,この指標だとこういった単調性は成立しないが,多くの場合はOKと考えて使う.
独立な集合にくっつけて,独立でなくなったら,その変数は顕示変数.
Ryuiti Koike, Naoshi Nakaya, Yuuji Koui
コンピュータウイルスの蔓延:大量の亜種のため,パターンマッチングによる検出が難しくなっている.また,シグネチャを使うパターンマッチング手法では,未知のウイルスに対応できない.
Bayesian Virus Filter: バイナリファイルをstringsコマンドで表示した結果が特徴.動的ライブラリ,メッセージ,printfパターンなどが分かる.
Graham Bayes: ウイルス中で高頻度に生じる文字列パターンを見つける.それらの確率が高いもの15個をとりだし,それらの確率から得られるスコアがしきい値以上ならウイルスと判定.
Masahiro Ehara, Michio Ito
自治体の電子会議室の問題の特徴:話題の散らばりが大きい,参加者の投稿時間がまちまちなので議論が長引く,参加者の知識や関わりの散らばりが大きい,知識の再利用の困難さ
議論の構造化モデルIBIS(Issue-Based Informaiton system):Topic - Issue - Position - Argumentsの4階層の議論の枠を作り,参加者は自身のpositionを明示しながら議論を進行する.
Ryota Suzuki, Tatsuhiro Nagai, Tomoya Taniguchi
http://www.ef-prime.com/natto/
ノードを変数とし,辺は変数間のassociation (その強さをuncerainty coefficientで測る) であるようなグラフで可視化.変数間の関連を探索的に調べる.
Shin-ichi Minato, Hiroki Arimura
頻出パターンマイニング:検出結果の効率的な保存と,結果の解析について.
BDD(binary decision tree)という二進木をコンパクトに格納できる構造.Zero-suppressed BDDというものを提案し利用する.頻出アイテムと,その頻度を二進表記し,その二進表記の各ビットをごとに,そのビットが1になる頻出アイテム集合を記述.