しましま/DMSM007

第7回人工知能学会データマイニングと統計数理研究会(SIG-DMSM)†

このページはしましまが人工知能学会第7回データマイニングと統計数理研究会に参加してとったメモです．私の主観や勘違いが含まれていたり，私が全く分かってなかったりしていますので，その点を注意してご覧ください．誤りがあれば，指摘してください．

○松井秀往・田中利幸(京都大学大学院情報学研究科)

近似するモデルが大きくなっても，期待値伝播法では必ずしも推定精度が一般的には上がるとは限らない．

○Jun-ichi Moribe, Kohei Hatano, Eiji Takimoto, Masayuki Takeda (九州大学システム情報科学府)

bipartite ranking問題
- 正例と負例の集合から，正例であるほどより大きな値になる関数を見つけたい．
- この関数順で対象をソートして，上位のものから正例，ROC曲線が良くなるようにしたい．
この問題を解く目的で，RankBoostを改良したSoftRankBoostの提案

○川崎能典(統計数理研究所)

単独の商品だと動きは予測できない → スプレッド：複数の商品を組み合わせて定常状態をもつように組み合わせる
- Unit Root Test や Cointegration Test などで定常性を検証する
スプレッドは平均に回帰するという前提．
- contrarian (分布のはじでポジションを組む)，momentum (平均のあたりでポジションを組む)

土屋高宏(城西大学理学部), ○中村永友(札幌学院大学経済学部)

バケットソート：決められた場所に，ソート対象をおくことで決まる．
- 決められた場所を削減できる工夫 → この削減は対象のもともとの順序に依存している．
- このとき省略できる場所の分布を調べる → パスカルの三角形風に計算できる Eulerian numbers になっている

○島村徹平・井元清哉・宮野　悟(東京大学医科学研究所)

時刻 t と t-1 の遺伝子の発現の変化を1次のモデル
- L1 正則化導入して，この1次モデルのパラメータを推定する
- L1正則化は高速に計算できる利点があるが，変数間に相関があると不要な特徴を取り込むことがある．
不要な変数は取り除くが，相関のある特徴グループから2個ぐらいは選ばれるようにする → L2正則化項も加えたりとか，正則化項に工夫をする．

司会南(北大)、樋口知之(統数研)、神嶌敏弘(産総研)

○北原洋一，櫻井茂明，植野研，折原良平(株式会社東芝研究開発センター)

SPAM http://himalaya-tools.sourceforge.net/Spam
- PrefixSpan を，入力をbit列に変換することで高速化したもの
- 飽和パターンなどで問題を生じることがあるので，PrefixSpanの改良をする
PrefixSpan の改良
- パターンの長さを増やすときに，それぞれの種類の文字が最初に見つかるところだけを探索すればよいが，全部探索のは無駄．
- 系列索引と呼ぶインデックス

○佐藤一誠，吉田稔，中川裕志(東京大学)

○猪口明博，鷲尾隆 (大阪大学産業科学研究所)

AprioriAllやPrefixSpanが扱うようなアイテム集合の系列で，アイテム集合をグラフに置き換えたグラフ系列からの頻出マイニング
- これを行うために，まず，グラフ系列の簡潔な表現を考える．
- 前のグラフとの編集操作だけで記述することで圧縮する
- 編集操作が冗長にならないように，適用できる編集操作の制約について考察．
- ノードが一意なIDを持つので編集操作は線形時間で計算可能
隣接するグラフの編集操作系列に包含関係を考え，系列パターン問題を定義
- PrefixSpanのような深さ優先型の探索