しましま/IBISML001 の変更点 - 機械学習の「朱鷺の杜Wiki」

追加された行はこの色です。
削除された行はこの色です。
しましま/IBISML001 へ行く。
#freeze
* 第1回電子情報通信学会 情報論的学習理論と機械学習研究会 / 第1回 Latent Dynamicsワークショップ [#w54bcbea]

このページはしましまが[[第1回電子情報通信学会 情報論的学習理論と機械学習研究会 + 第1回 Latent Dynamicsワークショップ>IBISML#IBISML001]] に参加してとったメモです．私の主観や勘違いが含まれていたり，私が全く分かってなかったりしていますので，その点を注意してご覧ください．誤りがあれば，指摘してください．

- [[IBISML 1日目>#DAY1]]
- [[IBISML 2日目>#DAY2]]
- [[LDワークショップ>#LDW]]

* &aname(DAY1);6月14日（月） [#a5d53a7e]

* 特別セッション1 [#pac4b8d4]

** 招待講演：複合ソート法による高速な全ペア類似度検索 [#y736cebe]
津田 宏治

全ペア類似度検索
- ε近傍内の点を列挙する．全ペアを計算すると O(n^2)

ハミング距離の場合
- 複合ソート法：基数ソートを再帰的につかって O(n+m)，n 文字列数，m はε内の文字列最大数，lは文字列超
-- ソートすると同値類がまとまる，基数ソートは O(n) でできるところがミソ
- 複合ソート (マスク)
-- d 個の文字を全通り選んでマスクし，Comb(l,d) 回基数ソートする
- ブロックマスク (ブロックマスク)
-- 全体を k 個のブロックに分割して，基数ソートをする
-- false positive が出るので，あとでちゃんと距離を計算
-- 重複要素を取り除いてメモリを節約する工夫も

コサイン距離
- LSH を二値の文字列に変換
--LSH：類似したベクトルは類似した文字列になる．符号付きランダム射影
- D次元のベクトルを長さ l の 0/1 文字列に
- N(0,1) からのサンプルで D×l の行列で射影すると，射影後のハミング距離が，射影前のコサイン距離の近似になる
- 単純ソート法
-- ソートしてウィンドウはば w でスキャン
- スケッチソート
-- 全体を Q 個のチャンクに分けて処理する．その他のフィルタリングもあり，全体で4段階のtrue falseを排除

k 近隣の計算
- 複合ソートを改造
-- 閾値で排除する代わりに，ベスト h の近傍を保持
-- このグラフで，隣の隣まで見て，上位 k 個を選ぶ

編集距離の場合も

- コード： http://code.google.com/p/sketchsort/

** 招待講演：変数間因果関係に 関するリレーショナルデータマイニングへの取り組み [#adefeb3e]
鷲尾 隆

グラフマイニング
- グラフの集合から，一定頻度以上存在する，部分グラフを見つける
-- 多頻度で，ノード一つ以外は共通な二つのグラフから，1サイズ大きなグラフを見つけることで効率化
-- http://hms.liacs.nl/ gSpan, Gaston 近年の高速アルゴリズム
-- 猪口の初期のアルゴリズム AGM, PKDD2000
- 遺伝子ネットの部分関係を探したら小さな断片程度は見つかったが，大きな部分グラフは見つけられなかった

非ガウス性に基づく変数間依存性マイニング
- 同時分布をベイジアンネット型の有向非循環グラフに分解
- ガウス性を仮定すると，相関で関係の有無は分かるが，依存性の向きは分からない
- 非ガウスのノイズを考えると依存性の向きが分かるようになる
-- 残差の小さな向きを選ぶ

テンソル分解によるランキング予測
- タグ×アイテム×利用者タグ予測モデルを作る
- 利用者×アイテムごとに，タグの対の相対嗜好を求める
- タグの対の順序関係をまとめるて，全体の嗜好順序の状況を求める
- 嗜好の強さはテンソル分解で求める

リレーショナルデータマイニング
- RDBからjoinせずに分析

* 特別セッション2 [#b1dfdacd]

** 招待講演：代数幾何と学習理論への入門と新展開 [#c720d671]
渡辺 澄夫

学習理論
- 混合分布やグラフィカルモデルのような構造のあるモデル → 正則モデルではない
- データから生成モデルを考えると，もっともらしいものが複数ある．
-- 生成モデルを，パラメータ空間中で考える代数
-- 複雑さのちがう入れ子構造で，特異点をもつようなモデル構造
- q(x): 情報源，p(x|w):モデル
- 正則モデル：事後分布は一点を中心に散らばる
- 非正則モデル：事後分布は複雑なちらばり

主定理
- q(x)=p(x|w0) をみたす w0 があるとき，実現可能
- 主定理1
-- 正則または，実現可能であるとする
-- (q,p,φ)から決まる定数λと自然数mが存在して確率的コンプレクシティの漸近挙動は
 Ｆ＝n β Ln + λ log(n) - (m-1) log Log(n) + Op(1)
-- 正則または実現可能とする
-- (q,p,φ)から決まる定数λと ν が存在して
 E[G]＝L0 + {(λ-ν)/β + ν} / n + o(1/n)
 E[T]＝L0 + {(λ-ν)/β - ν} / n + o(1/n)
 E[V]＝2 ν β + o(1)

** 招待講演：大規模文字列解 析の理論と実践 [#m90a9448]
岡野原 大輔

- 文字列データ：2000年 10^6単語 → 2010年 10^10〜10^12単語
- レジスタ・キャッシュ・メモリ・ディスクのうち，できるだけ高速なものに納めるのが高速化のカギ
- 全部分文字列の統計量：出現頻度，重み付き出現頻度
-- O(n) 文書長に比例,n log_2 σ bit で計算可能
- Rank辞書：プレフィックス中に指定したbit列が存在する個数
- WaveletTree：bit列でなくてもOK，O(log σ)時間
-- 文字集合ごとに分割してゆき，分割を表すbit列を考える

文字列データのための構造
- 代表的な索引：FM-index, SA, ST
- SA: Suffix Array
-- 接尾辞を求めて，ソートして，その位置を記録しておく
-- あとは2分探索すれば，個数が見つかる
-- http://sites.google.com
- Burrows Wheeler変換 (BWT)
-- SAの各プレフィックスの前の文字を記録したものをB
-- B 中に文字が現れる順序は，SAの先頭文字として現れる文字の順序と同じ：LF-mapping
-- この性質で，B からSAが復元できる

文書集合の統計量
- 文書を特殊文字を間にはさんで全部つないだ文字列を作る
-- あとはこれについて接尾辞木を作れば，部分文字列の数でOK

機械学習応用
- 文書分類：部分文字列頻度を素性として使える → ロジスティック回帰
-- 対数尤度の勾配が重み付きの頻度で表せるので，効率的に計算可能
- 言語モデル
-- Sequene Memoizer：無限長を扱える階層Pitman-Yor過程

* 一般講演（学習の理論） [#b1ed516d]

** 2次損失サポートベクトルマシンの非線形正則化パスに関する一考察 [#m7a2ec0a]
○烏山 昌幸・竹内 一郎（名工大）

- 2次損失の場合に，SVMの正則化パスを追跡する手法について
- 正則化パラメータ λ が変化したときに，他のパラメータ α がどう変化するかを，目的関数を最適化することなく追う．
- ヒンジ損失では直線の変化点を見つける方法が一般的 → パスが非線形な2次損失には使えない
- Huber型の2次損失
- あるλ0で解が分かっているときにλを減らす → 非線形最適化をすると計算大変
- 有理近似：近似式の交点を逐次的に求める

** 階層Pitman-Yorトピックモデル [#xb452470]
○佐藤 一誠・中川 裕志（東大）

- LDAのレストラン表現：トピック分布でテーブルを作り，そのテーブルのメニューを語分布で決める
-- 一人一つのテーブル
- Pitman-Yor過程のレストラン表現：すでにテーブルに着いている人が多いテーブルに新しい客はつきやすい．新規テーブルを作ったときにのみ，新たにメニューを生成する．

** 直交化と閾値化に基づくノンパラメトリック回帰の方法について [#idf10755]
○萩原 克幸（三重大）

- 基底を直交化する行列が存在するとして，その基底で当てはめをする．
- 推定後にしきい値よりちいさければ 0 にする処理をしてから，元の空間に戻す
-- このしきい値処理によってノイズ除去ができる (?)

* 一般講演（モデルとデータの統合） [#h28c8d30]

** オンライン予測におけるプライバシ保護 [#a910dceb]
○佐久間 淳・荒井ひろみ（筑波大）

- エキスパートがそれぞれ予測してそれを凝集して予測する
- 一番予測精度がよいエキスパートの予測を基準としたregretの最小化
- エキスパートの予測が当たる確率に対して指数的な確率分布を変えて，エキスパートを選択する
- この選択を秘密に計算できる oblivious roulette を使う

** 階層ベイズモデルによる協調フィルタリング [#d3cacf1c]
○麻生 英樹（産総研）

- Netflix型 μ + a_i + b_j の予測モデルを階層ベイズにした．
-- 利用者効果 a_i，アイテム効果 b_j
- さらにコンテキストを表す c_k を足した実験も

** カスタム価格設定推薦システム 〜簡単な実装と予備実験〜 [#a8a3f1f6]
○神嶌 敏弘・赤穂 昭太郎（産総研）・佐久間 淳（筑波大）

質問
- 運用するときには，系の安定性やモジュール化が大切
- ダイナミックなシステムでないとダメ
- 最低の割引提示保障

** 生存時間研究における調整型ランダムフォーレスト法 [#zc0f71fd]
○下川 敏雄（山梨大）・辻 光宏（関西大）

- 死亡までの生存時間曲線の予測をRFで行う
-- データ取得期間が限られているので，期間中に死亡しない場合がある → censoring

** 影響伝播モデルIDMによる多面的データマイニング [#f006fc39]
○松村 真宏（阪大）

- 影響伝播モデル (IDM)：ネットワークの伝播に関わる情報のモデル化
-- Twitter を対象に，スマートフォンに関した話題を分析

* &aname(DAY2);6月15日（火） [#n9bb94a8]

* 特別セッション3 [#xbd1afe0]

* 招待講演：ノンパラメトリッ クベイズに基づく統計的機械学習 [#k710dca1]
牧野 貴樹

- ベイジアン確率論：「確からしさ」を確率で表現
-- 宇宙人がいるかどうかは頻度主義的には表せない
- 過学習
-- 頻度主義：モデル選択がまずい
-- ベイジアン：尤度だけを考えているのがまずい → 事後確率を考えよう
- 予測分布：p(x|D)＝∫p(x|θ) p(θ|D) dθ
-- 予測の不確かさが分布から得られる
-- パラメータ空間の座標の取り方に依存しない

ベイズHMM
- 遷移確率に，Dirichlet分布を事前分布にしたもの
- 観測数が増えると，確率分布が集中してくる → 予測の不確かさ減る
- Dirichlet分布：αが小さいと特定の値が出やすく，αが大きいと均等に出やすくなる
- ベイズHMM：隠れ変数 S がある
-- p(S|θ,D) と p(θ|S,D) を交互に求める
-- 変分ベイズ：分布の形状を変分近似する．比較的高速だが，近似誤差がある．
-- マルコフ連鎖モンテカルロ：サンプリングで分布を推定．サンプル数を増やせば誤差は減るが，遅くなる
- 周辺Gibbsサンプラー：隠れ状態一つに注目し，他の状態を固定して予測することを繰り返す

ノンパラメトリックベイズ
- 複数のパラメータ空間に対する事前分布を導入
- Dirichlet過程：Dirichlet分布を無限次元に拡張したもの
-- パラメータ：α→∞で，DP(α,G0)→G0，α→0+ で限られた種類の値がでやすく疎になる
-- 基底測度 G0 は，実数とか，アルファベット列とかいろいろ設計できる
- 棒折り過程：分布 G0 を明示的にサンプリング
-- 確率に相当する長さに「棒を折って」，それに G0 からサンプリングした値を割り当て
- 中華料理店過程：G0 を計算せず，多項分布の予測分布を求める
-- 客＝確率変数，料理＝確率変数に割り当てられた値，テーブル＝客と皿の組み合わせ方
- 無限混合正規分布：それぞれの料理が μ と σ で表される正規分布
-- 周辺MCMC：データを一つ取り外しては，周囲のデータに依存した分布で元に戻すことを繰り返せば，分布が計算できる

無限状態HMM（ノンパラベイズHMM）
- 単純にDirichlet過程を事前分布にすると，常に未知の空間からサンプリングしてしまう．同じパラメータはほとんど出ないから
- 階層Dirichlet過程：最初に DP からサンプリングして，出てきた分布を次段のDPの測度にする
- iHMMの学習：変分ベイズ(Beal 2003)，Blocked Gibbsサンプラー(Teh+ 2006)，周辺Gibbsサンプラー（Makino+ 2009)

* 招待講演：超多重検定によっ て分かること [#y1917a11]
大羽 成征

- 高次元システムを理解したい：脳のシステム，細胞の働き
-- 帰納的にいろいろ結果が得られた → 何か分かったことになるのか？ → 多重検定：仮説検証
- 多重検定：ノイズを含む有限データ + 仮説群 → 各帰無仮説の棄却可否とそのリスクの算出
-- 可知：観測 Y
-- 未知：真の過程 P∈MM
-- 所与：帰無仮説 H{i0}, i=1...N，検定統計量帰無分布第i統計量 zi＝zi(Y)∈Z
- p値：有意水準 α，p＜α ならば帰無仮説 H0 は棄却される
-- H0 の下では，p値は均一分布する
- Bonferroni補正：M個の全検定中に1個以上の擬陽性がふくまれる確率 → 厳しすぎる
- False discovery rate (FDR)：

経験ベイズ検定
- 帰無分布 と 対立分布の混合モデルを考える
- 最適判定関数(Optimal Discovery Procedure; ODP)の理論

* 招待講演：一般物体認識にお ける機械学習の利用 [#f8e955c3]
[[柳井 啓司>http://acc.cs.uec.ac.jp/yanai/index-j.html]]

- 物体認識，画像検索＝狭義の画像認識
-- 特徴抽出の革新：2004年，Bag-of-Keypoints,Bag-of-Visual-words
-- 学習データ収集の容易化：人間計算など
- 物体認識：画像中の物体を認識する技術・研究分野
- 特定物体認識：見た目が全く同じ物体を検出，剛体なら95%以上の認識率
-- 局所不変特徴量による特徴点マッチング
--- 特徴点検出をして，その周辺パターンから特徴をとる
-- Approximate Nearest Neighbor (ANN), LSH, Visual Words+転置行列 などによる大規模処理
- 一般物体認識
-- 一般的な実世界画像の認識，画像内容を言語(記号)で記述
-- BoF：特徴点の不変特徴ベクトルのベクトル量子化表現

2000年以降の一般物体認識の発展
- 局所特徴量による新しい画像表現の提案
- 機械学習の進歩
-- SVM, Booting, テキスト処理系(pLSA, LDA, HDP)，最近隣 など
- 大規模データ集合が入手可能
- 計算機の高速大容量化
- 顔画像認識：正方領域が顔かどうかを認識＝スライディング・ウィンドウ → 一定サイズの画像の識別器
-- 部分パターンの輝度の差に基づいた特徴量＝数10万の弱学習器＝boostingで数百程度に絞り込む
- 画像全体のカテゴリ分類＝他クラス分類，画像アノテーション＝マルチラベル問題
- 画像ラベリング：位置まで特定，物体検索：ウィンドウ探索，オブジェクト領域抽出：認識に加えて領域分割も
- シーンカテゴリ認識：場所の記述，時間・季節，緯度・経度など
- 一般物体認識の難しさ
-- 認識対象の多様性：同一種類でもバリエーションが多い，撮影条件が多様
-- 認識対象が多い：多クラス分類

- 食べ物画像をメールで送ると認識される
-- shokuji@mm.cs.uec.ac.jp
- Image Net：1123万枚の画像に人間計算でラベル付け
-- http://www.image-net.org/
- 大量画像がDBに揃う → 特に剛体はいろいろな方向からの画像が揃っている → 工業製品などは特定画像認識で処理できる？

* 招待講演：マルコフ連鎖モン テカルロ法の新展開 [#r26b389a]
[[福島 孝治>http://dbs.c.u-tokyo.ac.jp/~fukushima]]

マルコフ連鎖モンテカルロ
- 目的：大事尤度確率分布からのサンプリング・期待値評価，物理現象のシミュレーション
- 確率分布 P(X) から，点 X^(i) をサンプリング，期待値は (1/M) Σ A(X^(i))
- 分布の密なところから多数サンプリングする，どこが密かは分からないのでマルコフ連鎖で徐々に変化させる
- 実質的なエルゴード条件の破れ≒遅い緩和：局所部分にとどまり続ける
-- 多峰的な問題では，低密度部分を通りにくいとか，多数の局所安定部分がある
- 対策
-- 非局所的状態更新（クラスターアルゴリズム）：大きく動かす
-- 拡張アンサンブル法：マルチカノニカル法と交換モンテカルロ法

交換モンテカルロ法
- 拡張された確率分布関数：温度 βm を含む，複数の分布を掛け合わせた分布を考える
 P_eq({X};{β})＝Π^M P_eq(X_m, βm)
- レプリカ系：温度の異なる複数のサンプリング系列，隣の温度系列とときどき状態交換が起きる
-- 温度の高低の交換

マルチカノニカル法
- ギブス分布 exp(-β E(X)) の代わりに，状態密度 g(E) に反比例するようにマルコフ鎖を構成
-- 連鎖は1個でよいが，指数分布族に限られたり，g(E) の学習の難しさ
-- エネルギーの高低の交換

応用
- 数え上げ問題
-- 多次元ベクトルの集合のうち，条件を満たすものの数を数える
--- 非線形連立方程式の解の個数，制約充足問題（K-SAT，グラフ彩色など）
-- 確率分布の規格化定数を評価する問題に帰着できる

* 一般講演（物理現象と学習） [#f7722dc6]

** 交換モンテカルロ法による反射スペクトルにおける複合吸収帯の推定 [#i22ab37f]
○永田 賢二・杉田 精司・岡田 真人（東大）

- 光スペクトル解析：ピークを分析することで物質の化学組成を調べる
- RBFネットワークでスペクトルをモデル化 → ベイズ化
- 交換モンテカルロ法で自由エネルギーを計算

** データ変換による位相応答曲線の効率的推定 [#f6db5de3]
○中江 健（総研大）

- 位相応答曲線：同期するような振動子集団の，0〜πの位相に対する応答を求める

* 一般講演（強化学習） [#dfa824c1]

** 一般化TD学習 〜 セミパラメトリック統計からのTD学習お一般化 〜 [#y7efd4c4]
○植野 剛・前田 新一（京大）・川鍋 一晃（フランフォーファ）・石井 信（京大）

- 方策反復：方策を価値関数で評価と方策改善を繰り返す

** New Feature Selection Method for Reinforcement Learning -- Conditional Mutual Information Reveals Implicit State-Reward Dependency -- [#m67e471a]
○Hirotaka Hachiya・Masashi Sugiyama

- 状態を記述する特徴には報酬に関連したものと，そうでないものがある．
- 報酬の和と,特徴の集合の独立性を条件付き相互情報量で調べる
-- 特徴の集合の探索は欲張り法

* 一般講演 (構造学習・ベイジアンネット・確率推論) [#de1075c4]

** Dependence Minimizing Regression with Model Selection for Non-Linear Causal Inference under Non-Gaussian Noise [#gdd5a4b0]
○Makoto Yamada・Masashi Sugiyama（Tokyo Tech）

- 非線形・非ガウスノイズのモデル
- XからYを回帰しXと残差の独立性，逆にYからXを回帰しYと残差の独立性
-- 独立性の大きな向きを選ぶ
- 2乗損失相互情報量で独立性検定を行う．非線形回帰のモデル選択もできる．

** 命題論理に基づく確率モデルのための二部決定グラフと順序符号化を用いた効率的なEMアルゴリズム [#t7ea9fdd]
○石畠 正和・亀谷 由隆・佐藤 泰介（東工大）・湊 真一（北大）

- 論理と確率の融合：logic-based probabilistic model (LBPM)
-- 多値変数を2値の命題変数に変換するとき，単純に各値を一つの命題変数に変えるのではなく，値の間に順序を決めて，その順序を使った記述を考える
-- すると BDD を使って論理表を記述するとコンパクトに記述できるようになる

** 2重潜在クラスモデルとベイジアンネットを結合した小売サービスにおける顧客購買行動モデリング [#n7b89ad6]
○石垣 司・竹中 毅・本村陽一（産総研）

- 顧客や商品のセグメントの自動発見
-- pLSAの変形モデルを使った

* 一般講演（符号化・モデル選択） [#zd8f1c24]

** 逐次的動的モデル選択の線形時間アルゴリズム [#v0578803]
○櫻井 瑛一・山西 健司（東大）

- モデルが動的に変化する状況：複数のモデルがありと逐次的に推定
-- 単一のモデルを選択するのではなく，モデルの系列の記述長を作る
- DMS：データの記述長 + モデル系列の記述長 → 最小化
- 逐次的に推定できるようにウィンドウを利用する

** 符号化ダイバージェンスによる2つの集合の異なり具合の定量化 [#jeda9da2]
○杉山 麿人・山本 章博（京大）

- 符号化ダイバージェンス：二つのデータ集合間の異なり具合を測る
-- 空間を領域に分割してゆき，二つのデータが分離されるようにする．そのときの空間の記述長
-- サンプルと，正例・負例のどちらの符号化ダイバージェンスが小さいかで分類する

** 正規化最尤符号化に基づくグラフクラスタリング [#d63f44a3]
○平井 聡・冨岡 亮太・山西 健司（東大）

- グラフクラスタリングのクラスタ数決定：正規化最尤(NML)符号化 + MDL原理
- NML：-log[ 最尤推定量 / 正規化項] → 正規化項の計算が難しい → 単純ベイズ型なら容易に計算可能
- クラスタを示す潜在変数を導入．この潜在変数が与えられたとき，グラフの隣接関係が独立に生成される単純ベイズモデルを採用

** モデル・アルゴリズム選択によって起こる誤分類率へのバイアスと真の誤分類率の推定 [#hd004707]
○倉橋 一成 ・大橋 靖雄（東大）

- 交差確認による性能評価：アルゴリズム選択，変数選択，判別分析それぞれの段階でCVをするとかなり計算が大変

* &aname(LDW);6月16日（水） Latent Dynamics ワークショップ [#n32754a7]

* セッション1（潜在ダイナミクスのモデリング） [#l8bc04d3]

** Tracking Latent Dynamics ─ 潜在的構造変化検出の情報論的学習理論 [#b2a9485b]
山西健司（東京大学）

- 潜在変数の確率モデル：有限混合モデル
 P(X)＝Σ_Z P(X|Z) Pk(Z)
- Latent Dynamicsモデルの分類
-- 第1のLD：潜在変数の内容が変わる
-- 第2のLD：潜在変数を規定する世界の構造が変わる

潜在構造を扱うモデル
- 状態空間モデル
 zt＝F{z_t-1} + G{x_t}
 y_t＝H{z_t}
- 隠れマルコフモデルとノンパラメトリックベイズ
-- 状態が時変化するモデル
- レジームスイッチング [Hamilton 1994]
-- ARなどの時系列モデルが，時間によって変化
- 潜在空間の分布変動検出
-- 分布間の距離の変動を調べる [Hirose & Yamanishi]

潜在空間の構造的変化検出
- 応用：グラフの接続行列を時系列にしたテンソルなどを分析すると，グラフ構造の変化を捉えられる
- Switching分布
-- 変化点 t1...tm を含むような予測モデル
-- 変化点を潜在変数とし，それを周辺化した分布が観測される

Latent Dynamicsの推定
- 確率的コンプレクシティ：
 -log Σs P(x|s) P(s)≦min_s [ -log Σs P(x|s) - log P(s) ]
- MDL原理：データの符号長 -log Σs P(x|s) とモデルの符号長 -log P(s) の和を最小化
- 予測モデル：P(x_t|x{t-1})
-- plug-in分布：時刻 t-1 の最尤パラメータに基づいて x_t を予測
-- ベイズ予測分布：x{t-1} が与えられたときの x_t の事後分布
-- SNML分布：(?)
- 予測符号長が -log P(x|s) + (k/2) log(n) が成立しない → 直接予測分布の負の対数を扱う必要

動的モデル選択
- 隣のモデルに確立 α/2，同じモデルに (1-α) で遷移する
- DMS(Dynamic Model Selection)規準
 データ列の予測符号長 + Σ^n -log P_t(k_t|k^{t-1},^α)
-- バッチ型なら，O(n^2) の時間で計算できる．
-- 逐次型：若干の先読みを許してO(n)で計算できるが，上界は緩くなる
-- Resetting分布（モデルの変化点で予測分布をリセットする）を使うと，計算量はO(n^3) になるが，上限はもっともきつい
- モデルに変化がない場合を帰無仮説，モデルの変化がある場合を対立仮説とした検定

データマイニング応用
- syslog・なりすましログ の異常検出
-- 隠れマルコフの混合モデルで系列を表現 + 混合数が異なるモデル群
-- 混合数の変化で異常検出を行う
- コールセンターテキスト：混合数＝トピック数の変化を捉える

** 階層ベイズモデリングによる時系列からの再構成 [#ke21a16e]
石井信（京都大学）

遮蔽物を除去しながらのベイズ解像法
- 超解像：物理限界を超えた画像の生成
- マルチフレーム超解像：同じ場面をたくさんとった画像群から超解像画像を構成
- 超解像のベイズ問題：データ画像 D が与えられたときの原画像 x の事後確率を求める
-- 原画像の事前分布：ガウス，尤度：線形変換 + ガウス [Hardie+ 1997, Elad 1997]
- 画像中にエッジがある → カメラ位置については見えなくなる画素
-- 画素ごとに，見えてる・見えてないを示す潜在変数を持たせる → 潜在変数が多すぎてすなおにとけない
-- 衛生画像で雲で遮蔽される場合なども
- ノイズの分布に周囲との相関性を表す項を導入 → 見える範囲はかたまって存在
- 計算が難しいので変分ベイズで近似

ブラインド信号分離
- 混合信号を原信号を復元：
-- パラメトリック独立成分分析：原信号の独立性と合成の線形性 x＝A s + ε を仮定
- 原信号によって on/off は異なる
- Switching ICA：on/offを表す隠れ変数を導入
-- on/offに応じた混合モデルを仮定

ベイズフィルタによる脳における信念形成機構の解明
- 迷路の内部にいて，部分観測される問題．迷路の地図は知っている．
-- 迷路のどこにいるかを推定する課題
-- 脳のfMRI画像も撮る
- 行動パターンをHMMに基づく逐次推定モデルから，被験者の信念を推定
-- 信念の強さと相関のある活発に活動している脳の部位 → 前頭葉

** 非線形次元削減と動的システムの学習について [#f1ffede2]
矢入健久（東京大学）

動機
- 人工衛星のテレメトリ監視
- 次元削減によるロボット位置推定・地図作成
- どちらも動的システムで記述
-- モデルが分かっていれば：ベイジアンフィルタリングのスムージング
-- モデルが未知の場合を扱う：第1種のLD

機械学習分野の動向
- Switching Linear Dynamical System (SLDS)
-- LDSの混合モデルをEMで推定 [Ghahramani 98] [Pavlovic 01]
-- 入力なし，状態モデルのみのスイッチングが多い
-- 局所モデルの自動決定：Dirichlet過程を事前分布に導入
- 状態遷移・観測モデルをRBFネットで記述 [Roweis & Ghahramani 00]
-- 入力ありだが，小規模問題のみ
- Gaussian Process Dynamical Models [Wang 05]
-- 状態空間モデルのfとgをガウス過程で記述
-- GPIL [Turner 10]：疑似入力を用いて疎にすることで，全データを記憶する必要はなくなる
-- ロボット業界：Gp-Bayesfilter [Ko 09], GP-ADF[Deisenroth 09]
--- 入力あり，潜在状態が入手可能なのでちょっと違う問題
- Kernel Kalman Filter [Ralaivola 05]
-- カーネルによる非線形化，EMで学習
-- 特徴→観測空間への写像を別途学習しないといけない
-- Kernel部分空間同定法 [Kawahara 06]
- 多様体学習の確率モデル化
-- LELVM：Laplacan Eigenmap の確率化 [Lu NIPS07]
--- 状態遷移はランダムウォークでモデル化，入力なし
- Langfordの方法 {ICML2009]
-- 確率的な動的システムを非確率的な任意の回帰学習モデルで学習
-- 確率的状態 xt が，決定論的な変数 st に依存して決まるものとする
- 非定常Dynamic Bayesian Net [Robinson+ NIPS2008][Song NIPS2009]
-- 時変化のあるベイジアンネット
- 全般：非線形+入力なしモデル，次元削減+学習アルゴリズムに興味，離散・連続変数の区別のないモデル化

システム同定分野の動向
- 部分空間同定法
-- 入出力データが張る部分空間上における幾何学的演算により，データを生成する状態空間モデル，状態ベクトルを推定する方法
-- 非線形への拡張もちょっとある
- 全般：入力あり+線形，系の性質に興味がある，SVD・QRなどを使った推定

* セッション２（テキストの世界の潜在変数） [#n3ee5eee]

** 潜在トピックモデルを用いたデータマイニング [#d6a42acd]
岩田具治（NTTコミュニケーション科学基礎研究所）

トピックモデル
- 応用範囲：情報検索，可視化，画像認識，推薦
- BoW表現が対象
- 多項分布：単語が出る回数の分布
- 混合多項分布：
- トピック z を選択したのち，トピックごとの多項分布で語 w の頻度が決まる
 P(w)＝Σz P(z) Πn P(w_n|z)
- トピックモデル：複数のトピックが混合した文書もあつかえる
-- pLSA
 P(w)＝Πn^N Σz P(z|θ) P(w_n|z)
-- pLSAのベイズ版
 P(w)＝∫ P(θ) Πn^N Σz P(z|θ) P(w_n|z) dθ
- 周辺Gibbsサンプリング
-- 多項分布のパラメータ θ と φ を積分消去してGibbsサンプラー
 P(z_n=k|W,Z{＼n})＝(N{dk＼n} + α) [(N{kw_n＼n} + β) / (N{k＼n} + β V)]
- 拡張
-- 観測データの種類を増やす 著者[Rosen-Zvi+ 04] 時間[Wang+ 06]
-- トピックの性質：相関や階層構造

時間変化の導入
- 時間の導入：推薦モデルの場合
 P(i,u,t)＝Σz P(z|u,t) P(i|z,t)＝Σz φ{t,z,u} θ{t,z,i}
ユーザごとの興味とトピックの流行のモデル
- ベイズ拡張：LDAでは時間ダイナミクスがない
- Topic Tracking Model：時間変化を導入したLDA
-- 興味の事前分布が過去の興味に依存
 P(φ{t,u}|^φ{t-1,u},α{t,u})∝Πφ{t,u,z}^{α{t,u} ^φ{t-1,u,z} - 1}
-- 流行の分布も過去の興味に依存
- 確率的EMアルゴリズムを用いて推定

** Decoding in Latent Conditional Models: A Practically Fast Solution for a NP-hard Problem [#e342b570]
Xu Sun (東京大学)

潜在構造
- 木構造（構文木が潜在状態に依存），線形連鎖

Latent-dynamic conditional random fields
- CRF [Lafferty+ ICML01]
 P(y|x,θ)＝1/Z exp[Σk θk Fk(y,x)]
- LDCRF：y の間の無向グラフがなくなり，潜在変数が同時刻の x と y に依存，潜在変数同士は無向リンクで接続 [Morency+ CVPR07]
 P(y|x,θ)＝Σ{h:hj∈H{yj}} P(h|x,θ)＝exp[Σ{h:hj∈H{yj}} 1/Z(x,θ) θk Fk(y,x)]
- 推論：厳密解はNP困難 →遅い
- 近似手法
-- Best Hidden Path [Matsuzaki+ ACL05]
-- Best marginal Path [Morency+ CVPR07]
- 厳密推論を近似手法なみの時間で計算したい
-- NLPとかだと可能性のあるパターンは限定されている
-- 未知のパスの確率が，既知のパスの確率と比べて小さいときには調べなくてよいという分枝限定がうまく利用できるヒューリスティックスを使ってA*探索を効率化(?)
- 実験
-- 固有表現抽出問題：データ数に対して線形ぐらい

潜在パーセプトロン
- 収束性などの議論

- コード： http://www.ibis.t.u-tokyo.ac.jp/XuSun

* セッション３（人間行動と潜在世界） [#b5e608e3]

** 潜在ダイナミクスとしての「都合」 [#pae77af6]
大澤幸生（東京大学）

チャンス発見
- ペンのノック部分のデザイン：クリック音がする → 数はすくないが重要だった
- 冷蔵庫：野菜が全部見えるように
- 市場に顕在化するまえの状態を見つけたい

KeyGraph：可視化
- 高頻度が黒いキーワード，赤いキーワードは低頻度だが高頻度を繋ぐ
- 可視化したものを専門化が見て潜在的なトピックを拾う
- 地震の例：群馬県北部 → あまり揺れないところだが目立っている → 浅間山の活動と関連があった
- 肝炎の例：肝臓の検査項目のパス → インターフェロンを投与したときの経過が見いだされた
- KeyGraphの距離：simpson係数(AND/MAX) 相互情報量

KDDプロセスの前に
- 専門化の意見を受け入れる心構えを作る
- レアイベントの意味についてじっくり考える心構えを作る

都合 (I,P,D)
- 意図 I：行動シナリオの背景にある目的意識
- 前提制約 P：意図達成するために必要な制約
- 派生制約 D：前提制約から生じる制約

** トラブルの経験と情報としての活用技術 [#b138dbe6]
宮野廣（法政大学、日本保全学会 特別顧問）

- 原発のトラブルデータ + 新設計データ(knowhowで非公開が多い) の蓄積
- 原子力プラントのDB：審議会資料，原子力施設運転管理年表など
-- 国際DB：iGALL (int'l Generic Ageing Lessons Learned Guideline)
- データには主観があるので，それをどう扱うか
-- 結論にいたる過程で情報の取捨選択がある
-- 企業の競争力を左右するため，ノウハウ部分は公開されない
- タコマ橋：Kalmanが調査していた
- 双子渦：写真に撮れたりとか観測されてから分析が可能になる
- 知識を生かして知恵にするための方法論が必要
- 多くの記述的知識を予め組み込み知識化しておくことで，データとして取り込んだ手続き的知識(ノウハウ)を知恵として活用できるようになる

* セッション４（潜在世界の揺らぎ） [#a11af66c]

** 揺らぎと偏りから読み解く潜在構造 [#u594e01f]
前野義晴（Social Design Group)

発見とは？
- 19世紀の天文学
-- 天王星の挙動がニュートンの方程式と合わない → 海王星の位置の予測 → 実際に発見された
-- 水星の歳鎖運動の異常 → アインシュタインの一般相対性理論の重力場のゆがみで説明された

拡散 (diffusion)
- 確率的に時間発展する
- 自然現象・社会現象における拡散にはヘテロ性がある
- 例：感染症の拡散，交通ネットワークでの人の移動，ネットでの情報の拡散

感染症の広がり
- ランダムネットの場合：一つのノードで発生した場合
- 順問題：システムの特徴から，観測結果をえる
- 逆問題：観測結果から，システムの特徴を得る → プロファイリングとノード発見

プロファイリング
- 拡散現象を支配するパラメータを見つける
- SIRモデル：S(健康未感染)，I(病気)，R(回復後)
- 病気が直ったら免疫ができてもうかからない
- 各状態の人がノード間を移動する
- 感染者数の変化の微分が，全人口の感染可能性のある割合の項 + 感染中の人口の項 + 移動の項 + ノイズ
-- ノイズはポワソン的になっている
- SARSの時の事例

ノード発見
- 観測されていないノードが原因となった拡散を観測可能な周囲のノードから推定
- 既知データから観測ノードにたいするプロファイリングを実行
- 推定結果と観測結果の差が大きい部分から，観測されないノードを予測する

** 潜在的グラフ構造からの異常検知 [#ob172748]
井手剛（IBM東京基礎研究所）

動機
- 異常検知：変数同士の関係の崩れを検出したい
-- 異常が起きたとき，どの変数が異常なのかを見つける
- 構造学習の難しさ
-- 安定かどうか？いろいろ関係は見つかるけど，ちょっとの変動で大きく構造が変わってしまう
- 相関の強いペアについては関係が安定している → 本質的に関連のあるペアだけを見つけたい

グラフィカル・ガウシアン・モデル
- 多変量ガウス分布の精度行列がグラフの隣接行列になっている
- 疎なグラフを作りたい
-- 共分散行列の逆行列を求めてしきい値できる → しきい値に依存しすぎ
-- 共分散構造選択 (Dempster 72)：小さい値を0にして，残りを整合性を持たせるように修正することを繰り返す
- L1正則化を使って疎にする
- 観測モデルは独立な正規分布 + ラプラス事前分布
-- graphical lasso アルゴリズムで解く
-- [Meinshausen+ 06] の方法も試したがノイズがあり共線性のある状況では頑健性がない
- 学習された確率モデルを使って，各変数の異常度をKL距離で定義