しましま/IBIS2009 の変更点 - 機械学習の「朱鷺の杜Wiki」

追加された行はこの色です。
削除された行はこの色です。
しましま/IBIS2009 へ行く。
#freeze
* 第12回 情報論的学習理論ワークショップ (IBIS2009) [#k995fc1f]

COLOR(#00AA00){このページはしましまが [[IBIS2009>IBIS#IBIS2009]] に参加してとったメモです．私の主観や勘違いが含まれていたり，私が全く分かってなかったりしていますので，その点を注意してご覧ください．誤りがあれば，指摘してください．}

#contents

* 10月19日 IBIS2009 1日目 [#f149ff27]

* 金融リスクと統計的学習 [#xb6a1559]

** 金融リスク〜企業倒産の判別問題の現状と課題 [概要][資料] [#n34f12fe]
山下智志（統計数理研究所・准教授）

- 金融リスク：信用リスク，市場リスク，オペレーションリスク
- 信用リスクのモデル
-- 確率モデル：構造モデル，誘導モデル
-- 統計モデル：Logit，順序Logit，判別分析，ハザードモデル

信用リスク
- 債務不履行 (デフォルト) を起こす確率
-- 推計方法・評価方法はバーゼル委員会の指針がある
-- 新BIS規制において，内部格付けモデルによってデフォルトリスクを評価する必要

典型的なデフォルト判別：
- 2項Logit：デフォルト確率＝Logit[ 信用スコア ]＝Logit[ β×(財務指標 X) ]
-- 数年後にモデルを評価：AR値 と AUCモデル による評価 (法によるしばり)
--- AR=2 AUC - 1 (ARは実務系，AUCは理論系)
- 順序Logit：格付け＝Logit[ 信用スコア + しきい値 ]
-- 的中率や誤判別率といった評価指標があるが，かたまっていない
- 目的1：パラメータの推定手法と評価手法を一致させる
- 目的2：異常値データに対するモデルの安定化 (最尤法は異常値に敏感)
-- シグモイドAUC最適化法の提案

AUCを直接最大化することで，パラメータを最適化する
- AUCはパラメータβで微分できない → 階段関数をシグモイドと置き換えて微分可能にする
- はずれ値にも強い

格付け判別モデル
- 順序付きカテゴリ変量の誤差の定義
-- K段階あるとき，K-1 個の識別問題があるとおもって，AUC を計算 → RaingAUC
- 信用リスクと同じ方法で求める
- 投資適格・不的確の判断をより重視するような拡張も

** 金融リスクとコピュラ〜依存構造がリスクに及ぼす影響 [概要] [#vc5a307a]
吉羽要直（日本銀行金融研究所・企画役、統計数理研究所・客員准教授）

コピュラ
- 同時分布関数を，その要素単独の周辺分布の関数として解釈したもの．次式の C
 F(x1...xn)＝C(F(x1)...F(xn))
- 変数間の相互依存関係を表す関数．相関係数では線形の関係しかとらえられない！
- 依存性のある多変量の一様分布の同時分布関数
- 金融での利用：複数の資産や，原資産が複数ある商品を扱う

コピュラの種類
- 特殊なコピュラ
-- 独立コピュラ：各変量が独立な場合 F(x1)...F(xn)の積
-- 共単調コピュラ：全部同じように変化するとき min(F(x1)...F(xn))
- パラメトリックなコピュラ
-- 相関行列を使う：正規コピュラ，tコピュラ
-- 1パラメータのもの：アルキメディアン・コピュラという性質をもつクレイトン，ガンベル，フランクコピュラ
--- C(u1...un)＝φ^-1(φ(u1)+...+φ(un)) の構造をもつ

コピュラの比較
- 全体の依存性：順位相関係数
- 裾での依存性を示す指標：裾依存係数
-- 上側裾依存係数：2変量のうち，一方がuをより大きい場合に，もう一方がuより大きい条件付確率
-- 下側裾依存係数：同様
-- u→0 で 0 になるなら漸近従属，∞なら漸近独立

実用化に必要な技術
- コピュラの選択：統計基準の利用，裾依存性の適切さ，極値コピュラなど理論的な自然さ
- パラメータ推定方法
- コピュラに従う乱数の発生方法

戸坂・吉羽などの資料

** 極値統計学 [概要] [資料] [#pae751b7]
高橋倫也（神戸大学海事科学研究科教授）

極値統計学
- リスク評価のため，長時間で発生しうる最大値・最小値を求める
-- 区分最大値(block maxima)：標本をブロック化したときの最大値データ
-- (？もうひとつ)

極値理論
- 極値統計量 Zn＝max{x1...xn}
- 極値分布：P(Zn-bn/an≧x) → G(Zn≧x) となるなら，これを極値分布という
- 三つのタイプ：Gumbel分布，フレッシェ分布，(負の)ワイブル分布
- この三つを一つにまとめたのが一般極値分布
 G(z)＝exp[ - (1 + ξ[ (z - μ) / σ ]^{-1/ξ} ]
-- あてはめは最尤推定
- 他に一般パレート分布(GP)：最近は研究の主流
 H(y)＝1 - (1 + ξ (y / σ))^{-1/ξ}

ソフト
- Rのパッケージ：evd, evirなど

* 10月20日 IBIS2009 2日目 [#n9dc73cc]

* 企画セッション：音声・音響処理と機械学習 [#o9b7db03]

** スパース表現による音響信号処理 [#wc6e06a5]
亀岡弘和(日本電信電話株式会社 NTTコミュニケーション科学基礎研究所)

- スパース表現：U^1...U^I が疎で，次の形式で×もの
 Yω＝Σ H_ω^i U^i
例：行列分解の低ランクモデル，基底のスパース正則化学習

実世界音響信号処理
- 観測信号から現象を説明することが目的 → 実世界の音響信号の構成音をうまくモデル化
- メッセージ伝達媒体の音
-- 音素や音階などの離散系列を音声信号に変えたもの → 音源信号は限られた種類のシンボル単位に相当する未知の独立成分から構成

振幅スペクトログラムの分解表現
- 短時間フーリエ変換をしてから，絶対値をとる → |Y{ω,t}| 時刻 t に周波数ωの成分がどれくらい含まれているか
- Y≒H U の形に NMF を使って分解 → ランク10程度の低ランク行列で表現可能

複素NMF
- 音声の物理的特徴：波形同士は加法的 → フーリエ変換をしてもこの性質は保たれるが，絶対値をとるとダメになる
- 全体の絶対値をとることはやめて，大きさだけにする
 Σ H_ω^i Ut^i exp(jφ{ω,t}^i}
- 正則化つきの最小2乗で解くが，2乗の部分を上界で押さえて反復的に解く

ブラインド音声強調
- 音源分離・残響除去 … 室内の伝達系と音声信号が未知だと何らかのモデル(仮定)が必要
-- Yt＝Σ Gt Y{t-τ} + ^St （Gは残響のもでる) ^St を求めたい

復号自己回帰系
- 音声生成モデル：音声が st＝Σ a st[n - p] + εt で生成される
- 複合自己回帰系：駆動元の信号はたかだか I 種類，音声を作るフィルタはたかだか J 種類
 Y{ω,t}＝Σ^I Σ^J [ H_ω^i Ut^{i,j} / |A^j exp(j 2 π ω / Ω)| ]
音声っぽさを最大化することで，分離をする

** 機械学習に基づく音楽情報処理 [#c7a4d687]
吉井和佳(産業技術総合研究所 情報技術研究部門)

- 音響信号，MIDI，アノテーション，タグ，レーティング を扱う
- 認識：音楽要素の自動認識
-- ジャンルの認識(SVM)，コードの認識(HMM)，テンポ推定，発音時刻検出，基本周波数推定
- 生成：作曲・演奏の生成・音楽の検索・推薦

HybirdRecommender
- PLSIモデルに基づく推薦

音楽の可視化
- 音楽をサムネイルにして表示．同じジャンルは大体近いサムネイルになるように
- 記憶性（画像を滑らかに），表現力（サムネイルの情報量を確保），区別性（ジャンルの違いがパターンに反映されるように）

MusicCommentator：音楽と言語を対応付ける
- 音楽にコメントを付けたい
- メル周波数ケプストラム(MFCC)とコメントのBoW表現をHMMを使って対応付ける

歌詞の自動対応付け
- 歌声状態と非歌声状態の二つのHMMを行き来するモデル

音楽情報処理
- 音楽データ
-- RWC研究用音楽データベース (著作権問題なし)
-- AIST Annotation for the RWC Music DB
- 特徴量抽出ツール：MARSYAS [Tzanetakis 2002]，MIRtoolbox [Oliver 2007]
-- BoW型の特徴量
- コンテスト：MIREX 音楽版のTRECのようなもの
- 機械学習への期待：時系列の扱いや，新たな分野の開拓

** 音声系列パターン認識のための識別学習 [#c976816d]
中村篤(日本電信電話株式会社 NTTコミュニケーション科学基礎研究所)

音声認識基礎研究
- 音響処理 → 音声分析 → 認識エンジン
-- NTTの認識エンジン：WFST + 高速on-the-fly法，語彙1000万語

音声認識の正解率：収録方法，人数，発話スタイル，話題の範囲 に依存

確率的アプローチにおる音声認識：事後確率最大化

*** 音声系列パターン認識で使われる手法の概観 [#fa81d550]
- 最大相互情報量：対応する音声と単語の系列の相互情報量を最大化
-- 大語彙の識別学習ｈの対応が必要
- 最小識別誤り：誤分類を最大化するアプローチ
-- 大規模になると定式化が最大相互情報量に近づく
- 最小シンボル（音素/単語) 誤り：系列中に現れるシンボルの誤り数の期待値を最小化
-- 系列ごとの正しさではなく，より細かい基準
- 成り立ちが違う各手法を基本関数(Ψ確率)による統一的見解
 Ψ_σ(X)＝Σ (???) exp(- σ Δ(S1, S2) ) の形に上記の三つの基準は書ける

** LCore: 言葉と動作によるコミュニケーションを学習するロボットの知能化技術 [#k58267a2]
岩橋直人((独)情報通信研究機構 知識創成コミュニケーション研究センター)
- ロボットの対話機能は難しい ← 音声対話システムをくっつけるだけではだめ
-- 語彙が閉じているので，実世界に関する概念の共有ができない
-- 実世界へのグラウンディング，ロボットの世界の拡張性，ロボットとユーザの信念の共有
- コミュニケーション学習が必要

コミュニケーション学習手法 LCore
- 可能なこと：音韻学習，単語学習，文法学習，語用法学習，発話生成，ロボットへの発話の検出，質問応答，物体画像概念学習，物体抽象概念学習，物体操作動作学習，強調動作の役割交代模倣，ユーザ信念の推定
- ユーザの動作による負例や，環境の変化の画像認識，あいまいな文章からの意図の推定

単語学習
- 文音声と対象のペアから単語を学習する
-- いくつかの言い回しで共通にでてくるキーワードを学習
-- 音響，文法，語彙の共起を同時確率でモデル化

音声理解の学習
- 音声，動作，オブジェクト画像概念，オプジェクトと動作の関係，行動のコンテキスト
-- これらの信念モデルから個別確信度ベクトル → まとめて全体確信度関数を作る

* 企画セッション：化学構造とその数理 [#c97bdbc3]

** 木構造および化学構造に対する特徴ベクトル：埋め込み、検索、構造推定 [#q7013966]
阿久津達也（京都大学化学研究所バイオインフォマティクスセンター教授）

応用：糖鎖構造を木で表現し，似たものを検索する応用

木構造の比較
- 最大共通部分木：順序木 O(n^2) 無順序木 O(n^2.5/log n)
- 編集距離：順序木 O(n^3) 無順序木 NP困難
- ここでの対象，順序木・無順序木，高さに制限，単位編集コストは全て1

順序木の編集距離
- 上限 O(n^6) (1979)→O(n^3) (2007)
- 下限 Ω(n^3)

文字列の編集距離
- O(n^2) 程度の時間
- L1空間に埋め込むとき
-- 下限：Ω(log n) 上限 2^O(√{ log n log log n })
-- 近似アルゴリズム 2^~O(√{ log n})

順序木の編集距離の近似アルゴリズム
- 木の編集操作：削除，挿入，操作
- 木間写像：ノードが対応，先祖関係が対応，兄弟の順序関係の保存
- 木の編集距離の埋め込み
-- 木の間に定義された編集距離と，L1空間中の距離が，高々定数倍の差になるように対応付け
- オイラー文字列：DFSで走査して文字列に，戻ってきたときの文字は ~ を付けて区別
-- 文字列と木の距離の関係：(1/2)文字 ≦ 木 ≦ (2h+1)文字 → L1埋め込みになってる
- 文字の編集距離：追加，削除，置換
-- 文字列は効率よくL1距離に埋め込める
- しかし，木→文字列の上限に木の高さ h が入っている．
- 高さに依存しないように
-- 部分木のサイズが √n 以下で，親部分木のサイズが √n 以上の場合などを特別な扱いをする

無順序木の編集距離
- まじめにすると MAX SNP困難
- 2 h + 2 で近似する方法の提案
-- T(v)：v とその子孫から誘導される T の部分木 という特徴量を使う
-- この特徴ベクトル空間中の距離について，T の部分木がL1埋め込みにできる
-- 2h + 2 近似になる

特徴ベクトルからの構造推定
- 化合物を特徴ベクトルに写し，カーネルトリックを使ってSVM (SVR) を適用
- 特徴得空間へのマッピング
-- Walk based （ラベル付きパスの頻度ベクトル)
-- Descriptor based (部分構造の頻度ベクトル)
- 特徴空間から，元の化合物の復元も難しい
-- 創薬などの応用：二つの化合物の中間的だったり，空白部分の化合物を見つけられる
- 問題の定式化：長さ K のラベル付きパス出現頻度 → 木構造
-- 動的計画法で多項式時間で計算可能：ラベル種類数，パスの長さが定数以下，最大次数が定数以下の木構造
--- 木は葉を一つずつ付加して生成可能なことを利用 → あまり効率的ではない
-- パスの長さに制約がないとNP困難

* 10月21日 IBIS2009 3日目 [#ka58d190]

**「疎グラフ上のダイナミクス」 （オーガナイザー：三村和史、鹿島久嗣） [#ka744635]

** 疎なグラフ上のダイナミクスの解析とその応用 [#b8539405]
三村和史（広島市立大学大学院情報科学研究科知能工学専攻准教授）

- 最小頂点被覆問題：選んだ頂点に隣接する辺が全ての辺を覆うように頂点集合を選ぶ
-- NP困難
- 簡単な近似：辺をランダムに選び，両端のノードを選ぶと共に，それが接続する辺を取り除く．取り除いた辺を選んだ集合とする．
- 疎グラフを使った誤り定数符号：ノードがビット．辺のラベルは両端のノードの値のかけ算
-- 隣のノードを見て，自分の状態を多数決で決める．何回か反復するとデコードできる．
-- 密グラフだと統計的振る舞いで解析できるが，疎グラフだともっと厳密に計算しないといけないので難しい
- こうしたダイナミクスを解析する
-- 経路積分法，空洞法，動的レプリカ法等の方法がある

** 経路積分を用いたランダムネットワーク上の同期現象の解析 [#rdf79f9b]
一宮尚志（京都大学大学院理学研究科数学教室 グローバルCOE 特定研究員）

振動現象
- 周期や軌道が安定な場合を扱う：化学反応，生物のリズムなど
- limit cycleのモデル化
-- ∂θ＝ω + p(t) f(t) 外力がなければ位相はそのまま
- 同期現象：位相の同期と，周波数の同期 → ここでは後者
-- Winfree
 ∂θ＝ωi + Σj fi(θi)gj(θj)
-- Kuramoto型
 ∂θ＝ωi + Σj f_ij(θi - θj)
特に f_ij が a_ij sin() のとき
- 蔵本転移
 ∂θ＝ωi + Σj a_ij sin(θi - θj)
 a_ij=K/N：相互作用の強さ K によって相転移が起きる → ネットワークで考えよう

経路積分法で調べる
-- ランダムウォーク：時刻 t に場所 x に至る全ての道に対し，その道を通る確率を求め，足し合わせる → 時刻 t に場所 x にいる確率 P(x,t)
-- これを連続時間と連続位置に拡張
 dx/dt＝f(x) + ξ(t) （ξはノイズ）
- 微少時間 Δt 後の分布を考える．ノイズは時間がたったあとに加える → P(x,Δt) はガウス分布
- 2Δt 後の状態は，Δt 後の全ての位置で積分すればいい
- t→∞ でのn重積分のnの極限をかんがえればよい
-- 分母の無限小を回避する計算上の操作
- 経路積分：量子力学の摂動論や鞍点法などの方法が使えるが，解析的にとけるならそうした方がいい

疎グラフ上での経路積分
- p_ij＝pi pj の確率で，ノード i と j は接続(a_ij=1)というランダムネットワークを考える
- 経路積分はランダムネットワークのアンサンブル平均を用いて計算

** 疎結合位相振動子ネットワークのcavity法による解析 [#v088c4b6]
上江洌達也（奈良女子大学大学院人間文化研究科教授）

免疫系のネットワーク
- Jerneのイディオタイプネットワーク：抗体を作るB細胞は刺激がないと死んでしまうが，抗体間で刺激を与え合うネットワークがあるのでは？という仮説
- Varelaのネットワーク：第2世代のモデル
-- これを空洞法で求める

* 「ランキング学習の最前線」（オーガナイザー：小山聡） [#r94cf8ab]

** Learning to Rank Methods [#m103c5ba]
Hang Li (senior researcher, Microsoft Research Asia)

Learning to Rank
- 文書集合 {d1...dN} とクエリ q → 順位付け関数 f(q,d) → 関数の値に基づいて文書をソート
- f(q,d) を適合する確率 P(r|q,d) で表す
-- いままでは BM25 などのヒューリスティックな関数を使っていた~
→ 使える情報が増えたので，機械学習を使おう！
- クエリと正しく順位付けされた文書を学習事例として，順位付け関数を学習する
-- 実際には，各文書について関連の度合いを5段階などで評価
-- クエリと文書の対から，クエリ語が文書に現れた数などの特徴量を抽出

Learning to Rankの問題点
- 個々の文書を順位付けするのは難しいので，有限個の段階に分ける
- 文書：従来の BM25 や ページランク などの順位付け関数の出力を特徴量として使える
- 評価尺度：NDCG，MAP，MRRなど
- 2^r(j)がゲインを示す，表示順位に応じた割引 1/log(1+j)
 DCG: Σi^j (2^r(i) - 1) / log(1 + i)
これを正規化したのが NDCG
- 順序回帰：順序カテゴリを目的変数とする回帰問題 → 順位付けのカテゴリは近似的に与えているので違う問題

Learning to Rank の分類
- pairwise と listwise

RankingSVM
- pairwise の問題
-- 二つの文書 xi と xj が，f(xi)＞f(xj) の順序対を考える
-- 文書対が正しい順序かどうかの識別問題と考え，SVM で解く

IR SVM
- RankingSVMでは，最高位と最下位の間違いと，隣接するものの間違いは等価
- 順位の差が大きいほどヒンジ誤差の勾配をきつくするコストを考慮した学習にして解く

ListMLE
- Plackett-Luceモデルの確率分布を採用
-- top-k の確率が，周辺分布のように計算可能
- Plackett-Luce のパラメータを指数型の関数にすると，ロジスティック回帰型の形にできるので，これを最尤推定で解く

AdaRank
- 弱順序付け器の集合的な損失の上限をBoostingの技法で最適化

応用
- 情報検索，協調フィルタリングなど

*「パターン認識の新潮流」（オーガナイザー：中島伸一） [#ia7278f7]

** パターンとは何か――非記号計算と一般対象の情報計量 [#sfe6b299]
石川博（名古屋市立大学大学院 システム自然科学研究科准教授）

- 高次元の中で，データ個々には情報はないが，直線に並んでいるとかデータの組み合わせに意味がある → パターン
- MDL：オッカムの剃刀の形式化
- コルモゴロフ複雑性：文字列をプログラムで生成し，その最も短いプログラムの長さ
- 計算機科学のテーゼ：情報は符号化できる
-- 符号化が任意だったら任意の記号列の複雑さは入れ替えられてしまう → 符号化には制限がある
- 符号化は''自然''でなければならない
-- ユークリッド空間の点→座標→文字列といった変換ができると，1点に無限の情報を埋め込める
-- 対象どうしの関係が符号化可能：対象の規則性が，符号の規則性に対応~
符号化は座標系のようなもの
- 符号化は有限でなくてはならない
-- 有限ならば，符号化間の翻訳は無視できる．無限長の符号は符号化自体の情報量が問題に
- 全ての可能な図形を尽くすことはできない → 困った

- 図形の符号化を考えてから複雑度を決めればいい？ → 符号化した後しか使えない
- 自然な符号化にしたい：部分の情報は一定にしたい

-部分集合を基底表現とする
-- 部分集合：空間集合中の直線や円，画像は画素の部分集合
-図式と断面：コルモゴロフ複雑性のプログラムにあたる
-- 図式：集合とそれらの間のベキ写像を指定
-- 断面：各集合にその部分集合を与える s 考える
- 非記号計算 (設置計算)：非記号の対象について直接計算を定義

*「広がる機械学習応用のフロンティア」（オーガナイザー：井手剛、中島伸一） [#u93f6f59]

** 顔と人体画像認識に生きる機械学習 [#y767e164]
勞世竑（オムロン（株）技術本部）

顔認識技術
- フォーカスや露出を顔の部分に合わせる，肌の補正，監視顔認証，持ち主認証，顔画像検索，性別・年代・人種推定，顔の向き・視線・目の開き度合い(わき見や居眠り検知)

顔検出の難しさ：顔の多様性
- 顔自体の多様性，位置，回転
- 環境の違い（カメラ位置や明るさなど）

コンピュータによる顔検出
- 領域を切り出して顔かどうかを識別
-- 顔・非顔のデータを作って識別器を学習させる → 教師データと識別器の設計が問題
- 良い識別器
-- 検出性能：検出率 90%以上，語検出率 1/10^6
-- 検出速度：30ms/frame以下
-- ハード化可能：並列処理 + メモリ使用量が100K以下
- Rowleyらの顔検出(CVPR98)：ニューラルネット~
→ 数千レベルの学習サンプルで性能が頭打ち，顔の向きに対応不可，検出速度遅い，ハード化できない
- Viola&JonesのCascade型高速顔検出器(CVPR2000)
-- 積分画像を使って高速に計算できる特徴量：隣接領域の輝度差などを使う
-- 小領域ごとに識別する軽い処理で顔と判別された領域を集めて階層的に顔かどうかを識別するという操作を階層的に繰り返す
-- 小さな領域ごとの識別を弱識別器としたBoostingになっている

Viola&Jonesの改良
- 特徴量
-- 水平・垂直の特徴量 → 回転に弱い
--- 階層的に粒度の異なる部分領域の平均的な明るさ → Sparse Granular Feature
- 識別器
-- 弱識別器の出力が二値 → 実数出力
- 人海戦術でデータを大量生成

人体検出
- まだ発展途上

** 品質問題を解くプロセスデータ解析技術：産業応用の現状と課題 [#vde71d7b]
加納学（京都大学大学院工学研究科 准教授）

- IBISで生産システム・製造設備を対象とした研究がない原因 → 機械学習と製造業の接点がない
-- 製造業でも機械学習を使われている

製造業が抱える品質問題
- 最終製品に欠陥！ → 複雑な工程があるので，どこが原因か分からない
-- 各行程ごとに中間検査する → 非常にコストがかかる → 最終製品の品質を保証する運転条件を決めて中間検査をしない → 精密なモデルが必要
- 対象は，多行程・複雑・非線形・動的プロセス
-- 製品品質の予測，品質・歩留まりの改善，異常の検出

ここでいうモデルとは
- ホワイトボックスの物理モデルを作るのは無理
- KKD (経験・勘・度胸) → 今の現場
- ブラックボックスの統計モデルを作りたい → 今日のお話
- 物理モデルと統計技術を合わせたグレーボックスモデル

ソフトセンサーの現状
- 大学の論文：ニューラルネットが多い．ここ5年で増えたカーネルマシン．昔からあるPLS(partial least square)，SSID(部分空間同定)
- 実際に使っている：重回帰分析が1位，次がPLS，Just in Time などがおおい．ニューラルネットは殆どない

PLS：出力 y と，潜在因子 z 
- OLSと主成分分析回帰の中間的な特徴
 <y,z>＝‖y‖‖z‖cosθ

- 機械の劣化や汚れなどに対応
-- 逐次型の方法 → 変化の速度に対応させるのが難しい
-- Just-in-Time → 過去に近い運転条件の動作を使う

異常検出 (多変量SPC)
- 相関が異常なものをみる → 主成分分析を使う
- 異常検出の性能はいろいろな手法を組み合わせれば可能
- プロセスの特性に応じて対応できることが重要