#freeze
* 第15回 情報論的学習理論ワークショップ (IBIS2012) [#f3990102]

COLOR(#00AA00){このページはしましまが [[IBIS2012>IBIS#IBIS2012]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.}

#contents

*  11月7日(水) [#m7d855f3]

* 企画セッション : 学習理論のフロンティア [#u598a8f0]

** 統計的学習理論チュートリアル:基礎から応用まで [#a989487e]
鈴木 大慈 (東京大学)
-資料: http://www.simplex.t.u-tokyo.ac.jp/~s-taiji/ibisml2012/IBIS2012.pdf

理論は必要なのか?
- 理論を知らなくても実装できる → 理論家は役に立たない理論をこねくり回している?
- 応用は基礎から発展してきた過去
- 理論は基本技術を開発して,応用手法の閉塞を打破する
-- 成功例:SVM←VC次元,AdaBoost←弱学習器による学習可能性,Dirichlet過程←Fergusonの理論,その他 Lasso,AIC,圧縮センシングなど
- 学習理論を知ることの効能:手法の意味(正しい使いかた),正当性(ちゃんと収束),最適性(安心して使える)

手法の意味
- ヒンジ損失とロジスティック損失のどちらをつかうべき?
-- 凸性からどちらも判別誤差を最適化
-- 前者はスパースに,後者は条件付き確率 → 識別誤差と条件付き確率の精度は両立しないので,どちらを優先するかで選ぶ

大まかなすみわけ
- 伝統的統計学:データが十分にあって正則モデルの部分
- 学習理論:データが不十分で,厳密評価ができないか,非正則なモデルの部分 ← 今日はこっち

経験過程の理論
- 1933:Glivenko-Cantelliの定理(一様大数の法則),1952 Donsker(一様中心極限ていり),1968 VC次元 (一様収束の必要十分条件)

問題設定
- 入出力の対であるサンプル Dn が与えられる教師あり学習
- 抑えたい量:汎化誤差:損失のテストデータのいろいろなテスト集合での期待値が一番いいときとくらべてどれくらい悪い?
 ^L(^f) - inf_f L(f)
^L(f) は経験リスク,L(f) は期待リスク
-- モデルの範囲を考えると モデルの中で一番いいのとくらべてどうかという推定誤差と,モデル自体で生じる誤差のモデル誤差の和にできる(バイアス=バリアンス分解)→ ここでは,モデル誤差は0として考える

経験誤差最小化 ERM
- ERM:経験リスクを最小化
- 正則化付きERM (RERM):経験リスクに正則化項を付けたものを最小化

- 経験誤差の上界:f* は最適解
 ^L(^f)≦^L(f*)
 ^L(^f) - ^L(f*) ≦ [L(^f) - ^L(^f)] + [^L(f*) - L(f*)]
-- 第2項 O(1/√n) なので,第1項をいかにおさえるか?
-- やっかいなのは過学習:たまたまサンプルにめぐまれて良くなるっていうことがないようにする必要がある
-- L(^f) と ^L(^f) の差が一定の幅におさまるようにしないようにする → 一様なバウンド
 sup [L(^f) - ^L(^f)]

有用な不等式
- Hoeffdingの不等式
- Bernsteinの不等式:Hoeffdingの不等式で分散が分かっているとバウンドが良くなる

一様バウンド
- モデルの要素の数が有限個で,M個のとき √[log(M)] のオーダーで増える
- 無限になったら → 有限個で元覆うことのできる場合を想定

無限の場合の準備
- Rademacher複雑度:Rademacher変数 εi(±1を確率1/2でとる変数)とモデル関数値の積の和の上界の期待値
-- Contraction不等式(一様バウンドを抑えるのに便利),凸包などの便利な性質
- εカバーリングナンバー:ノルムdで半径εで仮説集合を覆うのに必要な超球の数
-- Dudley積分というのを使って,Rademacher複雑度を抑えるのに使う

Op(1/√n) おり速いレートは出せるか?
- 損失関数の強凸性:^f は f* の周囲に制限 → ^f の存在範囲を絞ることができる(局所Rademacher複雑度)

最適性
- 許容性 (admissible):一様に性能を改善させる方法が他にない(状況によっては負けることはありうる)
- minmax最適性:一番不利な環境で最もよい

ベイズの学習理論
- ノンパラベイズ,PACベイズ

** カーネル法の新しい展開 – その理論と方法 - [#e8174137]
福水 健次 (統計数理研究所)

カーネル法の概要
- 高次元なデータで非線形性を考えると単純に多項式にすると破綻 → カーネル法
- 正定値カーネル:Gram行列 G_X が半正定値
- 再生性:<f, k(・,x)>=f(x) 関数 f の値がこの式で求まる
-- 内積計算をするのに特徴空間の値を明示的に求める必要がない
- カーネル法:データの大きさのGram行列の計算に還元(カーネルPCA,非線形SVM…)
-- データ数が多いときは Gram行列を低ランク近似してOK
- カーネル法の新展開:カーネル平均,条件付きカーネル平均を使ったノンパラメトリックな推論
- 既存のノンパラ推定:平滑化カーネル法 → 4〜5次元で破綻

確率分布の表現としてのカーネル法
- カーネル平均:特徴空間での期待値
 m_P=E[φ(X)]=E(k(・,X)]
-- 期待値の再生性
- 特性的なカーネル:期待値をとる分布が違うと平均も違った値になる → カーネル平均を比べると分布の違いが分かる
- 特性的なカーネル
- カーネル法によるノンパラ推論:確率分布に関する推論 → カーネル平均に関する推論・計算

条件付き確率の表現と推定精度
- 条件付きカーネル平均
-- 特性的なカーネルを使うとガウスの条件付き確率の場合のように,共分散行列の積で簡単に書ける
- ノンパラ回帰のバウンド:次元数が入っているけど次元の呪いは避けられる(?)

カーネル推論則
- sumルール,chainルール,ベイズ則 などのカーネル化

** 確率推論による強化学習・確率最適制御 [#k2166c32]
植野  剛 (科学技術振興機構)

- 強化学習を通じて,統計学習 と 最適制御 を結びつける
-- 強化学習も確率的最適制御:どちらもマルコフ決定過程の解法
-- 強化学習 + 統計学習 → inference-based control

グラフィカルモデルの推論に基づく定式化
- cost-to-go関数:finite horizon,ある入力のときに時刻Tまで続けたときの期待報酬 → 最小化する方策を見つけたい
- MDPでモデル化される問題:ロボット制御,Game AI,Operations Research,金融,ヒトの行動モデル
- 古典的な方法:動的計画法 Bellman の最適性原理 時刻 n からの漸化式を利用する
-- 後ろ向き計算で cost-to-go 関数を計算して,前向きに最適方策を決定
- 古典的な方法で最適解が求められるのは少ない
-- Linear Quadratic Gauss(ダイナミクスは線形,報酬は二次)→ リカッチ方程式
-- LQG以外では近似が必要に
- 制御ではダイナミクスを知りたいが,統計学習だと最適方策にしか興味がない
- ある制約を入れるとグラフィカルモデルの推論に帰着できる
-- 何かの入力が 0 のときのダイナミクス(状態遷移)を受動ダイナミクス,0 以外だと制御ダイナミクス
-- 受動ダイナミクスと制御ダイナミクスのKLダイバージェンスを即時コスト(負報酬)とする
-- 最適経路分布を求める:マルコフ連鎖に対する後ろ向きメッセージ伝播に対応

KLダイバージェンス最小化による一般的な定式化
- 即時超すとは特殊で,方策は決定的 → コストは任意,方策は任意の確率分布
-- KLダイバージェンスの最小化を使った問題定義
- 単調性:方策が違うときのcost-to-go関数の大小関係は,期待コストの大小関係と一致

* 企画セッション : ビジネスと機械学習の接点 [#v08ab5ba]

** ブランドに対する”飽き”の動的変化の個人別測定と製品・品揃え戦略 [#i8ade61b]
照井 伸彦 (東北大学)

''大規模ビジネスデータとマーケティング''

購買データの分類
- POS (Point of Sales):販売時点データ,誰が買ったかは不明 → 集計データ
-- ABCMart:売れ筋の商品をディスプレイにする
- FSP (Frequent Shoppers Program):個人の購買行動 → 非集計データ
-- ポイントカードを使った個人の特定

ブランド選択モデル (経済:離散選択モデル)
- 消費者パネルデータ
-- 購買時のまーケティング変数を含む,FSPデータ,顧客のデモグラ属性
- 多項選択モデル:マーケティング変数の多項ロジット・プロビットモデル
-- データ全体から係数を求める → マスマーケティング
- 消費者異質性:個人ごとの性質の違いを捉える
-- 個人化するために,共通の事前分布から,線形ロジットモデルの係数が出てくるような階層ベイズモデル

価格しきい値の推定
- プロスペクト理論 (Kahmenan&Tversky):小売価格と参照価格(自分が値頃だと思う価格)を比較して,それより安いと利得を感じ,高いと損失を感じる.
-- 損失と利得は損失の方が勾配が大きい非対称性が実験的に確認された
- 同化待避理論:小売価格と参照価格がほぼ同じだと感じる価格は点ではなく幅がある(価格受容域)
- 価格カスタム化 (price customization):個人ごとに価格受容域の範囲で価格を個人化

''ブランドに対する”飽き”の動的変化の個人別測定と製品・品揃え戦略''

- ブランド選択モデル:時間による異質性を導入
- 複数のブランドを選択した場合や,同じものを複数購入した場合に対応する
- 複数同時離散選択モデル:予算の制約の中で,効用を最大化する
-- この最適化では,複数のブランドを買う場合と,単一のブランドを買う場合がでてくるが,それを決めるのは効用関数の影響が大きい
- 時間のダイナミクスにもいくつかモデルを考える

ポテトチップでの実証実験
- 8種・0.33ドルのポテトチップ,12属性,予算は2ドル/週
- 大数尤度とDICでモデル選択した
- 時系列のSatiationパラメータから,飽きやすいブランドとそうでないブランドが分かった
- 飽きているとブランドの散らばりが大きくなり,好むとブランドに集中する

** E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐ [#sfa56b87]
森 正弥 (楽天株式会社) @emasha

楽天技術研究所 ー 楽天データ公開
- http://rit.rakuten.co.jp/rdr/index.html
-- 商品やレビューのデータ

情報の活用例
- Amazon,楽天:協調フィルタリング
- Pandora Radio:曲の旋律などの内容情報を利用

楽天:50以上の種類のビジネスを展開 → 多くのデータが集まっている
- 可視化などをやってみたが,関係を見いだすのは難しい
- スーパーDB:全体のデータを集めたデータウェアハウス
- Recommender Platform:推薦の他,メルマガなどの統一プラットフォーム

- 顧客クラスタリング:セグメントに分けて,それぞれの特徴を見る
- 推薦システム:K-Means,pLSI, LSH
- 季節性・イベントを考慮した予測モデル
- 地方ごとの特産品を扱う → ロングテール市場・日本市場の特性
-- 元が非構造データなので,自然言語でいうブートストラップ法でカテゴリの修正
- 形態素解析エンジンの開発:商品名に対応した形態素分析
- ログインアタックの検知:教師あり・なしのはずれ値検出
- アダルト画像の排除:画像処理で自動検出
- 電力使用量の予測:現在は回帰

データの大規模化
- 従来のバッチ処理でさえ終わらなくなってきた → 並列化の拡張
- プロダクトランキング → 更新頻度を上げたい(セールスに効く)→ DB周りの改善

** Mobageの大規模データマイニングと意思決定 [#p06e2f37]
濱田 晃一 (株式会社ディー・エヌ・エー) @hamadakoichi

DeNAのデータマイニングの経過
- 2010/6:ソーシャルゲームのDMチーム立ち上げ
- 2011/4:Mobage全体のDMの統合

DeNAのトランザクション量
- ユーザアクション:35億/日
- アクセスログ:1.2TB/日

DeNA:売り上げ
- 145,729M円,63,415M円
- 半分以上は外国籍
- インターネットオークション,ショッピングモール,モバイルオークション,ソーシャルゲームと事業の内容を変えてきた

Mobage:ソーシャルゲーム
- ゲーム以外にも,SNS,作品投稿,乗換案内,4500万,35億/日
- FBのような元々の人の繋がりではなく,興味を通じた人との繋がり

データマイニングの利用
- KPI(Key Performance Indicator):ビジネス・サービス変化の検知
- 経営判断・サービス洗練を行うための情報提供
- サービスでの直接的な利用

DM・機械学習の活用に必要なこと
- 事業数値へのコミット
-- 現場にメンバーとして参加する → 達成目標での評価
-- 活動効果の最大化:効果の高いところからコミット
--- 見つかった課題を反映させる開発が間に合わなくなりつつある
- 改善効果の高い課題設定・解決
-- クラスタリングでターゲットユーザ層を見つけ出す
-- 目標指標に一番影響を与える要素を見つけ出す
- ユーザ体験・洗練サイクルを作る
-- ゲームXで仲がよいYさんがZを始めた,同じグループのXさんがYに加わった:リンク予測系
-- 利用者フィードバックをABテストで確保して,それに対応したシステム側の対応

大規模データ処理
- 詳細行動情報:ミッション,助け合い,育成,収集などゲームから行動意図を分析
- サービス洗練:数時間〜数日のスパンで迅速なサービス洗練

プラットフォーム
- 大規模分散処理技術
-- HDFS(Hadoop Distributed File System) → 全行動ログなどは集中管理
-- Pig/Hive:記述量の削減 → MapReduce
-- R:分析
-- Mahout:基本的なルーチンを使って,アルゴリズムを実装
- 統一行動記述
-- サービスごとにログフォーマットが異なる → 1次集計だけでも大変
--- スキーマを統一することで対処,Hadoop上にデータを集約
--- 大規模データ処理技術と,DM/ML技術の活用が可能な基盤
- X-border/X-device戦略
-- 国境や端末に依存
- モバイル系のソーシャル基盤は日本が先行できている分野

* 11月8日(木) [#cbc6689e]

* 企画セッション : ヘルスケアと機械学習 [#pcec218c]

- 人を構成する情報:30億の塩基対,3万の遺伝子- ヘルスケアのビッグデータ:次世代シークエンサー(一人分の遺伝子を1日,40万円,数TB)
-- メタゲノムプロジェクト:周辺細菌をまとめて読み取り(ある人の腸内細菌全部)牛のげっぷがメタンを出すので,カンガルーの細菌と入れ替えたらどうなるか?
-- 1000ゲノムプロジェクト:異なる国・地域から数千人のゲノムを解読して医療利用,1PB/年
- Nature:20世紀は物理学が牽引する → 21世紀はデータサイエンスが牽引する
-- http://www.sciencemag.org/site/special/data/
-- http://www.nature.com/nature/journal/v455/n7209/
- セントラルドグマ:DNA→RNA→タンパク質→複合体ネットワーク→高次機能

** 医薬品の標的分子や副作用の予測における機械学習 [#laa273c9]
山西 芳裕 (九州大学)

- 薬=低分子化合物:目標タンパク質に相互作用して薬効をもたらすと同時に,他のタンパク質にも影響して副作用ももたらす
-- ゲノム空間:体のなかのタンパク,化学空間:薬の構造,薬理空間:症状
- 大規模データ → 薬と目標タンパクの相互作用:標的候補タンパクと候補薬の間の二部グラフ上のマッチング問題
-- 薬:化学構造,目標タンパク:アミノ酸配列
- Chemogenomics:化学構造が似ている ⇒ タンパクへの効果も似ている という仮定に基づく
-- グラフカーネル←化学構造の類似性,タンパクの類似性←文字列カーネル

化合物とタンパクの相互作用の予測:ゲノム空間と化学空間のマッピング
- 分類問題:薬とタンパクの対に相互作用があるかどうか?
- 二部グラフの推定問題:化学空間とゲノム空間に加え,それらの相互作用を表す空間を想定 → この空間に化学物質やタンパク質を写像する
-- 相互作用のある場合は近づけ,ない場合は遠ざける距離学習
-- 既知の相互作用に加えて新たな相互作用も発見できた.分類問題としての定式化より大規模化に成功

標的タンパク質と副作用の関係:ゲノム空間と薬理空間のマッピング
- 目標タンパクと症状の相関を網羅的に調べる
- 正準相関分析:タンパクと症状の相関を最大にする線形変換を求める
-- 係数をみると変動が大きく化学的知見を得るのは難しい
- 線形変換の重み係数に疎性をlassoで加える → 副作用として関連しそうなタンパク質だけうまく重みが大きくなった
- 見つかったタンパクのpathway中での働きを調べる
-- pathwayのデータベースを参照したところ,非常に少数のpathwayでしか働かない(?)
- 薬効の分かっている薬から,未知の副作用を予測することに利用できた

** 脳の学習と機械の学習—ブレイン・マシン・インターフェースで脳の可塑性を引き出すには? [#rb14cd11]
牛場 潤一 (慶應義塾大学)

BMIで使う電気的脳活動計測
- 大脳皮質:局所電場電位,神経スパイク ← 侵襲性が非常に高いが,厳密にデータがとれる
- 皮質脳波:硬膜下にシート状,脳には刺さない ← 侵襲性だが侵襲性は比較的低い,テンカンの治療など
- 頭皮脳波:表に載せるだけ ← 非侵襲的だが,信号は1/1000で,空間分解能も3cm〜5cmと悪い

神経スパイクを用いた例
- ロボットアームを3次元制御し,ボトルから水を飲むことができるように
- データ
-- 各電極から,神経スパイクの頻度が変化する
-- 運動の種類ごとに,変化が見られる電極が異なる
- 腕の軌跡とスパイクの変化の対応をカルマンフィルタで求めた
- 4mm四方中に存在する数10個の神経細胞だけで,腕の多くの運動ができた ← 神経科学的には驚き!

硬膜下シートによる例:10mmぐらいの間隔の解像度
- じゃんけんの三つが扱える
- 運動野の上あたりに設置 → 運動野のどの辺が体のどの部位の運動に関係しているかは既知
- 信号の周波数ごとに,空間的なスペクトルの分布を調べた → 分布の違いでグーチョキパーを区別
-- 工学的手法に徹していて,動くけど,その過程は不明

頭皮脳波による例
- BMI を通じて,腕の神経に電気刺激を与えて,自身の手を握ったり・開いたりということができる
- γβαθなど周波数ごとに信号をとるが,空間分解能が悪いので運動野以外の信号もどうしても拾ってしまう
-- 工学的アプローチ:安静状態と運動イメージのときのデータをとって分類問題として解く,動くプロセスはブラックボックス

使われるデータ処理手法の傾向
- 神経スパイクを使った方法はプロセスの対応を付けるカルマンフィルタなどがよく使われる
- 頭皮脳波を使う方法は,プロセスは無視するので分類器がいろいろ使われている

機能回復を促すBMI
- 二つの方針
-- 運動する末梢神経と脳の対応する部位を同時に刺激することを繰り返す → 刺激を与えると1日ぐらいと長期に影響が見られる
-- 強化学習的,正しく動いたときに正解・不正解を知らせる → 運動に対応した部位の活動がだんだん強化される
- 頭皮脳波でも比較的まともに拾える信号:事象関連脱同期(ERD)(信号の周期ゆれ) → 空間的・強度的にも運動野の働きと相関がありそう
-- 磁気刺激で実験したところ,実際に相関が見られた
- ERDの信号がしきい値を超えるかどうかの簡単な方法だが,うまくいった
- 本当にBMIの信号で動かしているのと,開いて下さいと言うのに合わせて動かすニセBMIとで比較 
-- 本当BMIの方で筋活動が回復するのがみられた
-- 運動機能も本当BMIで回復がみられた

BMIのチューニング
- 元から機能と関連する部位の信号を拾うか,患者がもとから強く出ている信号の部位を拾うか?
-- 前者の方は脳の活動に変化が生じ,リハビリにはよい
-- 後者の方がBMIとしての性能は良かったが,リハビリの効果は見られなかった

** がんの病態,発病機序を理解するためのゲノム解析 [#i0bbf961]
白石 友一 (東京大学)

GENOMON
- 癌関係の遺伝情報の分析を行うオープンソースソフト
- http://genomon.hgc.jp/

癌はゲノムの病気である
- DNA の変異が生じる
-- passenger mutation 特に影響のない変異
-- driver mutation:重要な遺伝子に影響 → 増殖 → さらなるdriver mutation
- ガン細胞には passenger と driver の両方の遺伝子があるので,どちらが本物のdriver変異かがわからない
-- 複数のガン細胞に共通したものを driver と見なす
-- 患者の全ゲノムが新型のシーケンサで読めるようになった

近年の傾向
- exomeシーケンス:符号があるexonだけの配列を読むと,全DNAを読むよりずっと速く読める
- 癌と関連する遺伝子がいろいろ見つけるプロジェクト
-- TCGA,ICGC (international cancer genome consortium)
- personalized genome:癌は個人ごとの差が大きいので,患者のDNAを読んでから対応を決める

- 癌における変異と検出可能性:whole genome に比べて,whole exome はやはり検出できるものは減ってしまう
- 同じ患者の癌部と非癌部のゲノムを調べる
-- 標準的な配列と患者の配列をアライメントして,変異の部位を調べる
-- 転写部位の最初や最後に関わるDNA配列に変異が入ると影響が大きい

RNAシーケンス
- マイクロアレイと費用的に差がなくなった,データとしても相関が高い
- splicingの異常が分かる:exon の読み飛ばしや,余分な
- fusion遺伝子:二つゲノムがくっついてしまう → 癌にとっては重要な変異,BCR-ABL1:慢性骨髄性白血病,TMPRSS2-ERG:前立腺癌,などなど
-- BCR-ABL1 fusion遺伝子を持つものを攻撃する薬剤によって治療できるようになった
-- fusionをデータ分析的に検出するようになってきた

有意な変異の検出
- 遺伝子の長さ,発現量などに依存して変異の起きやすさが異なる → 帰無仮説の選択を考える必要
- アレル頻度:変異の入っている細胞の比 → アレル頻度が多いと初期に変異したゲノムであると分かる → 変異の順序のpathwayの調査

** 蛍光計数分布からの生体分子結合状態の自動推定:複合ポアソン分布による定式化 [#rf73ddd2]
小山 洋平 (理化学研究所)

QBiC http://www.qbic.riken.jp/japanese/research/index.html
- Quantitative Biology Center
- 定量的計測から生命現象を見る部門

生命機能の再構成
- セントラルドグマの試験管内での再生
- シアノバクテリアの概日時計:一日周期のリン酸の変化

蛍光ゆらぎ分光法 (FFS)
- 励起用のレーザを当てて,タンパクから出てくる光の分布を見る
- 分布の理論モデル:FCS, FIDA, PCH など
- 光を当てるだけなので,非侵襲で,細胞内でも検出できるし,長期間計測も可能

蛍光ゆらぎ分光法のデータの分析
- 目的:分子の種類や状態を検出
- Photon Counting Histogram (PCH)
-- 放出がポアソン分布に従って生じると仮定したモデル
-- 分子の個数に応じてたたみ込みを繰り返す
- FIDA Fluorescene Intensity Distribution Analysis
-- PCHの確率母関数を求めて,たたみ込みを簡単に計算 → 数値計算上の問題
- 複合ポアソン分布:複数の発生源がある場合のポアソン分布
-- p(k)=Σn=0^∞ q^(n)(k) Poisson(n;λ) → 漸化式で計算できる

* 特別招待講演:Learning with structured sparsity in computational biology [#oda1eddc]
Jean Philippe Vert (Mines ParisTech/Institut Curie)

- 生物学は,写真を見たりとかではなく定量的に → high-throughput
-- 次世代シーケンサの登場:数日・数千ドルで配列が読めるように

バイオインフォでの課題
- 信号処理,パターン検出:ガン細胞でのDNAの変異
- 解釈可能なモデルでの予測モデル化:癌リスク予測
- 大規模化: http://aws.amazon.com/1000genomes/
- 高次元,構造を持ったデータ,事前知識の扱い

構造をもった疎性
- 正則化項:non-smooth で,特定の解を好むようになっている
-- 正則化項がもたらすもの:統計的に健全 (consitensy),解釈可能 (疎性),効率的 (凸最適化)

''癌ゲノムのDNAのbreakpoint''
- 癌細胞の染色体異常:切れたたり,余分にくっついてたり,数が多かったり
- comparrative genomic hybridization (CGH):DNA copy number(同じDNA配列が何個あるか.通常は二個) → 癌研究では有用
- 系列からの変化点検出問題:10^6〜10^9 の長さが扱える必要
-- 長さ p の系列変化点がk個以内での制約の下,二乗誤差を最小化 → 動的計画法で O(p^2 k)で検出できるが,目標のスケーラビリティは出ない
-- 隣接する係数のl1ノルム (fused lasso) を採用 → QP, coordinate descent, LARS など解法の効率化
--- greedy dichotomic segmentation:系列を欲張り的に二分していく → 大域最適がこの場合求まる
- メラノーマの aggressive と non-aggressive の分類
-- fused lasso で区分的に一定にするとともに,普通のL1で系列も疎にする → 凸最適で効率的に解ける
- 複数のプロファイルで共通の変化点を見つける
-- 全系列に共通する不連続点の数で制約を付けると O(p^2 k n) の計算量 → 解けない
-- Group Lasso:ノルムをとるとき,係数全部についてのノルムではなく,係数のグループごとにノルムをとる.グループごとにl1だったりl2だったり.
-- 系列の縦の同じ位置ごとにグループを作る + グループごとに重み → LARSによる高速化
--- 重み:i∈[1,p-1],重みi=√[i(p-i)/p]

''RNA系列からのisoform検出''
- splicingのとき使われるexonの組み合わせが違うと,一つの遺伝子からいくつかのタンパクができる (それぞれのタンパクが isoform)
- RNA系列をみると,それぞれどれくらいの量ができたか分かる
- exon使われ度合いと結合部位の起きやすさの度合いを求めたい
-- exon の有無,結合の有無を表す指示変数の行列 × 使われた度合いの係数 → 観測された系列の頻度へのあてはめ + 係数のl1ノルムで正則化
-- exonと結合部位で作られるグラフの上でのフローの最大化問題と関連がある

''(タンパクのグループの)ネットワークからの分子の分類''
- 分子ごとに関連しているグループがある → このグループを使ってうまく分類したい
-- グループに重複があるので普通のグループlassoではだめ → 重複のあるグループをまとめてグループ化したlassoを使う

* 11月9日(金) [#j577a2e8]

* 企画セッション :  マルチメディアと機械学習 [#l25d07cb]

- Supervisionショック:画像認識コンペで deep learning を利用したチームが圧勝
-- http://www.image-net.org/challenges/LSVRC/2012/supervision.pdf
- データと計算資源があれば特にマルチメディアのことは考えなくてよい?
-- メディアの特性を理解することで,的確な分析ができる
-- 例:『同じ』であるとは?→同じ型の自転車の色違いは同じか?→人間である利用者が決めること

** コミュニケーションとしての映像とその検索 [#v8acc334]
篠田 浩一 (東京工業大学)

音声と映像
- 映像のトラフィックがネットの半分以上のトラフィックを占める
-- メタデータなし,多様,低品質,大部分は役に立たない
- 内容ベースのビデオ検索
-- 今まで:TVドラマ,映画,ニュース,スポーツ(ジャンルが決まっていて高品質)→ネット画像にはこれらのための手法では無理
- Gartner Hype Cycle for 2011:音声はかれた技術 → ビデオにその技術を適用できる?
- 音声ベンチマークの変遷:DARPA のもの,段階的にタスクを設定し,それを積み上げてきた
- 音声と映像は違う?:1次元⇔3次元,センマンティックギャップの有無など
-- 送り手と受け手がいてメッセージを伝えたい → どちらも本質的にはコミュニケーションの手段である
- 映像検索のための音声技術:送り手をモデル化する生成モデル,頑健な確率的フレームワーク,高速化手法
- 機械学習を使うことは音声とビデオで共通:役に立たない部分はビデオの方が大きい←人間の受け取れる情報はそんなに拡大しない

TRECVID Semantic Indexing (SIN)
- TRECVID:情報検索のTRECから独立:クローズドな国際競争ワークショップ
-- http://trecvid.nist.gov
-- メリット:大規模データ,著作権問題回避,デメリット:作業分担,勝敗が明確に
- タスクの歴史:終わったタスク(映像の切り替わり,ビデオ要約(早すぎた))
- データの変遷:TVドラマ → ネットビデオ
- 66チーム(日本から12チーム)5タスク
- Instance Search:場所や人を探す
- Known Item Search:既知のビデオがどこにあるか? ← 世界に一つの目標サンプルを探すので学習とかができない
- Surveillance Event Detection:監視ビデオからイベントを探す → 何もしないよりもいいという結果さえまだ得られないほど難しい


Semantic Indexing (SIN):ビデオショットからのコンセプトを検出
-- 一般画像認識,基本的には分類問題
- コンセプト数 346(出現頻度に大きな偏りがある)ビデオは600時間
- 制止画の Bag of Visual Words を使う → 量子化誤差の大きさから性能が出ない
- 近年重要になっていること
-- 頑健性は重要:特徴を増やす,音声などマルチモーダル化,ソフトクラスタリングなど
-- 高速化:28/58のチームが計算が終わらず,結果を提出できなかった
- 役に立たなかったもの:大局特徴(色ヒストグラム),音声認識・OCR(音声がなかったり無意味だったり),物体の位置検出(ネットビデオでは精度低すぎ),コンセプト間のコンテキスト(データ量が少なすぎる)

SINのための音声技術
- 多様性:ガウス混合モデル,データ不足:MAP適用,高速化
- 処理の枠組み:マルチストリームで処理して,最後に的ミスター宇
- 画像特徴:SIFT/HOGなど画像分野の局所特徴をいろいろ使う,PCAに32次元に圧縮
- 音響特徴:MFCC(Mel-frequency cepstral coefficients)
- 各ストリームでの処理
-- コンセプトモデル:全部のショットに対して,それぞれ混合ガウスモデルをあてはめ
-- MAP適応:話者適応・転移学習の一つ → GMMの平均ベクトルに対し,共通の事前分布を仮定し,それを使って内挿で適応させる
-- 分類:GMM Supervector(GMMの平均を繋げたもの) + SVM
- 計算量はほとんどMAP適応が食う → 高速化が必要
-- 木構造GMM:一部の中心だけを使うが,どれを使うかは木構造探索を行う
- コンセプトの頻度に応じて,予測精度は低下
- 効果的な低次元特徴は? 音声特徴のMFCCも3番目ぐらいに重要だった
-- 人とは画像からすぐわかるが赤ん坊とはわからない,音声を併用するとすぐ赤ん坊と分かる

TRECVID Multimedia Event Detection (MED)
- MED:ビデオクリップからのイベント検出,例:batting and run in 
- 日本からは18チーム,アメリカは予算が付いている
- SINの方法がメインで使われている

トレンド
- 単語レベルの(SIN)→文レベルへ(MED)
- データ量にスケールする技術が重要
- 言語モデル,識別学習,deep learningなど

** 生成モデルアプローチによる音声音響信号処理 [#h09df2fd]
亀岡 弘和 (日本電信電話株式会社)

- 音声信号処理問題の多くは逆問題:ブラインド音源分離,音素特徴抽出,自動採譜
-- 逆問題:結果→原因,数理的に不良設定問題→常識・経験で補う(事前分布)
-- 生成モデル:尤度関数 p(Y|θ) × 事前分布 p(θ|α)

音響信号処理:ブラインド音声分離
- 問題設定:複数のマイクで取得したものが混した信号から,混合する前の信号を分離
-- 応用:ShotSpotter(街中の銃撃音を分離して発射位置を特定)カクテルパーティー効果の模倣
- たたみ込み混合:音声信号と,マイクまでの到達時間でのDiracδ関数とのたたみ込み
-- 残響があると,δ関数が複数の場所に立つ
-- 複数マイクからの信号は足し算に
- フーリエ変換でたたみ込みが積に → 線形の問題
-- マイクと信号の対応の置換が任意 → 不良設定 → 音声の特徴を使って補う
- 時間周波数領域では音声信号はほとんど重ならない 
- 置換の任意性:音波伝播の法則の制約を利用 → 音声の到来方向の潜在変数を導入

音声情報処理:音声イントネーション解析
- イントネーション:基本周波数 F0 に含まれる非言語情報(意図,構文,声点,感情,言い回し)
-- 音声合成ではイントネーション合成は重要な課題になっている
- F0の構成要素:フレーズごとのアップダウン,アクセント:語や音節単位での比較的急激な音調変化
- 藤崎モデル:音声を出す甲状軟骨の自由度が2であることに基づく物理モデル
-- フレーズとアクセントの二つの指令 → バネ・マス・ダンパ系のモデル
-- 混ざり合う前の二つの信号を推定する必要
- フレーズ指令の制約:インパルス,アクセント指令の制約:矩形パルス
-- 二つは同時には生じない,長さやタイミングに特徴がある
- F0はガウスHMMのたたみ込み混合になる

音楽情報処理:自動採譜
- 自動採譜:音楽音響信号から楽譜を生成,音声認識の音楽版
-- 音楽コンテンツの検索への応用期待,著作権管理モニタリング
- 多重音解析:それぞれの音がいつ発生したか検出する必要 → 難しい
- 音楽における規則性を事前分布に埋め込む
- 音楽の楽譜は二次元木構造によって表せる:全音符を二部音符×2,ピッチ方向への分割
-- PCFGの二次元拡張でモデル化

** 最適化問題としての機械翻訳 [#n358fd2e]
渡辺 太郎 (情報通信研究機構)

- 機械翻訳:学習者→[モデル]→decoder
-- チャネルモデル,ベイズ的に解く
- 確率分布関数には対数線形モデル

モデル化
- 対訳データ:同じ内容を表す二つの言語で書かれたコーパス
- 単語対応付け → 句の対応付け
- 特徴量:コーパス間での同時出現頻度
-- 可能なペアについていろいろ特徴を計算
-- デコードは可能対応付けを調べて,尤もらしいものを動的計画法で抽出
- 局所でない特徴
-- 5グラムのマルコフ
-- 同期文脈自由文法:文脈自由文法の多言語版 → decodeはparsingに
-- Tree-Substitution文法の多言語版

評価
- n-gram precision:人間が翻訳したいくつかの例と,n-gramがどれくらいマッチするか? 
- BLUE:1〜4グラムのprecisionを合わせたもの + 短い翻訳へのペナルティ → 人間の間隔と結構一致している
-- ペナルティの与え方などに問題は指摘されている

- k-best:上位k個のいいものを選ぶことで探索をする
- BLUEを直接最適化:局所最適解に陥りやすいので,いろいろ工夫

オンライン学習:MIRA(passive-aggressive),SGD+projection

* オーラルセッション [#uec0e83c]

** 二次形式の大域的最適化によるクラスタリング [#w69465e8]
広瀬 俊亮 (SAS Institute Japan株式会社)

- 調整不要で分布の形を仮定しない,確率分布となるように
-- 関連研究:スペクトラルクラスタリング,二乗損失相互情報量最大化クラスタリング
- 類似度がスタート,二乗の総和が1になる確率振幅を導入.2乗が確率 p(x|C) に対応すると思う.類似度と確率振幅が入った目的関数を固有値問題として解く
- クラスタの事前分布 p(C) は最大エントロピー原理に基づくもので,二次計画問題になる
- p(C|x) でクラスタに割り当て

** サブセット無限関係モデル [#waa432b9]
石黒 勝彦, 上田 修功, 澤田 宏 (日本電信電話株式会社)

- 関係データ:関係の有無が0/1で表されたデータを行列にする → 行と列を入れ替えて,関係の存在粗密が明確になるようにする
- 問題:疎で大きなブロックはうれしくない,ノイズに反応した小さなブロック出てきてしまう → 無関係っぽいはノイズだけかためてしまいたい
- ノイズっぽいの排除:関係の有無を表す変数 
- 一様な観測パラメータ:関係があるときはクラスタで関係が変化するが,無関係なところは一様な確率になる
- 変分ベイズ:参考資料 http://www.slideshare.net/issei_sato/deim2012-issei-sato

** 化合物データベースの秘匿検索技術の開発 [#h8ec5ca6]
清水 佳奈(産業技術総合研究所), 荒井 ひろみ(理化学研究所), 縫田 光司(産業
技術総合研究所), 浜田 道昭(東京大学), 津田 宏治, 広川 貴次, 花岡 悟一郎
(産業技術総合研究所), 佐久間 淳(筑波大学), 浅井 潔(東京大学)

- 有料化合物DBの秘匿検索:類似する化合物がDBにあるかどうかを知りたい + 何で検索したかは秘密にしたい + 売り物のDBのダウンロードはできない
-- 加法準同型暗号を用いて,データを暗号化したままで検索する
- Tversky indexという化合物の一致をみる指標(Jaccard係数の変形)→ しきい値以上になったかどうかが加法準同型暗号を使って判定可能

** 新グラフィカルモデル「発火過程ネットワーク」 〜 学習が簡単な新モデル 〜 [#o23a7250]
高畠 一哉, 赤穂 昭太郎(産業技術総合研究所)

- グラフィカルモデル:任意の有向グラフ,単純に条件分布表に従って発火させる → 極限での定常分布
-- Gibbsサンプラーに似てるが,自分以外の全部の変数が与えられたときの条件付き分布を考えるわけではない
-- これでも収束先が真の解に近づくようにパラメータの学習を工夫

** 医用画像におけるコンピュータ支援検出/診断のための機械学習:遠隔読影環境による多施設臨床使用下での識別器の更新 [#d166fe9e]
野村 行弘, 増谷 佳孝, 三木 聡一郎, 根本 充貴, 花岡 昇平, 吉川 健啓, 林
直人, 大友 邦 (東京大学医学部附属病院)

- 医療画像の読影:医療画像を医師がみて判定,10〜30分/検査,画像は数千枚になることも → コンピュータによる支援/検出
- 画像処理+機械学習で病変を自動検出:学習用データで,病変の領域を入力してもらうのが大変,装置が代わるとデータ集合を変える必要
-- 装置が変わっても大丈夫にしたい → 他施設データを収集するフレームワークの構築

** Jubatus: 大規模データ解析向け分散オンライン機械学習基盤 [#q06667c5]
大野 健太, 海野 裕也, 岡野原 大輔, 比戸 将平 (株式会社プリファードインフラストラクチャー)

- オンライン学習と分散を組み合わせようとすると同期のタイミングの問題が生じる
-- 分散ノード間のモデルの一致性をあきらめる → mixと呼ぶ緩い同期:同期時に差分のみを同期情報として送ることで,通信量を削減
-- ローカルに学習結果をテスト

* 企画セッション : 気候変動問題に挑む機械学習 [#d956b7af]

- 気象データは2030年には 350PB のデータ容量に
- 気候変動は大きな社会問題

** Climate Informatics: Recent Advances and Challenge Problems for Machine Learning in Climate Scien [#afc72e02]
Claire Monteleoni (George Washington University)

- 気候変動は重大な社会問題,データの爆発(モデルの出力,環境センサー,衛星からのデータ)→ 機械学習で気候科学の発見を加速したい
- 気象情報学:最初のワークショップ 2011
-- http://sites.google.com/site/1stclimateinformatics/materials データ,問題,資料へのリンク
-- Book Chapter: Climate Informatics, M.Schmidt+ 2012

問題
- 歴史的な気温変動を知りたい → 過去の計測値は分散が大きく,少なくなる
-- 年輪,同位体比などのデータ
- 極端な状況の予測:干ばつ,cold spell (?)
-- 干ばつは増えている
- 気候変動の要因は?:何が,どれくらい気候変動に影響しているのか?
-- Lozano+ KDD2009:グループ・エラスティックネットの利用

気候のモデル化:
- 気象学,海洋学,地球物理などの基本原理に基づいた,いろいろな素k-ルでのモデルの構築
-- IPCC:次のレポートは2013年
- 気温変動の予測:観測値と20個のモデルの予測の平均 → 結構合ってる
- 予測モデルのエキスパートの合成:[Monteleoni & Jakkola, NIPS2003],どのエキスパートがよいか重みを変える
-- エキスパートの重みはオンライン学習で更新 → 予測の悪いエキスパートの排除

課題
- アンサンブルモデルの予測精度向上
- 予測モデルの向上:スケールの違うモデルのインタラクション,物理+データ(データ同化)モデルの比較と調整
- 時空間データのクラスタリング:干ばつ,台風用,ストリーム/オンライン
- 気象情報学の理論:実際に使える仮定 → 理論的に妥当な学習モデル

** Toward quantifying and reducing uncertainty in decadal climate prediction [#j80dbe81]
望月 崇 (海洋研究開発機構)

- 気候予測:初期条件(気温など)+ 境界条件(CO2など)→ モデル → 予測(気温など)
- 気象モデル:偏微分方程式,決定的なモデル
-- 時間的スケール:1分 ⇔ 10年,空間スケール:1cm⇔100km → 一つのモデルではカバーできない
-- 雲は重要な情報だが,非常に不均一 → パラメータに加算ノイズをのせて確率的なモデル化
-- 複数のモデルで予測し,それらのアンサンブルを考える
- 初期条件:初期条件で将来の結果が大きく変わる
-- 年によって気温の変動は大きいので,どういう値を適切と考えるかが難しい
-- データ同化の利用,初期条件をちょっと変えてアンサンブル

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS