Loading [MathJax]/extensions/TeX/boldsymbol.js
しましま/IBIS2012
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* 第15回 情報論的学習理論ワークショップ (IBIS2012) [#f399...
COLOR(#00AA00){このページはしましまが [[IBIS2012>IBIS#IBI...
#contents
* 11月7日(水) [#m7d855f3]
* 企画セッション : 学習理論のフロンティア [#u598a8f0]
** 統計的学習理論チュートリアル:基礎から応用まで [#a9894...
鈴木 大慈 (東京大学)
-資料: http://www.simplex.t.u-tokyo.ac.jp/~s-taiji/ibism...
理論は必要なのか?
- 理論を知らなくても実装できる → 理論家は役に立たない理論...
- 応用は基礎から発展してきた過去
- 理論は基本技術を開発して,応用手法の閉塞を打破する
-- 成功例:SVM←VC次元,AdaBoost←弱学習器による学習可能性...
- 学習理論を知ることの効能:手法の意味(正しい使いかた),...
手法の意味
- ヒンジ損失とロジスティック損失のどちらをつかうべき?
-- 凸性からどちらも判別誤差を最適化
-- 前者はスパースに,後者は条件付き確率 → 識別誤差と条件...
大まかなすみわけ
- 伝統的統計学:データが十分にあって正則モデルの部分
- 学習理論:データが不十分で,厳密評価ができないか,非正...
経験過程の理論
- 1933:Glivenko-Cantelliの定理(一様大数の法則),1952 D...
問題設定
- 入出力の対であるサンプル Dn が与えられる教師あり学習
- 抑えたい量:汎化誤差:損失のテストデータのいろいろなテ...
^L(^f) - inf_f L(f)
^L(f) は経験リスク,L(f) は期待リスク
-- モデルの範囲を考えると モデルの中で一番いいのとくらべ...
経験誤差最小化 ERM
- ERM:経験リスクを最小化
- 正則化付きERM (RERM):経験リスクに正則化項を付けたもの...
- 経験誤差の上界:f* は最適解
^L(^f)≦^L(f*)
^L(^f) - ^L(f*) ≦ [L(^f) - ^L(^f)] + [^L(f*) - L(f*)]
-- 第2項 O(1/√n) なので,第1項をいかにおさえるか? -- や...
-- L(^f) と ^L(^f) の差が一定の幅におさまるようにしないよ...
sup [L(^f) - ^L(^f)]
有用な不等式
- Hoeffdingの不等式
- Bernsteinの不等式:Hoeffdingの不等式で分散が分かってい...
一様バウンド
- モデルの要素の数が有限個で,M個のとき √[log(M)] のオー...
- 無限になったら → 有限個で元覆うことのできる場合を想定
無限の場合の準備
- Rademacher複雑度:Rademacher変数 εi(±1を確率1/2でとる...
-- Contraction不等式(一様バウンドを抑えるのに便利),凸...
- εカバーリングナンバー:ノルムdで半径εで仮説集合を覆うの...
-- Dudley積分というのを使って,Rademacher複雑度を抑えるの...
Op(1/√n) おり速いレートは出せるか?
- 損失関数の強凸性:^f は f* の周囲に制限 → ^f の存在範囲...
最適性
- 許容性 (admissible):一様に性能を改善させる方法が他にな...
- minmax最適性:一番不利な環境で最もよい
ベイズの学習理論
- ノンパラベイズ,PACベイズ
** カーネル法の新しい展開 – その理論と方法 - [#e8174137]
福水 健次 (統計数理研究所)
カーネル法の概要
- 高次元なデータで非線形性を考えると単純に多項式にすると...
- 正定値カーネル:Gram行列 G_X が半正定値
- 再生性:<f, k(・,x)>=f(x) 関数 f の値がこの式で求まる
-- 内積計算をするのに特徴空間の値を明示的に求める必要がない
- カーネル法:データの大きさのGram行列の計算に還元(カー...
-- データ数が多いときは Gram行列を低ランク近似してOK
- カーネル法の新展開:カーネル平均,条件付きカーネル平均...
- 既存のノンパラ推定:平滑化カーネル法 → 4〜5次元で破綻
確率分布の表現としてのカーネル法
- カーネル平均:特徴空間での期待値
m_P=E[φ(X)]=E(k(・,X)]
-- 期待値の再生性
- 特性的なカーネル:期待値をとる分布が違うと平均も違った...
- 特性的なカーネル
- カーネル法によるノンパラ推論:確率分布に関する推論 → カ...
条件付き確率の表現と推定精度
- 条件付きカーネル平均
-- 特性的なカーネルを使うとガウスの条件付き確率の場合のよ...
- ノンパラ回帰のバウンド:次元数が入っているけど次元の呪...
カーネル推論則
- sumルール,chainルール,ベイズ則 などのカーネル化
** 確率推論による強化学習・確率最適制御 [#k2166c32]
植野 剛 (科学技術振興機構)
- 強化学習を通じて,統計学習 と 最適制御 を結びつける
-- 強化学習も確率的最適制御:どちらもマルコフ決定過程の解法
-- 強化学習 + 統計学習 → inference-based control
グラフィカルモデルの推論に基づく定式化
- cost-to-go関数:finite horizon,ある入力のときに時刻Tま...
- MDPでモデル化される問題:ロボット制御,Game AI,Operati...
- 古典的な方法:動的計画法 Bellman の最適性原理 時刻 n か...
-- 後ろ向き計算で cost-to-go 関数を計算して,前向きに最適...
- 古典的な方法で最適解が求められるのは少ない
-- Linear Quadratic Gauss(ダイナミクスは線形,報酬は二次...
-- LQG以外では近似が必要に
- 制御ではダイナミクスを知りたいが,統計学習だと最適方策...
- ある制約を入れるとグラフィカルモデルの推論に帰着できる
-- 何かの入力が 0 のときのダイナミクス(状態遷移)を受動...
-- 受動ダイナミクスと制御ダイナミクスのKLダイバージェンス...
-- 最適経路分布を求める:マルコフ連鎖に対する後ろ向きメッ...
KLダイバージェンス最小化による一般的な定式化
- 即時超すとは特殊で,方策は決定的 → コストは任意,方策は...
-- KLダイバージェンスの最小化を使った問題定義
- 単調性:方策が違うときのcost-to-go関数の大小関係は,期...
* 企画セッション : ビジネスと機械学習の接点 [#v08ab5ba]
** ブランドに対する”飽き”の動的変化の個人別測定と製品・品...
照井 伸彦 (東北大学)
''大規模ビジネスデータとマーケティング''
購買データの分類
- POS (Point of Sales):販売時点データ,誰が買ったかは不...
-- ABCMart:売れ筋の商品をディスプレイにする
- FSP (Frequent Shoppers Program):個人の購買行動 → 非集...
-- ポイントカードを使った個人の特定
ブランド選択モデル (経済:離散選択モデル)
- 消費者パネルデータ
-- 購買時のまーケティング変数を含む,FSPデータ,顧客のデ...
- 多項選択モデル:マーケティング変数の多項ロジット・プロ...
-- データ全体から係数を求める → マスマーケティング
- 消費者異質性:個人ごとの性質の違いを捉える
-- 個人化するために,共通の事前分布から,線形ロジットモデ...
価格しきい値の推定
- プロスペクト理論 (Kahmenan&Tversky):小売価格と参照価格...
-- 損失と利得は損失の方が勾配が大きい非対称性が実験的に確...
- 同化待避理論:小売価格と参照価格がほぼ同じだと感じる価...
- 価格カスタム化 (price customization):個人ごとに価格受...
''ブランドに対する”飽き”の動的変化の個人別測定と製品・品...
- ブランド選択モデル:時間による異質性を導入
- 複数のブランドを選択した場合や,同じものを複数購入した...
- 複数同時離散選択モデル:予算の制約の中で,効用を最大化...
-- この最適化では,複数のブランドを買う場合と,単一のブラ...
- 時間のダイナミクスにもいくつかモデルを考える
ポテトチップでの実証実験
- 8種・0.33ドルのポテトチップ,12属性,予算は2ドル/週
- 大数尤度とDICでモデル選択した
- 時系列のSatiationパラメータから,飽きやすいブランドとそ...
- 飽きているとブランドの散らばりが大きくなり,好むとブラ...
** E-commerce企業におけるビッグデータへの挑戦と課題‐機械...
森 正弥 (楽天株式会社) @emasha
楽天技術研究所 ー 楽天データ公開
- http://rit.rakuten.co.jp/rdr/index.html
-- 商品やレビューのデータ
情報の活用例
- Amazon,楽天:協調フィルタリング
- Pandora Radio:曲の旋律などの内容情報を利用
楽天:50以上の種類のビジネスを展開 → 多くのデータが集まっ...
- 可視化などをやってみたが,関係を見いだすのは難しい
- スーパーDB:全体のデータを集めたデータウェアハウス
- Recommender Platform:推薦の他,メルマガなどの統一プラ...
- 顧客クラスタリング:セグメントに分けて,それぞれの特徴...
- 推薦システム:K-Means,pLSI, LSH
- 季節性・イベントを考慮した予測モデル
- 地方ごとの特産品を扱う → ロングテール市場・日本市場の特性
-- 元が非構造データなので,自然言語でいうブートストラップ...
- 形態素解析エンジンの開発:商品名に対応した形態素分析
- ログインアタックの検知:教師あり・なしのはずれ値検出
- アダルト画像の排除:画像処理で自動検出
- 電力使用量の予測:現在は回帰
データの大規模化
- 従来のバッチ処理でさえ終わらなくなってきた → 並列化の拡張
- プロダクトランキング → 更新頻度を上げたい(セールスに効...
** Mobageの大規模データマイニングと意思決定 [#p06e2f37]
濱田 晃一 (株式会社ディー・エヌ・エー) @hamadakoichi
DeNAのデータマイニングの経過
- 2010/6:ソーシャルゲームのDMチーム立ち上げ
- 2011/4:Mobage全体のDMの統合
DeNAのトランザクション量
- ユーザアクション:35億/日
- アクセスログ:1.2TB/日
DeNA:売り上げ
- 145,729M円,63,415M円
- 半分以上は外国籍
- インターネットオークション,ショッピングモール,モバイ...
Mobage:ソーシャルゲーム
- ゲーム以外にも,SNS,作品投稿,乗換案内,4500万,35億/日
- FBのような元々の人の繋がりではなく,興味を通じた人との...
データマイニングの利用
- KPI(Key Performance Indicator):ビジネス・サービス変化...
- 経営判断・サービス洗練を行うための情報提供
- サービスでの直接的な利用
DM・機械学習の活用に必要なこと
- 事業数値へのコミット
-- 現場にメンバーとして参加する → 達成目標での評価
-- 活動効果の最大化:効果の高いところからコミット
--- 見つかった課題を反映させる開発が間に合わなくなりつつ...
- 改善効果の高い課題設定・解決
-- クラスタリングでターゲットユーザ層を見つけ出す
-- 目標指標に一番影響を与える要素を見つけ出す
- ユーザ体験・洗練サイクルを作る
-- ゲームXで仲がよいYさんがZを始めた,同じグループのXさん...
-- 利用者フィードバックをABテストで確保して,それに対応し...
大規模データ処理
- 詳細行動情報:ミッション,助け合い,育成,収集などゲー...
プラットフォーム
- 大規模分散処理技術
-- HDFS(Hadoop Distributed File System) → 全行動ログなど...
-- Pig/Hive:記述量の削減 → MapReduce
-- R:分析
-- Mahout:基本的なルーチンを使って,アルゴリズムを実装
- 統一行動記述
-- サービスごとにログフォーマットが異なる → 1次集計だけで...
--- スキーマを統一することで対処,Hadoop上にデータを集約
--- 大規模データ処理技術と,DM/ML技術の活用が可能な基盤
- X-border/X-device戦略
-- 国境や端末に依存
- モバイル系のソーシャル基盤は日本が先行できている分野
* 11月8日(木) [#cbc6689e]
* 企画セッション : ヘルスケアと機械学習 [#pcec218c]
- 人を構成する情報:30億の塩基対,3万の遺伝子- ヘルスケア...
-- メタゲノムプロジェクト:周辺細菌をまとめて読み取り(あ...
-- 1000ゲノムプロジェクト:異なる国・地域から数千人のゲノ...
- Nature:20世紀は物理学が牽引する → 21世紀はデータサイエ...
-- http://www.sciencemag.org/site/special/data/
-- http://www.nature.com/nature/journal/v455/n7209/
- セントラルドグマ:DNA→RNA→タンパク質→複合体ネットワーク...
** 医薬品の標的分子や副作用の予測における機械学習 [#laa27...
山西 芳裕 (九州大学)
- 薬=低分子化合物:目標タンパク質に相互作用して薬効をも...
-- ゲノム空間:体のなかのタンパク,化学空間:薬の構造,薬...
- 大規模データ → 薬と目標タンパクの相互作用:標的候補タン...
-- 薬:化学構造,目標タンパク:アミノ酸配列
- Chemogenomics:化学構造が似ている ⇒ タンパクへの効果も...
-- グラフカーネル←化学構造の類似性,タンパクの類似性←文字...
化合物とタンパクの相互作用の予測:ゲノム空間と化学空間の...
- 分類問題:薬とタンパクの対に相互作用があるかどうか?
- 二部グラフの推定問題:化学空間とゲノム空間に加え,それ...
-- 相互作用のある場合は近づけ,ない場合は遠ざける距離学習
-- 既知の相互作用に加えて新たな相互作用も発見できた.分類...
標的タンパク質と副作用の関係:ゲノム空間と薬理空間のマッ...
- 目標タンパクと症状の相関を網羅的に調べる
- 正準相関分析:タンパクと症状の相関を最大にする線形変換...
-- 係数をみると変動が大きく化学的知見を得るのは難しい
- 線形変換の重み係数に疎性をlassoで加える → 副作用として...
- 見つかったタンパクのpathway中での働きを調べる
-- pathwayのデータベースを参照したところ,非常に少数のpat...
- 薬効の分かっている薬から,未知の副作用を予測することに...
** 脳の学習と機械の学習—ブレイン・マシン・インターフェー...
牛場 潤一 (慶應義塾大学)
BMIで使う電気的脳活動計測
- 大脳皮質:局所電場電位,神経スパイク ← 侵襲性が非常に高...
- 皮質脳波:硬膜下にシート状,脳には刺さない ← 侵襲性だが...
- 頭皮脳波:表に載せるだけ ← 非侵襲的だが,信号は1/1000で...
神経スパイクを用いた例
- ロボットアームを3次元制御し,ボトルから水を飲むことがで...
- データ
-- 各電極から,神経スパイクの頻度が変化する
-- 運動の種類ごとに,変化が見られる電極が異なる
- 腕の軌跡とスパイクの変化の対応をカルマンフィルタで求めた
- 4mm四方中に存在する数10個の神経細胞だけで,腕の多くの運...
硬膜下シートによる例:10mmぐらいの間隔の解像度
- じゃんけんの三つが扱える
- 運動野の上あたりに設置 → 運動野のどの辺が体のどの部位の...
- 信号の周波数ごとに,空間的なスペクトルの分布を調べた → ...
-- 工学的手法に徹していて,動くけど,その過程は不明
頭皮脳波による例
- BMI を通じて,腕の神経に電気刺激を与えて,自身の手を握...
- γβαθなど周波数ごとに信号をとるが,空間分解能が悪いので...
-- 工学的アプローチ:安静状態と運動イメージのときのデータ...
使われるデータ処理手法の傾向
- 神経スパイクを使った方法はプロセスの対応を付けるカルマ...
- 頭皮脳波を使う方法は,プロセスは無視するので分類器がい...
機能回復を促すBMI
- 二つの方針
-- 運動する末梢神経と脳の対応する部位を同時に刺激すること...
-- 強化学習的,正しく動いたときに正解・不正解を知らせる →...
- 頭皮脳波でも比較的まともに拾える信号:事象関連脱同期(ER...
-- 磁気刺激で実験したところ,実際に相関が見られた
- ERDの信号がしきい値を超えるかどうかの簡単な方法だが,う...
- 本当にBMIの信号で動かしているのと,開いて下さいと言うの...
-- 本当BMIの方で筋活動が回復するのがみられた
-- 運動機能も本当BMIで回復がみられた
BMIのチューニング
- 元から機能と関連する部位の信号を拾うか,患者がもとから...
-- 前者の方は脳の活動に変化が生じ,リハビリにはよい
-- 後者の方がBMIとしての性能は良かったが,リハビリの効果...
** がんの病態,発病機序を理解するためのゲノム解析 [#i0bbf...
白石 友一 (東京大学)
GENOMON
- 癌関係の遺伝情報の分析を行うオープンソースソフト
- http://genomon.hgc.jp/
癌はゲノムの病気である
- DNA の変異が生じる
-- passenger mutation 特に影響のない変異
-- driver mutation:重要な遺伝子に影響 → 増殖 → さらなるd...
- ガン細胞には passenger と driver の両方の遺伝子があるの...
-- 複数のガン細胞に共通したものを driver と見なす
-- 患者の全ゲノムが新型のシーケンサで読めるようになった
近年の傾向
- exomeシーケンス:符号があるexonだけの配列を読むと,全DN...
- 癌と関連する遺伝子がいろいろ見つけるプロジェクト
-- TCGA,ICGC (international cancer genome consortium)
- personalized genome:癌は個人ごとの差が大きいので,患者...
- 癌における変異と検出可能性:whole genome に比べて,whol...
- 同じ患者の癌部と非癌部のゲノムを調べる
-- 標準的な配列と患者の配列をアライメントして,変異の部位...
-- 転写部位の最初や最後に関わるDNA配列に変異が入ると影響...
RNAシーケンス
- マイクロアレイと費用的に差がなくなった,データとしても...
- splicingの異常が分かる:exon の読み飛ばしや,余分な
- fusion遺伝子:二つゲノムがくっついてしまう → 癌にとって...
-- BCR-ABL1 fusion遺伝子を持つものを攻撃する薬剤によって...
-- fusionをデータ分析的に検出するようになってきた
有意な変異の検出
- 遺伝子の長さ,発現量などに依存して変異の起きやすさが異...
- アレル頻度:変異の入っている細胞の比 → アレル頻度が多い...
** 蛍光計数分布からの生体分子結合状態の自動推定:複合ポア...
小山 洋平 (理化学研究所)
QBiC http://www.qbic.riken.jp/japanese/research/index.html
- Quantitative Biology Center
- 定量的計測から生命現象を見る部門
生命機能の再構成
- セントラルドグマの試験管内での再生
- シアノバクテリアの概日時計:一日周期のリン酸の変化
蛍光ゆらぎ分光法 (FFS)
- 励起用のレーザを当てて,タンパクから出てくる光の分布を...
- 分布の理論モデル:FCS, FIDA, PCH など
- 光を当てるだけなので,非侵襲で,細胞内でも検出できるし...
蛍光ゆらぎ分光法のデータの分析
- 目的:分子の種類や状態を検出
- Photon Counting Histogram (PCH)
-- 放出がポアソン分布に従って生じると仮定したモデル
-- 分子の個数に応じてたたみ込みを繰り返す
- FIDA Fluorescene Intensity Distribution Analysis
-- PCHの確率母関数を求めて,たたみ込みを簡単に計算 → 数値...
- 複合ポアソン分布:複数の発生源がある場合のポアソン分布
-- p(k)=Σn=0^∞ q^(n)(k) Poisson(n;λ) → 漸化式で計算できる
* 特別招待講演:Learning with structured sparsity in comp...
Jean Philippe Vert (Mines ParisTech/Institut Curie)
- 生物学は,写真を見たりとかではなく定量的に → high-throu...
-- 次世代シーケンサの登場:数日・数千ドルで配列が読めるよ...
バイオインフォでの課題
- 信号処理,パターン検出:ガン細胞でのDNAの変異
- 解釈可能なモデルでの予測モデル化:癌リスク予測
- 大規模化: http://aws.amazon.com/1000genomes/
- 高次元,構造を持ったデータ,事前知識の扱い
構造をもった疎性
- 正則化項:non-smooth で,特定の解を好むようになっている
-- 正則化項がもたらすもの:統計的に健全 (consitensy),解...
''癌ゲノムのDNAのbreakpoint''
- 癌細胞の染色体異常:切れたたり,余分にくっついてたり,...
- comparrative genomic hybridization (CGH):DNA copy numb...
- 系列からの変化点検出問題:10^6〜10^9 の長さが扱える必要
-- 長さ p の系列変化点がk個以内での制約の下,二乗誤差を最...
-- 隣接する係数のl1ノルム (fused lasso) を採用 → QP, coor...
--- greedy dichotomic segmentation:系列を欲張り的に二分...
- メラノーマの aggressive と non-aggressive の分類
-- fused lasso で区分的に一定にするとともに,普通のL1で系...
- 複数のプロファイルで共通の変化点を見つける
-- 全系列に共通する不連続点の数で制約を付けると O(p^2 k n...
-- Group Lasso:ノルムをとるとき,係数全部についてのノル...
-- 系列の縦の同じ位置ごとにグループを作る + グループごと...
--- 重み:i∈[1,p-1],重みi=√[i(p-i)/p]
''RNA系列からのisoform検出''
- splicingのとき使われるexonの組み合わせが違うと,一つの...
- RNA系列をみると,それぞれどれくらいの量ができたか分かる
- exon使われ度合いと結合部位の起きやすさの度合いを求めたい
-- exon の有無,結合の有無を表す指示変数の行列 × 使われた...
-- exonと結合部位で作られるグラフの上でのフローの最大化問...
''(タンパクのグループの)ネットワークからの分子の分類''
- 分子ごとに関連しているグループがある → このグループを使...
-- グループに重複があるので普通のグループlassoではだめ → ...
* 11月9日(金) [#j577a2e8]
* 企画セッション : マルチメディアと機械学習 [#l25d07cb]
- Supervisionショック:画像認識コンペで deep learning を...
-- http://www.image-net.org/challenges/LSVRC/2012/supervi...
- データと計算資源があれば特にマルチメディアのことは考え...
-- メディアの特性を理解することで,的確な分析ができる
-- 例:『同じ』であるとは?→同じ型の自転車の色違いは同じ...
** コミュニケーションとしての映像とその検索 [#v8acc334]
篠田 浩一 (東京工業大学)
音声と映像
- 映像のトラフィックがネットの半分以上のトラフィックを占...
-- メタデータなし,多様,低品質,大部分は役に立たない
- 内容ベースのビデオ検索
-- 今まで:TVドラマ,映画,ニュース,スポーツ(ジャンルが...
- Gartner Hype Cycle for 2011:音声はかれた技術 → ビデオ...
- 音声ベンチマークの変遷:DARPA のもの,段階的にタスクを...
- 音声と映像は違う?:1次元⇔3次元,センマンティックギャッ...
-- 送り手と受け手がいてメッセージを伝えたい → どちらも本...
- 映像検索のための音声技術:送り手をモデル化する生成モデ...
- 機械学習を使うことは音声とビデオで共通:役に立たない部...
TRECVID Semantic Indexing (SIN)
- TRECVID:情報検索のTRECから独立:クローズドな国際競争ワ...
-- http://trecvid.nist.gov
-- メリット:大規模データ,著作権問題回避,デメリット:作...
- タスクの歴史:終わったタスク(映像の切り替わり,ビデオ要...
- データの変遷:TVドラマ → ネットビデオ
- 66チーム(日本から12チーム)5タスク
- Instance Search:場所や人を探す
- Known Item Search:既知のビデオがどこにあるか? ← 世界...
- Surveillance Event Detection:監視ビデオからイベントを...
Semantic Indexing (SIN):ビデオショットからのコンセプトを...
-- 一般画像認識,基本的には分類問題
- コンセプト数 346(出現頻度に大きな偏りがある)ビデオは6...
- 制止画の Bag of Visual Words を使う → 量子化誤差の大き...
- 近年重要になっていること
-- 頑健性は重要:特徴を増やす,音声などマルチモーダル化,...
-- 高速化:28/58のチームが計算が終わらず,結果を提出でき...
- 役に立たなかったもの:大局特徴(色ヒストグラム),音声認...
SINのための音声技術
- 多様性:ガウス混合モデル,データ不足:MAP適用,高速化
- 処理の枠組み:マルチストリームで処理して,最後に的ミス...
- 画像特徴:SIFT/HOGなど画像分野の局所特徴をいろいろ使う...
- 音響特徴:MFCC(Mel-frequency cepstral coefficients)
- 各ストリームでの処理
-- コンセプトモデル:全部のショットに対して,それぞれ混合...
-- MAP適応:話者適応・転移学習の一つ → GMMの平均ベクトル...
-- 分類:GMM Supervector(GMMの平均を繋げたもの) + SVM
- 計算量はほとんどMAP適応が食う → 高速化が必要
-- 木構造GMM:一部の中心だけを使うが,どれを使うかは木構...
- コンセプトの頻度に応じて,予測精度は低下
- 効果的な低次元特徴は? 音声特徴のMFCCも3番目ぐらいに重...
-- 人とは画像からすぐわかるが赤ん坊とはわからない,音声を...
TRECVID Multimedia Event Detection (MED)
- MED:ビデオクリップからのイベント検出,例:batting and ...
- 日本からは18チーム,アメリカは予算が付いている
- SINの方法がメインで使われている
トレンド
- 単語レベルの(SIN)→文レベルへ(MED)
- データ量にスケールする技術が重要
- 言語モデル,識別学習,deep learningなど
** 生成モデルアプローチによる音声音響信号処理 [#h09df2fd]
亀岡 弘和 (日本電信電話株式会社)
- 音声信号処理問題の多くは逆問題:ブラインド音源分離,音...
-- 逆問題:結果→原因,数理的に不良設定問題→常識・経験で補...
-- 生成モデル:尤度関数 p(Y|θ) × 事前分布 p(θ|α)
音響信号処理:ブラインド音声分離
- 問題設定:複数のマイクで取得したものが混した信号から,...
-- 応用:ShotSpotter(街中の銃撃音を分離して発射位置を特...
- たたみ込み混合:音声信号と,マイクまでの到達時間でのDir...
-- 残響があると,δ関数が複数の場所に立つ
-- 複数マイクからの信号は足し算に
- フーリエ変換でたたみ込みが積に → 線形の問題
-- マイクと信号の対応の置換が任意 → 不良設定 → 音声の特徴...
- 時間周波数領域では音声信号はほとんど重ならない
- 置換の任意性:音波伝播の法則の制約を利用 → 音声の到来方...
音声情報処理:音声イントネーション解析
- イントネーション:基本周波数 F0 に含まれる非言語情報(意...
-- 音声合成ではイントネーション合成は重要な課題になっている
- F0の構成要素:フレーズごとのアップダウン,アクセント:...
- 藤崎モデル:音声を出す甲状軟骨の自由度が2であることに基...
-- フレーズとアクセントの二つの指令 → バネ・マス・ダンパ...
-- 混ざり合う前の二つの信号を推定する必要
- フレーズ指令の制約:インパルス,アクセント指令の制約:...
-- 二つは同時には生じない,長さやタイミングに特徴がある
- F0はガウスHMMのたたみ込み混合になる
音楽情報処理:自動採譜
- 自動採譜:音楽音響信号から楽譜を生成,音声認識の音楽版
-- 音楽コンテンツの検索への応用期待,著作権管理モニタリング
- 多重音解析:それぞれの音がいつ発生したか検出する必要 → ...
- 音楽における規則性を事前分布に埋め込む
- 音楽の楽譜は二次元木構造によって表せる:全音符を二部音...
-- PCFGの二次元拡張でモデル化
** 最適化問題としての機械翻訳 [#n358fd2e]
渡辺 太郎 (情報通信研究機構)
- 機械翻訳:学習者→[モデル]→decoder
-- チャネルモデル,ベイズ的に解く
- 確率分布関数には対数線形モデル
モデル化
- 対訳データ:同じ内容を表す二つの言語で書かれたコーパス
- 単語対応付け → 句の対応付け
- 特徴量:コーパス間での同時出現頻度
-- 可能なペアについていろいろ特徴を計算
-- デコードは可能対応付けを調べて,尤もらしいものを動的計...
- 局所でない特徴
-- 5グラムのマルコフ
-- 同期文脈自由文法:文脈自由文法の多言語版 → decodeはpar...
-- Tree-Substitution文法の多言語版
評価
- n-gram precision:人間が翻訳したいくつかの例と,n-gram...
- BLUE:1〜4グラムのprecisionを合わせたもの + 短い翻訳へ...
-- ペナルティの与え方などに問題は指摘されている
- k-best:上位k個のいいものを選ぶことで探索をする
- BLUEを直接最適化:局所最適解に陥りやすいので,いろいろ...
オンライン学習:MIRA(passive-aggressive),SGD+projection
* オーラルセッション [#uec0e83c]
** 二次形式の大域的最適化によるクラスタリング [#w69465e8]
広瀬 俊亮 (SAS Institute Japan株式会社)
- 調整不要で分布の形を仮定しない,確率分布となるように
-- 関連研究:スペクトラルクラスタリング,二乗損失相互情報...
- 類似度がスタート,二乗の総和が1になる確率振幅を導入.2...
- クラスタの事前分布 p(C) は最大エントロピー原理に基づく...
- p(C|x) でクラスタに割り当て
** サブセット無限関係モデル [#waa432b9]
石黒 勝彦, 上田 修功, 澤田 宏 (日本電信電話株式会社)
- 関係データ:関係の有無が0/1で表されたデータを行列にする...
- 問題:疎で大きなブロックはうれしくない,ノイズに反応し...
- ノイズっぽいの排除:関係の有無を表す変数
- 一様な観測パラメータ:関係があるときはクラスタで関係が...
- 変分ベイズ:参考資料 http://www.slideshare.net/issei_sa...
** 化合物データベースの秘匿検索技術の開発 [#h8ec5ca6]
清水 佳奈(産業技術総合研究所), 荒井 ひろみ(理化学研究所),...
技術総合研究所), 浜田 道昭(東京大学), 津田 宏治, 広川 貴...
(産業技術総合研究所), 佐久間 淳(筑波大学), 浅井 潔(東京大...
- 有料化合物DBの秘匿検索:類似する化合物がDBにあるかどう...
-- 加法準同型暗号を用いて,データを暗号化したままで検索する
- Tversky indexという化合物の一致をみる指標(Jaccard係数...
** 新グラフィカルモデル「発火過程ネットワーク」 〜 学習...
高畠 一哉, 赤穂 昭太郎(産業技術総合研究所)
- グラフィカルモデル:任意の有向グラフ,単純に条件分布表...
-- Gibbsサンプラーに似てるが,自分以外の全部の変数が与え...
-- これでも収束先が真の解に近づくようにパラメータの学習を...
** 医用画像におけるコンピュータ支援検出/診断のための機械...
野村 行弘, 増谷 佳孝, 三木 聡一郎, 根本 充貴, 花岡 昇平, ...
直人, 大友 邦 (東京大学医学部附属病院)
- 医療画像の読影:医療画像を医師がみて判定,10〜30分/検査...
- 画像処理+機械学習で病変を自動検出:学習用データで,病変...
-- 装置が変わっても大丈夫にしたい → 他施設データを収集す...
** Jubatus: 大規模データ解析向け分散オンライン機械学習基...
大野 健太, 海野 裕也, 岡野原 大輔, 比戸 将平 (株式会社プ...
- オンライン学習と分散を組み合わせようとすると同期のタイ...
-- 分散ノード間のモデルの一致性をあきらめる → mixと呼ぶ緩...
-- ローカルに学習結果をテスト
* 企画セッション : 気候変動問題に挑む機械学習 [#d956b7af]
- 気象データは2030年には 350PB のデータ容量に
- 気候変動は大きな社会問題
** Climate Informatics: Recent Advances and Challenge Pro...
Claire Monteleoni (George Washington University)
- 気候変動は重大な社会問題,データの爆発(モデルの出力,...
- 気象情報学:最初のワークショップ 2011
-- http://sites.google.com/site/1stclimateinformatics/mat...
-- Book Chapter: Climate Informatics, M.Schmidt+ 2012
問題
- 歴史的な気温変動を知りたい → 過去の計測値は分散が大きく...
-- 年輪,同位体比などのデータ
- 極端な状況の予測:干ばつ,cold spell (?)
-- 干ばつは増えている
- 気候変動の要因は?:何が,どれくらい気候変動に影響して...
-- Lozano+ KDD2009:グループ・エラスティックネットの利用
気候のモデル化:
- 気象学,海洋学,地球物理などの基本原理に基づいた,いろ...
-- IPCC:次のレポートは2013年
- 気温変動の予測:観測値と20個のモデルの予測の平均 → 結構...
- 予測モデルのエキスパートの合成:[Monteleoni & Jakkola, ...
-- エキスパートの重みはオンライン学習で更新 → 予測の悪い...
課題
- アンサンブルモデルの予測精度向上
- 予測モデルの向上:スケールの違うモデルのインタラクショ...
- 時空間データのクラスタリング:干ばつ,台風用,ストリー...
- 気象情報学の理論:実際に使える仮定 → 理論的に妥当な学習...
** Toward quantifying and reducing uncertainty in decadal...
望月 崇 (海洋研究開発機構)
- 気候予測:初期条件(気温など)+ 境界条件(CO2など)→ モ...
- 気象モデル:偏微分方程式,決定的なモデル
-- 時間的スケール:1分 ⇔ 10年,空間スケール:1cm⇔100km → ...
-- 雲は重要な情報だが,非常に不均一 → パラメータに加算ノ...
-- 複数のモデルで予測し,それらのアンサンブルを考える
- 初期条件:初期条件で将来の結果が大きく変わる
-- 年によって気温の変動は大きいので,どういう値を適切と考...
-- データ同化の利用,初期条件をちょっと変えてアンサンブル
終了行:
* 第15回 情報論的学習理論ワークショップ (IBIS2012) [#f399...
COLOR(#00AA00){このページはしましまが [[IBIS2012>IBIS#IBI...
#contents
* 11月7日(水) [#m7d855f3]
* 企画セッション : 学習理論のフロンティア [#u598a8f0]
** 統計的学習理論チュートリアル:基礎から応用まで [#a9894...
鈴木 大慈 (東京大学)
-資料: http://www.simplex.t.u-tokyo.ac.jp/~s-taiji/ibism...
理論は必要なのか?
- 理論を知らなくても実装できる → 理論家は役に立たない理論...
- 応用は基礎から発展してきた過去
- 理論は基本技術を開発して,応用手法の閉塞を打破する
-- 成功例:SVM←VC次元,AdaBoost←弱学習器による学習可能性...
- 学習理論を知ることの効能:手法の意味(正しい使いかた),...
手法の意味
- ヒンジ損失とロジスティック損失のどちらをつかうべき?
-- 凸性からどちらも判別誤差を最適化
-- 前者はスパースに,後者は条件付き確率 → 識別誤差と条件...
大まかなすみわけ
- 伝統的統計学:データが十分にあって正則モデルの部分
- 学習理論:データが不十分で,厳密評価ができないか,非正...
経験過程の理論
- 1933:Glivenko-Cantelliの定理(一様大数の法則),1952 D...
問題設定
- 入出力の対であるサンプル Dn が与えられる教師あり学習
- 抑えたい量:汎化誤差:損失のテストデータのいろいろなテ...
^L(^f) - inf_f L(f)
^L(f) は経験リスク,L(f) は期待リスク
-- モデルの範囲を考えると モデルの中で一番いいのとくらべ...
経験誤差最小化 ERM
- ERM:経験リスクを最小化
- 正則化付きERM (RERM):経験リスクに正則化項を付けたもの...
- 経験誤差の上界:f* は最適解
^L(^f)≦^L(f*)
^L(^f) - ^L(f*) ≦ [L(^f) - ^L(^f)] + [^L(f*) - L(f*)]
-- 第2項 O(1/√n) なので,第1項をいかにおさえるか? -- や...
-- L(^f) と ^L(^f) の差が一定の幅におさまるようにしないよ...
sup [L(^f) - ^L(^f)]
有用な不等式
- Hoeffdingの不等式
- Bernsteinの不等式:Hoeffdingの不等式で分散が分かってい...
一様バウンド
- モデルの要素の数が有限個で,M個のとき √[log(M)] のオー...
- 無限になったら → 有限個で元覆うことのできる場合を想定
無限の場合の準備
- Rademacher複雑度:Rademacher変数 εi(±1を確率1/2でとる...
-- Contraction不等式(一様バウンドを抑えるのに便利),凸...
- εカバーリングナンバー:ノルムdで半径εで仮説集合を覆うの...
-- Dudley積分というのを使って,Rademacher複雑度を抑えるの...
Op(1/√n) おり速いレートは出せるか?
- 損失関数の強凸性:^f は f* の周囲に制限 → ^f の存在範囲...
最適性
- 許容性 (admissible):一様に性能を改善させる方法が他にな...
- minmax最適性:一番不利な環境で最もよい
ベイズの学習理論
- ノンパラベイズ,PACベイズ
** カーネル法の新しい展開 – その理論と方法 - [#e8174137]
福水 健次 (統計数理研究所)
カーネル法の概要
- 高次元なデータで非線形性を考えると単純に多項式にすると...
- 正定値カーネル:Gram行列 G_X が半正定値
- 再生性:<f, k(・,x)>=f(x) 関数 f の値がこの式で求まる
-- 内積計算をするのに特徴空間の値を明示的に求める必要がない
- カーネル法:データの大きさのGram行列の計算に還元(カー...
-- データ数が多いときは Gram行列を低ランク近似してOK
- カーネル法の新展開:カーネル平均,条件付きカーネル平均...
- 既存のノンパラ推定:平滑化カーネル法 → 4〜5次元で破綻
確率分布の表現としてのカーネル法
- カーネル平均:特徴空間での期待値
m_P=E[φ(X)]=E(k(・,X)]
-- 期待値の再生性
- 特性的なカーネル:期待値をとる分布が違うと平均も違った...
- 特性的なカーネル
- カーネル法によるノンパラ推論:確率分布に関する推論 → カ...
条件付き確率の表現と推定精度
- 条件付きカーネル平均
-- 特性的なカーネルを使うとガウスの条件付き確率の場合のよ...
- ノンパラ回帰のバウンド:次元数が入っているけど次元の呪...
カーネル推論則
- sumルール,chainルール,ベイズ則 などのカーネル化
** 確率推論による強化学習・確率最適制御 [#k2166c32]
植野 剛 (科学技術振興機構)
- 強化学習を通じて,統計学習 と 最適制御 を結びつける
-- 強化学習も確率的最適制御:どちらもマルコフ決定過程の解法
-- 強化学習 + 統計学習 → inference-based control
グラフィカルモデルの推論に基づく定式化
- cost-to-go関数:finite horizon,ある入力のときに時刻Tま...
- MDPでモデル化される問題:ロボット制御,Game AI,Operati...
- 古典的な方法:動的計画法 Bellman の最適性原理 時刻 n か...
-- 後ろ向き計算で cost-to-go 関数を計算して,前向きに最適...
- 古典的な方法で最適解が求められるのは少ない
-- Linear Quadratic Gauss(ダイナミクスは線形,報酬は二次...
-- LQG以外では近似が必要に
- 制御ではダイナミクスを知りたいが,統計学習だと最適方策...
- ある制約を入れるとグラフィカルモデルの推論に帰着できる
-- 何かの入力が 0 のときのダイナミクス(状態遷移)を受動...
-- 受動ダイナミクスと制御ダイナミクスのKLダイバージェンス...
-- 最適経路分布を求める:マルコフ連鎖に対する後ろ向きメッ...
KLダイバージェンス最小化による一般的な定式化
- 即時超すとは特殊で,方策は決定的 → コストは任意,方策は...
-- KLダイバージェンスの最小化を使った問題定義
- 単調性:方策が違うときのcost-to-go関数の大小関係は,期...
* 企画セッション : ビジネスと機械学習の接点 [#v08ab5ba]
** ブランドに対する”飽き”の動的変化の個人別測定と製品・品...
照井 伸彦 (東北大学)
''大規模ビジネスデータとマーケティング''
購買データの分類
- POS (Point of Sales):販売時点データ,誰が買ったかは不...
-- ABCMart:売れ筋の商品をディスプレイにする
- FSP (Frequent Shoppers Program):個人の購買行動 → 非集...
-- ポイントカードを使った個人の特定
ブランド選択モデル (経済:離散選択モデル)
- 消費者パネルデータ
-- 購買時のまーケティング変数を含む,FSPデータ,顧客のデ...
- 多項選択モデル:マーケティング変数の多項ロジット・プロ...
-- データ全体から係数を求める → マスマーケティング
- 消費者異質性:個人ごとの性質の違いを捉える
-- 個人化するために,共通の事前分布から,線形ロジットモデ...
価格しきい値の推定
- プロスペクト理論 (Kahmenan&Tversky):小売価格と参照価格...
-- 損失と利得は損失の方が勾配が大きい非対称性が実験的に確...
- 同化待避理論:小売価格と参照価格がほぼ同じだと感じる価...
- 価格カスタム化 (price customization):個人ごとに価格受...
''ブランドに対する”飽き”の動的変化の個人別測定と製品・品...
- ブランド選択モデル:時間による異質性を導入
- 複数のブランドを選択した場合や,同じものを複数購入した...
- 複数同時離散選択モデル:予算の制約の中で,効用を最大化...
-- この最適化では,複数のブランドを買う場合と,単一のブラ...
- 時間のダイナミクスにもいくつかモデルを考える
ポテトチップでの実証実験
- 8種・0.33ドルのポテトチップ,12属性,予算は2ドル/週
- 大数尤度とDICでモデル選択した
- 時系列のSatiationパラメータから,飽きやすいブランドとそ...
- 飽きているとブランドの散らばりが大きくなり,好むとブラ...
** E-commerce企業におけるビッグデータへの挑戦と課題‐機械...
森 正弥 (楽天株式会社) @emasha
楽天技術研究所 ー 楽天データ公開
- http://rit.rakuten.co.jp/rdr/index.html
-- 商品やレビューのデータ
情報の活用例
- Amazon,楽天:協調フィルタリング
- Pandora Radio:曲の旋律などの内容情報を利用
楽天:50以上の種類のビジネスを展開 → 多くのデータが集まっ...
- 可視化などをやってみたが,関係を見いだすのは難しい
- スーパーDB:全体のデータを集めたデータウェアハウス
- Recommender Platform:推薦の他,メルマガなどの統一プラ...
- 顧客クラスタリング:セグメントに分けて,それぞれの特徴...
- 推薦システム:K-Means,pLSI, LSH
- 季節性・イベントを考慮した予測モデル
- 地方ごとの特産品を扱う → ロングテール市場・日本市場の特性
-- 元が非構造データなので,自然言語でいうブートストラップ...
- 形態素解析エンジンの開発:商品名に対応した形態素分析
- ログインアタックの検知:教師あり・なしのはずれ値検出
- アダルト画像の排除:画像処理で自動検出
- 電力使用量の予測:現在は回帰
データの大規模化
- 従来のバッチ処理でさえ終わらなくなってきた → 並列化の拡張
- プロダクトランキング → 更新頻度を上げたい(セールスに効...
** Mobageの大規模データマイニングと意思決定 [#p06e2f37]
濱田 晃一 (株式会社ディー・エヌ・エー) @hamadakoichi
DeNAのデータマイニングの経過
- 2010/6:ソーシャルゲームのDMチーム立ち上げ
- 2011/4:Mobage全体のDMの統合
DeNAのトランザクション量
- ユーザアクション:35億/日
- アクセスログ:1.2TB/日
DeNA:売り上げ
- 145,729M円,63,415M円
- 半分以上は外国籍
- インターネットオークション,ショッピングモール,モバイ...
Mobage:ソーシャルゲーム
- ゲーム以外にも,SNS,作品投稿,乗換案内,4500万,35億/日
- FBのような元々の人の繋がりではなく,興味を通じた人との...
データマイニングの利用
- KPI(Key Performance Indicator):ビジネス・サービス変化...
- 経営判断・サービス洗練を行うための情報提供
- サービスでの直接的な利用
DM・機械学習の活用に必要なこと
- 事業数値へのコミット
-- 現場にメンバーとして参加する → 達成目標での評価
-- 活動効果の最大化:効果の高いところからコミット
--- 見つかった課題を反映させる開発が間に合わなくなりつつ...
- 改善効果の高い課題設定・解決
-- クラスタリングでターゲットユーザ層を見つけ出す
-- 目標指標に一番影響を与える要素を見つけ出す
- ユーザ体験・洗練サイクルを作る
-- ゲームXで仲がよいYさんがZを始めた,同じグループのXさん...
-- 利用者フィードバックをABテストで確保して,それに対応し...
大規模データ処理
- 詳細行動情報:ミッション,助け合い,育成,収集などゲー...
プラットフォーム
- 大規模分散処理技術
-- HDFS(Hadoop Distributed File System) → 全行動ログなど...
-- Pig/Hive:記述量の削減 → MapReduce
-- R:分析
-- Mahout:基本的なルーチンを使って,アルゴリズムを実装
- 統一行動記述
-- サービスごとにログフォーマットが異なる → 1次集計だけで...
--- スキーマを統一することで対処,Hadoop上にデータを集約
--- 大規模データ処理技術と,DM/ML技術の活用が可能な基盤
- X-border/X-device戦略
-- 国境や端末に依存
- モバイル系のソーシャル基盤は日本が先行できている分野
* 11月8日(木) [#cbc6689e]
* 企画セッション : ヘルスケアと機械学習 [#pcec218c]
- 人を構成する情報:30億の塩基対,3万の遺伝子- ヘルスケア...
-- メタゲノムプロジェクト:周辺細菌をまとめて読み取り(あ...
-- 1000ゲノムプロジェクト:異なる国・地域から数千人のゲノ...
- Nature:20世紀は物理学が牽引する → 21世紀はデータサイエ...
-- http://www.sciencemag.org/site/special/data/
-- http://www.nature.com/nature/journal/v455/n7209/
- セントラルドグマ:DNA→RNA→タンパク質→複合体ネットワーク...
** 医薬品の標的分子や副作用の予測における機械学習 [#laa27...
山西 芳裕 (九州大学)
- 薬=低分子化合物:目標タンパク質に相互作用して薬効をも...
-- ゲノム空間:体のなかのタンパク,化学空間:薬の構造,薬...
- 大規模データ → 薬と目標タンパクの相互作用:標的候補タン...
-- 薬:化学構造,目標タンパク:アミノ酸配列
- Chemogenomics:化学構造が似ている ⇒ タンパクへの効果も...
-- グラフカーネル←化学構造の類似性,タンパクの類似性←文字...
化合物とタンパクの相互作用の予測:ゲノム空間と化学空間の...
- 分類問題:薬とタンパクの対に相互作用があるかどうか?
- 二部グラフの推定問題:化学空間とゲノム空間に加え,それ...
-- 相互作用のある場合は近づけ,ない場合は遠ざける距離学習
-- 既知の相互作用に加えて新たな相互作用も発見できた.分類...
標的タンパク質と副作用の関係:ゲノム空間と薬理空間のマッ...
- 目標タンパクと症状の相関を網羅的に調べる
- 正準相関分析:タンパクと症状の相関を最大にする線形変換...
-- 係数をみると変動が大きく化学的知見を得るのは難しい
- 線形変換の重み係数に疎性をlassoで加える → 副作用として...
- 見つかったタンパクのpathway中での働きを調べる
-- pathwayのデータベースを参照したところ,非常に少数のpat...
- 薬効の分かっている薬から,未知の副作用を予測することに...
** 脳の学習と機械の学習—ブレイン・マシン・インターフェー...
牛場 潤一 (慶應義塾大学)
BMIで使う電気的脳活動計測
- 大脳皮質:局所電場電位,神経スパイク ← 侵襲性が非常に高...
- 皮質脳波:硬膜下にシート状,脳には刺さない ← 侵襲性だが...
- 頭皮脳波:表に載せるだけ ← 非侵襲的だが,信号は1/1000で...
神経スパイクを用いた例
- ロボットアームを3次元制御し,ボトルから水を飲むことがで...
- データ
-- 各電極から,神経スパイクの頻度が変化する
-- 運動の種類ごとに,変化が見られる電極が異なる
- 腕の軌跡とスパイクの変化の対応をカルマンフィルタで求めた
- 4mm四方中に存在する数10個の神経細胞だけで,腕の多くの運...
硬膜下シートによる例:10mmぐらいの間隔の解像度
- じゃんけんの三つが扱える
- 運動野の上あたりに設置 → 運動野のどの辺が体のどの部位の...
- 信号の周波数ごとに,空間的なスペクトルの分布を調べた → ...
-- 工学的手法に徹していて,動くけど,その過程は不明
頭皮脳波による例
- BMI を通じて,腕の神経に電気刺激を与えて,自身の手を握...
- γβαθなど周波数ごとに信号をとるが,空間分解能が悪いので...
-- 工学的アプローチ:安静状態と運動イメージのときのデータ...
使われるデータ処理手法の傾向
- 神経スパイクを使った方法はプロセスの対応を付けるカルマ...
- 頭皮脳波を使う方法は,プロセスは無視するので分類器がい...
機能回復を促すBMI
- 二つの方針
-- 運動する末梢神経と脳の対応する部位を同時に刺激すること...
-- 強化学習的,正しく動いたときに正解・不正解を知らせる →...
- 頭皮脳波でも比較的まともに拾える信号:事象関連脱同期(ER...
-- 磁気刺激で実験したところ,実際に相関が見られた
- ERDの信号がしきい値を超えるかどうかの簡単な方法だが,う...
- 本当にBMIの信号で動かしているのと,開いて下さいと言うの...
-- 本当BMIの方で筋活動が回復するのがみられた
-- 運動機能も本当BMIで回復がみられた
BMIのチューニング
- 元から機能と関連する部位の信号を拾うか,患者がもとから...
-- 前者の方は脳の活動に変化が生じ,リハビリにはよい
-- 後者の方がBMIとしての性能は良かったが,リハビリの効果...
** がんの病態,発病機序を理解するためのゲノム解析 [#i0bbf...
白石 友一 (東京大学)
GENOMON
- 癌関係の遺伝情報の分析を行うオープンソースソフト
- http://genomon.hgc.jp/
癌はゲノムの病気である
- DNA の変異が生じる
-- passenger mutation 特に影響のない変異
-- driver mutation:重要な遺伝子に影響 → 増殖 → さらなるd...
- ガン細胞には passenger と driver の両方の遺伝子があるの...
-- 複数のガン細胞に共通したものを driver と見なす
-- 患者の全ゲノムが新型のシーケンサで読めるようになった
近年の傾向
- exomeシーケンス:符号があるexonだけの配列を読むと,全DN...
- 癌と関連する遺伝子がいろいろ見つけるプロジェクト
-- TCGA,ICGC (international cancer genome consortium)
- personalized genome:癌は個人ごとの差が大きいので,患者...
- 癌における変異と検出可能性:whole genome に比べて,whol...
- 同じ患者の癌部と非癌部のゲノムを調べる
-- 標準的な配列と患者の配列をアライメントして,変異の部位...
-- 転写部位の最初や最後に関わるDNA配列に変異が入ると影響...
RNAシーケンス
- マイクロアレイと費用的に差がなくなった,データとしても...
- splicingの異常が分かる:exon の読み飛ばしや,余分な
- fusion遺伝子:二つゲノムがくっついてしまう → 癌にとって...
-- BCR-ABL1 fusion遺伝子を持つものを攻撃する薬剤によって...
-- fusionをデータ分析的に検出するようになってきた
有意な変異の検出
- 遺伝子の長さ,発現量などに依存して変異の起きやすさが異...
- アレル頻度:変異の入っている細胞の比 → アレル頻度が多い...
** 蛍光計数分布からの生体分子結合状態の自動推定:複合ポア...
小山 洋平 (理化学研究所)
QBiC http://www.qbic.riken.jp/japanese/research/index.html
- Quantitative Biology Center
- 定量的計測から生命現象を見る部門
生命機能の再構成
- セントラルドグマの試験管内での再生
- シアノバクテリアの概日時計:一日周期のリン酸の変化
蛍光ゆらぎ分光法 (FFS)
- 励起用のレーザを当てて,タンパクから出てくる光の分布を...
- 分布の理論モデル:FCS, FIDA, PCH など
- 光を当てるだけなので,非侵襲で,細胞内でも検出できるし...
蛍光ゆらぎ分光法のデータの分析
- 目的:分子の種類や状態を検出
- Photon Counting Histogram (PCH)
-- 放出がポアソン分布に従って生じると仮定したモデル
-- 分子の個数に応じてたたみ込みを繰り返す
- FIDA Fluorescene Intensity Distribution Analysis
-- PCHの確率母関数を求めて,たたみ込みを簡単に計算 → 数値...
- 複合ポアソン分布:複数の発生源がある場合のポアソン分布
-- p(k)=Σn=0^∞ q^(n)(k) Poisson(n;λ) → 漸化式で計算できる
* 特別招待講演:Learning with structured sparsity in comp...
Jean Philippe Vert (Mines ParisTech/Institut Curie)
- 生物学は,写真を見たりとかではなく定量的に → high-throu...
-- 次世代シーケンサの登場:数日・数千ドルで配列が読めるよ...
バイオインフォでの課題
- 信号処理,パターン検出:ガン細胞でのDNAの変異
- 解釈可能なモデルでの予測モデル化:癌リスク予測
- 大規模化: http://aws.amazon.com/1000genomes/
- 高次元,構造を持ったデータ,事前知識の扱い
構造をもった疎性
- 正則化項:non-smooth で,特定の解を好むようになっている
-- 正則化項がもたらすもの:統計的に健全 (consitensy),解...
''癌ゲノムのDNAのbreakpoint''
- 癌細胞の染色体異常:切れたたり,余分にくっついてたり,...
- comparrative genomic hybridization (CGH):DNA copy numb...
- 系列からの変化点検出問題:10^6〜10^9 の長さが扱える必要
-- 長さ p の系列変化点がk個以内での制約の下,二乗誤差を最...
-- 隣接する係数のl1ノルム (fused lasso) を採用 → QP, coor...
--- greedy dichotomic segmentation:系列を欲張り的に二分...
- メラノーマの aggressive と non-aggressive の分類
-- fused lasso で区分的に一定にするとともに,普通のL1で系...
- 複数のプロファイルで共通の変化点を見つける
-- 全系列に共通する不連続点の数で制約を付けると O(p^2 k n...
-- Group Lasso:ノルムをとるとき,係数全部についてのノル...
-- 系列の縦の同じ位置ごとにグループを作る + グループごと...
--- 重み:i∈[1,p-1],重みi=√[i(p-i)/p]
''RNA系列からのisoform検出''
- splicingのとき使われるexonの組み合わせが違うと,一つの...
- RNA系列をみると,それぞれどれくらいの量ができたか分かる
- exon使われ度合いと結合部位の起きやすさの度合いを求めたい
-- exon の有無,結合の有無を表す指示変数の行列 × 使われた...
-- exonと結合部位で作られるグラフの上でのフローの最大化問...
''(タンパクのグループの)ネットワークからの分子の分類''
- 分子ごとに関連しているグループがある → このグループを使...
-- グループに重複があるので普通のグループlassoではだめ → ...
* 11月9日(金) [#j577a2e8]
* 企画セッション : マルチメディアと機械学習 [#l25d07cb]
- Supervisionショック:画像認識コンペで deep learning を...
-- http://www.image-net.org/challenges/LSVRC/2012/supervi...
- データと計算資源があれば特にマルチメディアのことは考え...
-- メディアの特性を理解することで,的確な分析ができる
-- 例:『同じ』であるとは?→同じ型の自転車の色違いは同じ...
** コミュニケーションとしての映像とその検索 [#v8acc334]
篠田 浩一 (東京工業大学)
音声と映像
- 映像のトラフィックがネットの半分以上のトラフィックを占...
-- メタデータなし,多様,低品質,大部分は役に立たない
- 内容ベースのビデオ検索
-- 今まで:TVドラマ,映画,ニュース,スポーツ(ジャンルが...
- Gartner Hype Cycle for 2011:音声はかれた技術 → ビデオ...
- 音声ベンチマークの変遷:DARPA のもの,段階的にタスクを...
- 音声と映像は違う?:1次元⇔3次元,センマンティックギャッ...
-- 送り手と受け手がいてメッセージを伝えたい → どちらも本...
- 映像検索のための音声技術:送り手をモデル化する生成モデ...
- 機械学習を使うことは音声とビデオで共通:役に立たない部...
TRECVID Semantic Indexing (SIN)
- TRECVID:情報検索のTRECから独立:クローズドな国際競争ワ...
-- http://trecvid.nist.gov
-- メリット:大規模データ,著作権問題回避,デメリット:作...
- タスクの歴史:終わったタスク(映像の切り替わり,ビデオ要...
- データの変遷:TVドラマ → ネットビデオ
- 66チーム(日本から12チーム)5タスク
- Instance Search:場所や人を探す
- Known Item Search:既知のビデオがどこにあるか? ← 世界...
- Surveillance Event Detection:監視ビデオからイベントを...
Semantic Indexing (SIN):ビデオショットからのコンセプトを...
-- 一般画像認識,基本的には分類問題
- コンセプト数 346(出現頻度に大きな偏りがある)ビデオは6...
- 制止画の Bag of Visual Words を使う → 量子化誤差の大き...
- 近年重要になっていること
-- 頑健性は重要:特徴を増やす,音声などマルチモーダル化,...
-- 高速化:28/58のチームが計算が終わらず,結果を提出でき...
- 役に立たなかったもの:大局特徴(色ヒストグラム),音声認...
SINのための音声技術
- 多様性:ガウス混合モデル,データ不足:MAP適用,高速化
- 処理の枠組み:マルチストリームで処理して,最後に的ミス...
- 画像特徴:SIFT/HOGなど画像分野の局所特徴をいろいろ使う...
- 音響特徴:MFCC(Mel-frequency cepstral coefficients)
- 各ストリームでの処理
-- コンセプトモデル:全部のショットに対して,それぞれ混合...
-- MAP適応:話者適応・転移学習の一つ → GMMの平均ベクトル...
-- 分類:GMM Supervector(GMMの平均を繋げたもの) + SVM
- 計算量はほとんどMAP適応が食う → 高速化が必要
-- 木構造GMM:一部の中心だけを使うが,どれを使うかは木構...
- コンセプトの頻度に応じて,予測精度は低下
- 効果的な低次元特徴は? 音声特徴のMFCCも3番目ぐらいに重...
-- 人とは画像からすぐわかるが赤ん坊とはわからない,音声を...
TRECVID Multimedia Event Detection (MED)
- MED:ビデオクリップからのイベント検出,例:batting and ...
- 日本からは18チーム,アメリカは予算が付いている
- SINの方法がメインで使われている
トレンド
- 単語レベルの(SIN)→文レベルへ(MED)
- データ量にスケールする技術が重要
- 言語モデル,識別学習,deep learningなど
** 生成モデルアプローチによる音声音響信号処理 [#h09df2fd]
亀岡 弘和 (日本電信電話株式会社)
- 音声信号処理問題の多くは逆問題:ブラインド音源分離,音...
-- 逆問題:結果→原因,数理的に不良設定問題→常識・経験で補...
-- 生成モデル:尤度関数 p(Y|θ) × 事前分布 p(θ|α)
音響信号処理:ブラインド音声分離
- 問題設定:複数のマイクで取得したものが混した信号から,...
-- 応用:ShotSpotter(街中の銃撃音を分離して発射位置を特...
- たたみ込み混合:音声信号と,マイクまでの到達時間でのDir...
-- 残響があると,δ関数が複数の場所に立つ
-- 複数マイクからの信号は足し算に
- フーリエ変換でたたみ込みが積に → 線形の問題
-- マイクと信号の対応の置換が任意 → 不良設定 → 音声の特徴...
- 時間周波数領域では音声信号はほとんど重ならない
- 置換の任意性:音波伝播の法則の制約を利用 → 音声の到来方...
音声情報処理:音声イントネーション解析
- イントネーション:基本周波数 F0 に含まれる非言語情報(意...
-- 音声合成ではイントネーション合成は重要な課題になっている
- F0の構成要素:フレーズごとのアップダウン,アクセント:...
- 藤崎モデル:音声を出す甲状軟骨の自由度が2であることに基...
-- フレーズとアクセントの二つの指令 → バネ・マス・ダンパ...
-- 混ざり合う前の二つの信号を推定する必要
- フレーズ指令の制約:インパルス,アクセント指令の制約:...
-- 二つは同時には生じない,長さやタイミングに特徴がある
- F0はガウスHMMのたたみ込み混合になる
音楽情報処理:自動採譜
- 自動採譜:音楽音響信号から楽譜を生成,音声認識の音楽版
-- 音楽コンテンツの検索への応用期待,著作権管理モニタリング
- 多重音解析:それぞれの音がいつ発生したか検出する必要 → ...
- 音楽における規則性を事前分布に埋め込む
- 音楽の楽譜は二次元木構造によって表せる:全音符を二部音...
-- PCFGの二次元拡張でモデル化
** 最適化問題としての機械翻訳 [#n358fd2e]
渡辺 太郎 (情報通信研究機構)
- 機械翻訳:学習者→[モデル]→decoder
-- チャネルモデル,ベイズ的に解く
- 確率分布関数には対数線形モデル
モデル化
- 対訳データ:同じ内容を表す二つの言語で書かれたコーパス
- 単語対応付け → 句の対応付け
- 特徴量:コーパス間での同時出現頻度
-- 可能なペアについていろいろ特徴を計算
-- デコードは可能対応付けを調べて,尤もらしいものを動的計...
- 局所でない特徴
-- 5グラムのマルコフ
-- 同期文脈自由文法:文脈自由文法の多言語版 → decodeはpar...
-- Tree-Substitution文法の多言語版
評価
- n-gram precision:人間が翻訳したいくつかの例と,n-gram...
- BLUE:1〜4グラムのprecisionを合わせたもの + 短い翻訳へ...
-- ペナルティの与え方などに問題は指摘されている
- k-best:上位k個のいいものを選ぶことで探索をする
- BLUEを直接最適化:局所最適解に陥りやすいので,いろいろ...
オンライン学習:MIRA(passive-aggressive),SGD+projection
* オーラルセッション [#uec0e83c]
** 二次形式の大域的最適化によるクラスタリング [#w69465e8]
広瀬 俊亮 (SAS Institute Japan株式会社)
- 調整不要で分布の形を仮定しない,確率分布となるように
-- 関連研究:スペクトラルクラスタリング,二乗損失相互情報...
- 類似度がスタート,二乗の総和が1になる確率振幅を導入.2...
- クラスタの事前分布 p(C) は最大エントロピー原理に基づく...
- p(C|x) でクラスタに割り当て
** サブセット無限関係モデル [#waa432b9]
石黒 勝彦, 上田 修功, 澤田 宏 (日本電信電話株式会社)
- 関係データ:関係の有無が0/1で表されたデータを行列にする...
- 問題:疎で大きなブロックはうれしくない,ノイズに反応し...
- ノイズっぽいの排除:関係の有無を表す変数
- 一様な観測パラメータ:関係があるときはクラスタで関係が...
- 変分ベイズ:参考資料 http://www.slideshare.net/issei_sa...
** 化合物データベースの秘匿検索技術の開発 [#h8ec5ca6]
清水 佳奈(産業技術総合研究所), 荒井 ひろみ(理化学研究所),...
技術総合研究所), 浜田 道昭(東京大学), 津田 宏治, 広川 貴...
(産業技術総合研究所), 佐久間 淳(筑波大学), 浅井 潔(東京大...
- 有料化合物DBの秘匿検索:類似する化合物がDBにあるかどう...
-- 加法準同型暗号を用いて,データを暗号化したままで検索する
- Tversky indexという化合物の一致をみる指標(Jaccard係数...
** 新グラフィカルモデル「発火過程ネットワーク」 〜 学習...
高畠 一哉, 赤穂 昭太郎(産業技術総合研究所)
- グラフィカルモデル:任意の有向グラフ,単純に条件分布表...
-- Gibbsサンプラーに似てるが,自分以外の全部の変数が与え...
-- これでも収束先が真の解に近づくようにパラメータの学習を...
** 医用画像におけるコンピュータ支援検出/診断のための機械...
野村 行弘, 増谷 佳孝, 三木 聡一郎, 根本 充貴, 花岡 昇平, ...
直人, 大友 邦 (東京大学医学部附属病院)
- 医療画像の読影:医療画像を医師がみて判定,10〜30分/検査...
- 画像処理+機械学習で病変を自動検出:学習用データで,病変...
-- 装置が変わっても大丈夫にしたい → 他施設データを収集す...
** Jubatus: 大規模データ解析向け分散オンライン機械学習基...
大野 健太, 海野 裕也, 岡野原 大輔, 比戸 将平 (株式会社プ...
- オンライン学習と分散を組み合わせようとすると同期のタイ...
-- 分散ノード間のモデルの一致性をあきらめる → mixと呼ぶ緩...
-- ローカルに学習結果をテスト
* 企画セッション : 気候変動問題に挑む機械学習 [#d956b7af]
- 気象データは2030年には 350PB のデータ容量に
- 気候変動は大きな社会問題
** Climate Informatics: Recent Advances and Challenge Pro...
Claire Monteleoni (George Washington University)
- 気候変動は重大な社会問題,データの爆発(モデルの出力,...
- 気象情報学:最初のワークショップ 2011
-- http://sites.google.com/site/1stclimateinformatics/mat...
-- Book Chapter: Climate Informatics, M.Schmidt+ 2012
問題
- 歴史的な気温変動を知りたい → 過去の計測値は分散が大きく...
-- 年輪,同位体比などのデータ
- 極端な状況の予測:干ばつ,cold spell (?)
-- 干ばつは増えている
- 気候変動の要因は?:何が,どれくらい気候変動に影響して...
-- Lozano+ KDD2009:グループ・エラスティックネットの利用
気候のモデル化:
- 気象学,海洋学,地球物理などの基本原理に基づいた,いろ...
-- IPCC:次のレポートは2013年
- 気温変動の予測:観測値と20個のモデルの予測の平均 → 結構...
- 予測モデルのエキスパートの合成:[Monteleoni & Jakkola, ...
-- エキスパートの重みはオンライン学習で更新 → 予測の悪い...
課題
- アンサンブルモデルの予測精度向上
- 予測モデルの向上:スケールの違うモデルのインタラクショ...
- 時空間データのクラスタリング:干ばつ,台風用,ストリー...
- 気象情報学の理論:実際に使える仮定 → 理論的に妥当な学習...
** Toward quantifying and reducing uncertainty in decadal...
望月 崇 (海洋研究開発機構)
- 気候予測:初期条件(気温など)+ 境界条件(CO2など)→ モ...
- 気象モデル:偏微分方程式,決定的なモデル
-- 時間的スケール:1分 ⇔ 10年,空間スケール:1cm⇔100km → ...
-- 雲は重要な情報だが,非常に不均一 → パラメータに加算ノ...
-- 複数のモデルで予測し,それらのアンサンブルを考える
- 初期条件:初期条件で将来の結果が大きく変わる
-- 年によって気温の変動は大きいので,どういう値を適切と考...
-- データ同化の利用,初期条件をちょっと変えてアンサンブル
ページ名: