#freeze
* 第16回 情報論的学習理論ワークショップ (IBIS2013) [#x2a9a01e]

COLOR(#00AA00){このページはしましまが [[IBIS2013>IBIS#IBIS2013]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.}

#contents

* 11月10日 (日) [#e07ed0be]

* チュートリアル1:機械学習概要 [#k035fd5c]
村田 昇(早稲田大学)

- 学習とは『賢くなる手続き』
- スパムメール,Googleの検索,推薦システム,Watson,将棋,徴税システム
- 計算論的学習理論
-- 人工知能とアルゴリズムの初期研究:決定的 → 確率的・非決定的な考え方の登場
-- 80年代の Valiant 十分な確率で正解に達すればよい → PAC学習
- 統計的学習理論
-- 確率的近似法(統計的探索に確率探索の手法を導入)→ 学習系の平均挙動の統計的解析 → VC次元の理論と発展

学習問題の枠組み
- 教師あり(回帰,識別)・教師なし(クラスタリング,異常検出,頻出パターンマイニング,特徴抽出,次元削減)・強化学習
- 学習モデル
- パラメトリック:有限個のパラメータで決まるモデル
-- 少ないデータで予測できるが,現実と乖離することが多い
-- 大数の法則と中心極限定理に基づいた解析 → 比較的容易
-- 決定木,ニューラルネット
- ノンパラメトリック:データに依存して決まるモデル
-- 多数のデータが必要になるが,低バイアス・高バリアンス
-- 一様収束定理とAzuma-Hoeffdingの不等式に基づいた解析 → 激むず
-- カーネルを使ったときのサポートベクトルマシン

損失による定式化
- 損失:データ z に対してパラメータθの機械が被る罰金で,データに対するずれの度合を表す
- 期待損失:L_P(θ)=E{Z〜P}[ l(Z;θ) ] → 最小化したいけれども,データを発生させる P は分からない
- 経験損失:データ D に対する損失 L_D(θ)=(1/n) Σ{z_i∈D} l(z_i;θ) → 準最適モデルだけど,これの最小化でも期待損失の最小化にも役立つ
- 経験損失と期待損失の差は,データや損失の種類に依存して変わる
- 損失から距離へ:D(P,θ)=L_P(θ) - L_P(θ*) ← 最適なパラメータのときの経験損失と今のパラメータの経験損失の差
-- 統計の分野では discrepancy や divergence と呼ぶ
- 学習モデルも確率分布とみなせる:回帰だと Y=Normal( f(X), σ^2 )
-- 分布の空間を考え,学習モデルのパラメータを動かすと曲面ができる.
-- 最適モデルは観測データから,この曲面上の最も近い点
- 訓練損失(学習に使ったデータに対する損失)と予測損失(新規データに対する損失)
-- 分布の空間中で,観測データと真の分布はちょっと違う → 観測データとモデルまでの距離が訓練損失,予測損失は真の分布までの距離
-- 経験損失最小化だと予測損失の方が訓練損失より大きくなり,その差が過学習の量になる

バッチ学習とオンライン学習
- バッチ学習:経験損失最小化による学習
-- 大数の法則:訓練データ数が無限大になれば経験損失は期待損失に収束
-- 中心極限定理:経験損失最小化で学習した結果は,最適モデルのまわりで O(1/n) でばらつく
- 勾配法:曲面の勾配の方向に少しずつ移動しながら最適なところを探す
- ニュートン法:勾配の曲がりを補正して,速く収束するように
- オンライン学習:確率近似法 → 勾配法は全データに対する勾配だったが,データ1個分に対する勾配の方向に更新し,そのデータを順次変えていく
-- データを全て記憶しておく必要がない,局所解に捉えられにくい,真の分布が時刻で変化するときにもOK,学習係数の調整が難しい
- トレードオフ:学習係数が大きいほど真の値への収束は早いが,収束先のばらつきは大きくなる
- 学習係数の最適な大きさ:時間の逆数にヘシアンの逆行列を掛けたものがよい → この最適化をすれば,オンライン学習の効率はバッチのそれと同じ

学習モデルの評価と過学習への対応
- 過学習:訓練損失は小さいが,予測損失は大きい → 構造的な誤差(モデル自体のバイアス) + 学習による誤差(真の分布と観測データのずれ)
- 過学習の評価:情報量規準→→再サンプリング(交差確認・ブートストラップ)
-- 再サンプリング:データを変えることによる学習結果の散らばりを見るだけで,実際の差は分からない
- 過学習の抑制:モデルの自由度を制限する,損失の正則化を行う
-- 自由度の大きさはモデルの次元だけではきまらずに,確率分布の空間に埋め込んだときにどれくらい曲がっているかが大事

* チュートリアル2:機械学習に基づく自然言語処理 — 全体概要と教師つき学習 [#v7e054a9]
松本 裕治(奈良先端科学技術大学院大学)

- 典型的な自然言語解析:形態素解析 → Chunking → 統語解析 → 述語構造解析 → 照応解析・共参照解析
- 統語解析:依存構造(係り受け)→単語間の依存関係(係り受け)の分析,句構造解析→文中での役割の分析し構文木を作る
-- 依存構造の分析:交差を許す場合とそうでない場合とがある
-- 動的計画法による効率的な計算
- 確率の推定:
-- HMM
-- MEMM (HMMとはことなり観測が与えられたときの隠れ状態の確率) → 長い単語を使って単語数を減らす方がよい
-- CRF:文全体をみながら分析

* チュートリアル3:機械学習に基づく自然言語処理 — 教師なし学習と最近の話題 [#t74f80eb]
持橋 大地(統計数理研究所)

教師なし学習
- 教師情報なしに,データだけから予測する
-- 教師情報を与えるのが大変,厳密に正解を定義することが困難

- 単純ベイズ:p(W|y) = p(k) Π p(w|y) それぞれの確率は単純に単語を数え上げるだけで計算できる
- ユニグラム混合:ラベルが分からないので,クラス y で周辺化する Σy p(y) Π p(w|y)
-- 特にクラスがなくても,かなり話題ごとにうまく分けられる
-- あるトピックで一度も出ない単語があるとその p(w|y) は 0 になってしまい,絶対にそのトピックが生じなくなってしまう → ベイズ的に事前分布を導入して 0 頻度問題を回避(ラプラス平滑化)
-- 超パラメータは経験ベイズで推定.p(W|α) は Polya分布(DCM分布)というものになり数値的に最適化できる
- 隠れマルコフモデルを使った教師なしの形態素解析
-- 通常のEMアルゴリズムは局所解に陥りやすいため有望な方法と思われていなかったが,分布を求めるベイズ推定を使ってその問題が解消された
-- オンラインの計算手法:SGDでMステップを実行
- トピックは一意に決まらなかったりする → トピックといったとき『科学技術予算』のトピックは科学?予算?
- トピックモデル:文書 W を話題の混合で表す → LDA
-- 最初の解法:VB-EMアルゴリズム (p(y|w) と p(w|y) との交互更新,yの事前分布的な要素が普通のEMとはちょっと異なる)
- LDAの拡張
-- visual wordを使った画像処理とかにも適用され,画像の領域ごとに主題を見つける
-- 方言と関連するように地理情報を加えたりできる
-- 人間が介入できるように識別モデルと組み合わせ:レビューサイトでレビューの星をトピックにして,レビュー文の対象トピックを指定し,そのトピック下でのレビューの星を識別問題として予測

発展的内容
- 混合モデルの限界:自然言語はトピック以外に文法的制約がある
- いろいろな制約を考慮した定式化 → 制約を各制約を満たす確率の積で表す(積モデル,対数線形モデルも該当)
-- 積モデルの正規化定数の計算は難しい → MCMCなどのサンプリング → 計算はまだ大変
- 収束するまでではなく1度だけサンプリング (Contrastive Divergence)
-- RBM も積モデルなので学習に利用されている ← 階層化したディープネットの最適化の調整は結構難しいらしい
-- 現在は積モデルといえばRBMだが,別にそれに限るわけではなく,他のモデルの可能性も探りたい

* 11月11日 (月) [#x85c2a9c]

* チュートリアル4:機械学習とクラウドソーシング — 機械の知と人間の知の融合 [#ge5cf887]
鹿島 久嗣(東京大学)

- 分析のプロセスのほとんどが人力
-- CRISP-DM:1990〜2000年代 データ解析業務プロセスの標準化の試み
-- データサイエンティストの不足 → データ解析の労働集約性を示している
-- いろいろ知的システムの成功例があるが,『データの外側』とどう取り込むかが成功のキモ
- クラウドソーシング
-- reCAPTCHA:二つキャプチャ画像のあるうち,もう一つは機械で本当に読めなかった文字の読み仮名を入力させてデータ集めに使っている
-- アウトソーシング(見知った特定の少数の相手に発注)⇔クラウドソーシング(不特定の多数の相手に発注)
- クラウドソーシングの形態
-- 間接的:タスクを,reCAPCHA ややゲーム化するという風に別の形に変える
-- 直接的:対価を払うか,ボランティアを募って仕事を頼む
- オンライン労働市場:Amazon Mechanical Turk, oDesk, elance, ランサーズ,クラウドワークス,Yahoo!クラウドソーシングなど
-- メリット:オンデマンドで発注でき,余暇的な時間で仕事を受けることができる
-- タスク:マイクロタスク(画像のラベル付け,住所の確認などY/Nで答えられるようなタスク)より複雑なたすく(ロゴデザイン,Webサイト作成,ソフト開発)
-- Amazon Mechanical Turk:2005年に登場,190ヶ国50万人のワーカーが参加(2011年時),APIを通じて自動でタスクが発行できる,国内では法的な問題から利用不可
- 計算機科学におけるクラウドソーシングの利用
-- 自然言語処理(アノテーション,翻訳)画像処理(アノテーション,イベント抽出)データベース/検索(データの生成,検索)
-- 2006 にクラウドソーシングの提案,2013 専門の国際会議 HCOMP の開始

クラウドソーシングによるデータ解析
- 米ビックデータ研究イニシアティブの3要素:機械学習,クラウドソーシング,クラウドコンピューティング
- 入力に対する人間の判断:選択式,数値,自由記述
- ゲーム化:出力一致,入力一致,関数評価 → 面白いゲームを作るのは実際のところ難しい
-- 出力一致:ESPゲーム → ランダムに選ばれた二人が画像に対して同じラベル付けをした場合に報酬を与える → 判断の難しいアノテーションを行う手法,ただし,判断が難しすぎるとどうにもならない
-- 入力一致:Tag-A-Tune → 各プレイヤーはそれぞれ楽曲の一部を受け取って,二人で相談して同じものを受け取っているかどうかを判断する → コミュニケーションがとれていれば一致するので,そのログに重要な情報があるはず
-- 関数評価:Peekaboom → 答え画像を知っている人が,見れば分かりそうな部分をクリックしてもう一人の人に知らせてあてさせる → 画像中の重要な領域が分かる

クラウドソーシングの品質保証
- 不特定多数の人に依頼するので,いいかげんな答えをして,対価だけを取ろうとする人がいる
- 品質管理機能:資格条件や事前テストによるフィルタリング → 一長一短がある
- 冗長化:同じタスクを複数の依頼し,結果を統計処理して品質を向上させる → 人数が増えると費用がかかるのでできれば少ない人数でやりたいが,多数の方が品質は向上
-- ワーカーごとに仕事の質を判定する ← 仮定:採用された解を提供する割合が多い方が信頼できる
-- Dawid&Skene:ワーカーの質を潜在変数として,その質で重み付けすることで最終結果を採用する
-- Whitehill+:ワーカーの質に加えて,タスクの品質を考慮
-- Welinder+:ワーカーとタスクの相性も考慮
-- 冗長化の限界 → 統計処理ができる定型タスクは限られる
- 冗長化の限界への挑戦
-- Lin+:無限の可能性のあるタスクへの対応:確率過程を使ったモデルにより,人が間違いやすいいろいろなパターンを考慮する
-- 馬場+:多数決以外に,評価自体もクラウドソーシングする

クラウドソーシングデータからの学習
- Rayker+:ワーカーの質と真の正解を両方とも潜在因子と考え,両者を交互に推定する
- 予測モデリングのクラウドソーシング
-- モデリングにはデータの特徴をうまく捉える必要があるが,そのあたりは人手に頼っている → クラウドソーシング
-- データ分析コンペティション:Kaggle, CroudSolving → 上位入賞者に賞金,その引き替えに分析モデルを納入,上位モデルをスタッキングで統合して精度の向上を図ったりもできる

今後の展望
- 協調によるデータ分析:コンペティション型の解析では互いの情報を秘密にしてしまう
-- 現状のトップモデルを改善した量に対して報酬を決める,早期の参加を促すために初期の参加者に高い報酬
- 予測以外のタスク
-- 大規模ネット講義で,宿題を相互レビューする
- セキュリティ・プライバシ
-- 紙のカルテの書き起こしとかはできない
-- PPDM 技術を応用できる可能性
-- データの分割により文脈を隠す:プライバシ保護のために顔の黒塗り → 顔が分からない程度に細かく分割して依頼する
- 機械と人間の協調作業
-- 人間と機械が共同してチェスをすると,機械だけや,人間だけより強くなる
-- Branson+:鳥の種の名前の認識 → 人間が画像をみて鳥の特徴をいろいろ記述 + 機械による分類
-- Yan+:同じ対象が写った画像の識別 → 機械がフィルタリングし,人間が最終判断
-- Kulkarni+:コンテンツ作成は修正と評価を繰り返したりするが,それをマルコフ決定過程でモデル化

* 企画セッション:ビッグデータ時代の機械学習研究 [#i6cbe4b6]

** 趣旨説明 [#k053a8f0]
杉山 将 (東京工業大学)

- 2008年と較べて規模も拡大し,産業界からの参加も増えた
- 学習アルゴリズムの相対的役割は低下し,前処理や解釈が重要になってきている

** ビッグデータ時代における機械学習研究の光と影 [#vb72695e]
上田 修功 (NTTコミュニケーション科学基礎研究所)

- ビッグデータの経済価値,米ビックデータイニシアティブ
- 従来の分析とは異なり,膨大な量を利用した分析
- 仮説検証 → 仮説発見
- 機械学習は分析の対象に依存しない部分
-- 機械学習:50-80 人工知能の開花,1980:エキスパートシステム・ニューラルネット,1990:データマイニング応用・計算機能力の向上,2000:統計的機械学習・非構造データを扱えるように
-- でも現場に行ってみるとそういう非構造データを扱うような手法は使われておらず,ロジスティック回帰とか
- 批判
-- Wagstaffの批判:アルゴリズムだけでなく,要求や各分野でのインパクトも考慮できるように,機械学習はそれが出す価値を出せ
-- John Chambers "Greater or Lesser Statistics":対象問題をどう扱うかも含めて統計は考えるべき
- 期待すること:異種データ融合,超スケーラブル,信憑性
- 真のML研究は,退屈?な計算理論ではなく,20世紀以前の探検家と同様,未知なるものを探求するもの

** ビッグデータへの同床異夢 [#n9f13f12]
樋口 知之 (統計数理研究所)

- 統計科学と情報科学の言葉の違い
-- データ⇔情報,情報⇔知識,知識⇔暗黙的な知 → 1階層思い描くものが違っている → お互いのものが何なのかすりあわせが大事
-- 個々のステップを続けていくが,その間で思い込みやずれが伝播・拡大する(?)
- データサイエンティスト
-- 統計科学の30年 北川敏男 ( http://ebsa.ism.ac.jp/ で読める )
--- 地理・歴史のような記述的な学問が好きであり,かつ,数学のような論理的な思惟の学問も得手であった ← データサイエンティストに向いているのでは
-- 技術(客観的,絶対的)⇔ 価値(主観的,相対的,人によって違う):価値から技術を作れる人
-- Data Scientists are actually T-shaped:Rodriguez,Data scientists tend to have deep experience in one category and some ability in others
--- 米では,データ分析の一部である統計だけで4000人も毎年育成している
- 内への期待
-- ベンチマークテストの性能向上からの離脱
-- 人とマシンの協調:エキスパートの持つ経験知のモデル化,データサイエンティストのネットワーク
-- 周辺領域への浸潤,縁のない領域への進出(データサイエンスはまだまだマイナー)
-- 学生・若手の呼び込み,数学との協働,温故知新
- 外への疑問
-- 可視化の研究はどれだけ有益か? ← 疑問視している
-- モデルは不要か? ← 演繹法の限界があるだろう
-- 全探索は必要か?
-- Hadoop のできる人材はどれくらい必要?
** 岐路に立つ機械学習・データマイニング ー新しい展開に向けてー [#ke6c1cd9]
鷲尾 隆 (大阪大学)

- ビックデータ:ペタ・テラバイトのデータ → 機械学習を扱える規模を超えている
- NIPS → コミュニティとしてビックデータとはあまり関係ない
- KDD → 主催者側はビッグデータを扱うものが多かったが,発表はあまり関心なし
- BigData → ML/DM の研究はほとんどない
- ビッグデータは多様で雑多 → 全探索や全アクセスが困難,サンプリングだけでは特徴を捉えきれない → 既存のML/DMの方法論に載りにくい
- ML/DM研究の現状:大成功して延びてきた → 問題設定が陳腐化してきた(分類とか)研究のインパクトはコップの中の嵐
- ML/DM研究の今後
-- 原理を追求する研究は,物理の大統一理論のようなインパクトを考えるべきでは?
-- シミュレーションなどの他の分野と組み合わせ
- GWASへのグラフマイニング技術の紹介 → 先験的な知識をいろいろ加える必要
-- 機械学習は一般性を追求してきたが,一般ではない状況の知識を取り込む方法の研究
- 量子状態異常検知への応用 → 物理学会で発表 → 横方向の発展がもっと重要では?
- 原理を追求する方向と,他分野への融合展開を図る方向に,研究者は判断を求められている

** 非機械学習屋から見たビッグデータ [#ld886778]
喜連川 優 (国立情報学研究所・東京大学)

- 迷える機械学習屋をはげまして欲しい → 迷って何が悪い,研究者は迷うもの → 迷ったら,前進あるのみ
- 最先端研究開発支援プログラム『超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評価』
-- 大規模データの基盤とかを使うのは難しい → 顔認識とかが伸びたりしたが,ちょっと別の対象にすると動かない
- BOPヘルスケア:バイタル測定器をずっと付けてもらってデータを測定 → 8000人規模のデータ,血圧などの分布データが分かった
- 非順序型エンジン:IOの利用密度を向上
- 保険レセプト:400億レコードを処理,現状では処理に10日とかかかったりしているので協力
- Watson:ビッグデータが知に化けた ← だが,ここまでくるのにIBMは100年かかってる
- ビッグデータの醍醐味はテール
- (いろいろ危ない発言はけずったのでこれなら大丈夫だと…)


** マルチエージェントシミュレーションの力 [#g3b18608]
中島 秀之 (はこだて未来大学)

- 大域カーナビゲーション
-- カーナビの全データを集積して,将来の交通状況をシミュレート
-- 混雑情報のフィードバックをすると系は振動するけど,将来の状態をつあ
- フルデマンドバス:呼ばれたところに行くバス,高知県中村市では固定路線バス赤字を減らした
--シミュレーションでやってみると台数が増えたときの所要時間をみてみると,台数が増えるとある点以上は固定路線より所要時間が短くなる
-- 函館で実証もしようと計画中 → 数台でやると悪くなるのは分かっているので大規模に導入する必要 → IT端末と運行方法を変えるだけで,バスなどのインフラはそのまま → いつでも戻れる体制
-- 市民の行動データが効率の鍵だがは小規模のデータしかとれない(20人に4ヶ月)→ エージェントシミュレーションで人数宇は拡大できる
- Demand Responsive Transport (DRT):デマンドが少ないと成り立たないと言われているが函館でやろうとしている
- バスは観光客などに利用されない ← 路線が見えない,時間効率で負けている
-- バスとタクシーで乗客を取り合うのではなく,公共交通のシェアを増やす方向

** システム制御と機械学習,そしてエネルギーマネジメントへ [#g5c2acc5]
藤田 政之 (東京工業大学)

- ロボット群の協調制御:被覆制御,互いの縄張りを保つような位置取りをボロノイ分割の最適化として最適化
-- 局所最適が全体最適ではないが,分散的にやって全体最適を達成しよう
- 強化学習:探索・活用のトレードオフ調整ではうまくいかないときも → 非合理選択(最善以外の選択)をしてみて障害回避 →
-- Learning in Games:Nash均衡解の計算プロセス → Nash均衡にいたる過程にそって動作させる

CREST:分散協調型エネルギー管理システム構築のための理論及び基盤技術の創出と融合展開
- 家庭での電力消費のパターンのクラスタリング:混合ガウスを利用した分析 → クラスタごとの発電システムの導入の参考に

** パネルディスカッション [#p34ab991]

基礎研究を続けたいと思ってるが,応用にいくべきか?
- 中:役に立つかどうかは分からないし,役に立つと分かってからやり始めては遅い
- 喜:今壇上にいる人は基礎をやってきて,今は応用に来ている.しっかりした基礎が出来てないと,何にでも対応できるように
- 樋:ずっと迷っていて実績のない人がいるとき,将来化けるかどうか?
-- 藤:基礎はないとまずい,解ける問題ではなく解くべき問題に取り組んでいるか?
-- 中:研究者:大きなことをしようとしている,研究屋:地道にデータを集める人
-- 喜:二つのことをしよう → 一個は自分が楽しむこと,もう一個は社会に還元

理論研究は表に出てやるものではない?
- 上:機械学習では理論の裏付けがあってこそのもの → ただガリガリ理論をしてる人は上の方に立ちたくない人が多いという負の相関があるだけ.ただ,『的』ではなく,本物をめざすのは大事
-- 文字認識で苦手なデータだけの分類器を組み合わせるというヒューリスティックは知られていたが,ブースティングの理論でサポートされた
- 鷲:まず基礎をがっちりやってみて,その後,基礎で走れると思ったらそのまま走ればよいし,新しい分野を起こしたいと思ったらそのときに判断しては
- 中:個人ですることと,集団ですることは違う
- 樋:理解のあるグループに入る.価値観を共有できる人をソーシャルメディアなどで探そう.
- 藤:最近はそれほど理論への逆風は減ってる

国際的なプレゼンスを出すには?
- 中:国際会議とかで目立ついは海外の人の論文を改良するとかになってしまう.独自のものをやるには,ワークショップなどを立ち上げて発信.本会議はもうこなれた内容のもの.
- 喜:ずっと論文を出し続けて,地道に顔を売っていく.大きな賞をとる人は基礎の人で,そう見るとシステムの人の方が日が当たっていない.基礎の方が飛躍が明確に分かる
- 上:EMアルゴリズムみたいな,本当に大きなインパクトを与えるような,エセでない理論をやろう.理論でも厚みのないところは求心力がなくなって淘汰されて消えていくだろう.
- 鷲:世界中で理論先端に届く人は減っているので,そういう人とのコミュニケーションが重要に

最後に若い研究者に一言
- 樋:若い人が多いのは多様性があるということ
- 上:最後は覚悟と祈りしかない
- 鷲:煮詰まってると思ったら,他の人がやってないことを勇気をもってやろう
- 藤:漸次的な改良の理論ではなく,大きく分野を起こす理論を.バンケットやコーヒーブレイクでは日本人以外とお話しよう.
- 中:若い人には面倒見のいいボスを見つけよう.年寄りの人は面倒見のいいボスになって下さい
- 喜:インクリメンタルかどうかの線引きは難しい.先人の研究に乗っかっていない研究はない.最初は物まね・インクリメンタルでもいいが,その分野で世界で一番に.すると,多くの人との繋がりができ,それが宝物になる.地道なものでも積み重なって,あとから大きなジャンプに見える.

* 特別講演:東京とシカゴを往復しながら考えていること [#x8f884ac]
古井 貞熙

東工大:博士課程の幅を広げる
- 専門能力,俯瞰力,コミュニケーション・倫理観,行動力・創造性,気概

シカゴ大 TTIC
- よくディスカッションする
- 理論から,バイオや音声など多様な教員
- シカゴ大がCSのレベルを上げたいという意向
- 機械学習は,大学が多額の報酬で取り合いをしている状況だが,さらに Google や MS などがさらにその数倍で引き抜いていく
- リスペクトの精神:存在を認める

日本の大学教育へ
- 基本的な知識は教えないといけないけど,それを使いこなす力.問題を見つける力.なぜ?の意識

* 11月12日 (火) [#i851c066]

* 企画セッション:ディープラーニング [#qb7b08c3]

** 画像認識分野でのディープラーニングの研究動向 [#a0e812ea]
岡谷 貴之 (東北大学)

- ニューラルネット:1960年代,1980年代,2010年 の3回目のブーム
- DNNの過学習とその克服:学習最適化の工夫,ネット構造の工夫,データを増やす
- DNNの成功例
-- IMAGENET Large Sale Visual Recognition Challenge 2012 で圧勝
-- 画像特徴の教師なし学習(Googleの猫) YouTubeの画像1000万枚.脳内で特定の顔などに反応する「おばあさん細胞」の仮説に対応するノードが自動的に生成された

ディープラーニングによる画像認識のパラダイム変化
- 顔認識とかはできていたが,一般物体認識はうまくいってなかった
- 画像認識:特徴抽出と分類の大きく2段階
-- 今までうまくいったかどうかいい特徴を作れていたかどうか
- DNNは特徴自体も学習によって獲得するというパラダイムシフト
- 画像のDNN:普通の階層的ニューラルネットを多層にしたもの.一般物体認識では多クラス分類問題を解く
-- 通常の勾配に加え,モメンタム(今までの勾配方向)や進み幅の調整などのパラメータ調整が必要
- レイヤーごとの初期化:DNNで学習がうまくいかないのは初期値が悪いせい → 1段分ずつ順番に学習して初期化し,その後多層をまとめて学習
- スパースオートエンコーダ:中間層が疎に活性化するように正則化をする
-- 得られる特徴がそれぞれはっきりしたパターンを持つようになり,認識率が向上
-- Googleの猫では3層のこうしたネットを使った
- プレトレーニングはなぜ有効か? → 同じクラスの画像は複雑な多様体上にのっていて,よい初期値を与えるとその周辺だけで探す効果で,その多様体がフラットになる
- 全結合NNの学習
-- ドロップアウト:ランダムに隠れユニットを省いて学習し正則化と同様の効果を得る
-- 識別的プレトレーニング:層をだんだん足していく

たたみ込みネットワーク
- 歴史
-- 福島のネオコグニトロンに始まるが,当時は大規模化ができなかったので性能がでなかった
-- LeCun はBPで多層ネットの学習に成功し,手書き文字認識で成功
- 構造:フィルタでたたみ込む段階と複数の画素をまとめて画像を荒くするプーリング段階とを交互に繰り返す
-- たたみ込み層は学習する必要
-- プーリングは固定の配線で実現できるので学習は不要:荒くすることで微少な変化に対する不変性を実現
-- 特徴が学習できたら,最後に普通の多層ニューラルネットで分類する
-- たたみ込みネットは,パラメータを十分に調整してあれば,プレトレーニングなしでも性能がでる

脳の視覚情報処理
- V1→V4→PIT→CIT→AIT と経路を得るに従って複雑な構造特徴が得られるようになる
-- V1層:ガボールウェーブレット,特定の位置・向き・スケールに反応する → たたみ込みネットのモデルとなった

DNN
- 長所:圧倒的な性能で,向上しそう
- 短所:パラメータの調整が非常に難しい,ネットの設計と学習データの大規模化ができるかが鍵になる


** 音声認識分野における深層学習技術の研究動向 [#n164e73a]
久保 陽太郎 (NTT コミュニケーション科学基礎研究所)

音声認識の基礎
- 言語,辞書,隠れ状態(音素)音響の四つのモデル
- NNと音声認識:1989:Time delay NN → 1995:Hybrid MLP-HMM → 2000:MLP-HMM Tandem → DNN
- Time-Delay NN
-- 時間方向のシフトを解消する工夫をしたNN.たたみ込みネットの一種.
-- プーリングは最終層だけで,たたみ込みを繰り返す
-- 固定長セグメントの分類には効果的だったが,系列ラベルは扱えなかった
- Hybrid MLP-HMM
-- 音響モデルを,P(音素|音響)/P(音素) に分けてそれぞれを求める.最初の方をNNでもとめて,P(音素)は別の方法で
- MLP-HMM Tandem
-- NNが特徴抽出の機械として使い,その後はHMMで認識
- 音声認識では RBM を使うことが多い

音声分析とNN
- (音声関係でDNNのセッションは部屋に入れないくらいの人気)
- Sequential Discriminative Criterion
-- 単語列全体の一致考える損失 Single-level MMI,MPE → HMMでの工夫をNNに取り込む流れ
-- 最適化は難しくなる → 全ての系列についての和などが必要になるが,そのあたりの技術も進展している
- リカレントNN
-- 文脈を入力する代わりに,前の時刻で得られた中間状態を利用する
-- 明示的に文脈を決める必要がなくなるメリット
-- Connectionist Temporal Classification:RNNは,入力が短いときは,出力はヌル文字を出力することで入出力の長さが調整できる

音声の多様性の考慮
- 話者適応
-- KL正則化:少量・特定話者への識別率を上げるが,不特定話者モデルからの逸脱が抑えられるような制約
- 多言語音声認識
-- 複数の言語の音響モデル学習だけを別にして,他を共通にするマルチタスク学習で全体の認識率を向上

** 自然言語処理分野におけるディープラーニングの現状 [#u2d47b66]
渡邉 陽太郎 (東北大学)

- NLPにおける深層学習:言語解析・構造予測,言語モデルの構築・分散表現の学習,言語構成性のモデル化

言語モデル・分散表現
- フィードフォワードNN と RNN の比較 → FFNNは層を増やすとRNNと変わらなくなる

言語構成性のモデル化
- オートエンコーダをツリー状に組み合わせた RecursiveNN
- Syntactically United RNN → 構文解析
- Recursive Neural Tensor Network → 文の評価極性分類(否定とかによる反転もかんがえた極性の判定)

自然言語処理にDNNは必要か?
- 対数線形モデルでも結構いけてる → CRFのような線形に対して,非線形にする意味は?
- 比較した研究では,特徴ベクトルが高次元離散入力だとCRF,低次元連続知ベクトル入力だとDNNがいい.両方のいい方を較べるとCRFがいい

現状のまとめ
- DNNは一定の成果は出ているが,従来手法からの大幅な改善はない
- 分散表現:離散ベクトルとの組み合わせは有効,意味的な類推は面白い結果も
- 表現学習:言語処理の特徴は単純なので,画像や音声ほどのうまみはなさそう
- 言語の構成性のモデル化:Recursive NNは強力なフレームワーク

* 招待講演:Recent Advances in Deep Learning: Learning Structured, Robust, and Multimodal Models [#f80429e9]
Ruslan Salakhutdinov (University of Toronto)

- Webやビデオの大量データ → 背後の構造,意味的関係,制約などをデータから見つける
- 特徴表現の学習 → 入力空間だと非線形の識別面が,特徴空間だと線形で識別できる
-- 教師なしで,データをみるだけで意味のある特徴を獲得したい

深層モデルの学習
- Restricted Boltzmann Machine (RBM)
-- 確率変数間の依存構造を表現するためのモデル:可視変数 v の関連が隠れ変数 h に連結することで表される
 Π P(v | h)
-- 結合は全て無向
-- v が二値ならベルヌーイ,実数ならガウス分布,語の頻度なら多項分布に
-- 隠れ層は二値変数だけど,可視層はいろいろなデータを表現可能
- Deep RBM
-- 隠れ層に,さらに隠れ層で繋いで,隠れ変数間の関連をモデル化
-- 結合はやはり無向
-- 中間層の確立は,トップダウンとボトムアップの両方の影響を受ける
- DRBMの近似計算
-- 変分近似:P(h|v) は無理なので
 log P(v) ≧ log P(v) - KL(Q(h|v)‖P(h|v)
の変分下限を最適化した近似解 Q(h|v) を求める
-- 確率的近似:全体の期待値ではなく,各データ点ごとにの値の平均を使ってパラメータを学習
- 階層的表現の学習
-- 最初は辺などのプリミティブ,そしてそれらの組み合わせが学習される

構造化・頑健モデルの学習
- Deep Lamberian モデル:普通のDRBNに加えて,光りの方向を表すモデルを事前知識として組み込んである
- Robust Boltzmann Machine:オクルージョン対応
- 転移学習
-- 階層的Deepモデル:低レベルの特徴をDRBNで出して,その上にカテゴリ階層などの高レベル特徴を階層ベイズモデルを使って処理
-- 異なる高レベルのカテゴリで使える低レベル特徴をマルチタスク学習する

マルチモーダル学習
- 画像にアノテーションのテキストが付いている場合など異なるタイプの情報を同時に扱う
-- 画像の特徴は密だが,それを疎なテキストと対応付ける必要
- 画像の可視変数は実数値,テキストは多値変数.それぞれでDRBNを作り,最上層でそれらを統合するRBN層を付ける
-- 画像からアノテーションのテキストが自動生成できたり,逆にテキストに対応する画像を選んだりできる
- 同様の枠組みでビデオと音声 → 読唇術の例

* 招待講演:デザインのためのインタフェース [#ud7edfba]
五十嵐 健夫 (東京大学)

参考:
- http://www-ui.is.s.u-tokyo.ac.jp/~takeo
- http://www.designinterface.jp/

ユーザインターフェース研究
- グルーピングをやりやすくするため,近づけたら餅のようにくっつく
- 移動&ズーム:動かすスピードを早くすると自動でズームアウト,遅くするとズームインして,大域移動もやりやすい

デジタルメディア
- プロでない人手も高度な画像を作れるように

2D画像の操作
- 対称な画像を作ろうとすると,半分作って反転コピー → 自動で直角や,幅,長さを揃えてくれる
-- 曖昧なところは複数候補を提示
- メニューから選ぶ代わりに,コマンドを適用する要素をヒントとして与えると,それから次の操作を提案し,ユーザが候補から選ぶ
- 3Dモデリングでざっと見た感じを書くと膨らんだ3次元形状にできる
-- 中心線を出す → 高さを輪郭までの距離に比例する距離だけ持ち上げるという手法
- 2次元の重ね合わせを拡張して,3Dでの折りたたみや結びを行う
-- クリックによって3Dの物体を考慮した上で前後を入れ替える
-- キーコンビネーションによって,3D空間中の前後が操作できる
- 2Dの絵のデフォーメーション
-- 指定した点を固定して引っ張ったりといった操作ができる
-- 三角形分割で形状をモデル化し,固定点を固定した制約で,変形を最小にする幾何演算だけで物理シミュレーションとかしない
- 心臓スケッチを書き換えると,血流のながれの変化を自動で計算して,スケッチ上の記述を変更する

3次元立体の作成
- 物理的な拘束条件に基づいて,2Dスケッチから,3Dの立体が作られる
-- 展開図を計算し,その展開図から作った3D立体を物理拘束条件を考慮して作れる
- ワイヤーにビーズを通して作るモデルの設計
-- 立体にどうやってワイヤーとビーズをどう通したらいいかを自動計算
-- ハミルトニアン閉路の計算になる
- 横断面の図から,椅子を作る.物理シミュレーションで実際に座れるかも計算
- 自由な形の鉄筋を作る:音階の制約を満たせるように,形状から音響シミュレーションを有限要素法でリアルタイムに計算
- 服の生地の展開図に合わせて,実際に着せた画像をリアルタイムで表示
- 棚の見かけを書くと,どういう部品に分けて作ればいいかを計算
-- 部品の局所拘束条件を文法として記述し,全体を構成できるようにする

ロボット
- マジックカード:掃除して欲しいところに紙をおいたり,ゴミ箱のところにこのゴミを捨てておいてとか書いておくと,ロボットが処理してくれる
-- エラーなど,ロボットからの人間へのフィードバックもカードで
- Lighy:沢山のライトがあると,自由度が多すぎて沢山のスライダーとかで制御するのは大変
-- ペイントによってライティングの強さを描くと,その結果が得られるようにライトの向きと光量を自動で制御してくれる
- モーションプランニング:ロボットが物体を押す
-- 普通は反対側に回り込んで,それから押すとかプログラムを書く → 最初のステップがちゃんと完了したかどうかとかの判定が結構大変
-- dipole場を利用することで,二つのステップをまとめて,なめらかに繋いだ動作にできる
-- 2台が繋がって押したりとかもできる
- ケーブルロボット:電源ケーブルのついたロボットが,それを取り回しながら目的の行動をする
-- さらにケーブルを踏まないようにといった複雑な場合も
-- 空間の変化を先読みして,中間経由地のプランニングをする

* 11月13日 (水) [#i63d1a7d]

* 企画セッション:脳・画像・ロボットと機械学習 [#g765ba80]

** 大規模データを用いた画像の識別と言語記述 [#a0c83ed0]
原田 達也 (東京大学)

- 一般物体認識 → 2012で一般画像認識 → とっぴょうしないラベルは付かないようになった
- fine-grained対象認識 → 犬が全面に写っているの画像で種類を認識 → ほぼ正解できた
- ラベル付けを超えた画像認識:自然言語記述 → 犬が人を噛んでいるか,人が犬を噛んでいるか区別できる
-- 説明文付きの画像から,適切な自然言語文を生成できるように → 文章の自由度が非常に高いのでかなり難しい
- multi-keyphrase → 自然文にゆく前段階として,2〜3語のラベルにする → クラス数が増えるので難しい
- ロボットに指示を与えるため,画像中の一部をタッチするだけで,それが示している対象を認識する
-- 対象の立体形状に対する事前知識がないと対象を把握できない

画像の表現方法
- 画像特徴:画像中の特徴のある点を検出 → その点の状態を数値ベクトルに → それらの集合で画像を記述
- 数値ベクトル:局所的な輝度と方向情報の平均や分散
- ベクトルの類似度は,画像がのっている多様体上の測地線距離を考える必要

深層学習
- 成功の理由
- data argumentation:今まで画像特徴は位置不変性などを考えてきたが,その代わりに鏡像や並行移動したりしたデータも加えてしまう
- こうして増やした大規模データも処理できる体制を整えた
- 最初に用意するデータの質は重要

- 実世界認識:Webから取得した画像は,人間がフィルタリングして選んだデータで,実世界にはもっとデータがある
-- ジャーナリストロボット:この人間のフィルタリングを,異常検出の手法で見つけ,その事態が何なのかを人間に尋ねる

** 人と環境の理解に基づくロボットの自律知能 [#c8e177da]
加賀美 聡 (産業技術総合研究所)

- 知能ロボット:認識 → 計画 → 制御のループ:これらの各段階と,機械学習との関わり
- 研究紹介:視覚情報に基づく歩行,蹴ってから足をつく位置を計画して倒れないようにする

計画
- 物を動かすとき,他のものに当てたりしない軌道をリアルタイムに計算する
-- 世界をモデル化して,その中で探索することで解いている
-- 全探索すると大変なので,人間の動きをキャプチャして,その範囲内で計算することで探索範囲を限定する
- 制約条件付きプランニング
-- モーターのトルクや,関節の可動範囲の制約を考慮した上で行動を決定
- 6次ぐらいまでは A* で解けたりするが,それ以上の探索はランダムになる
- 自立車いす
-- GPSが木や建物で使えない → レンジセンサーで地図を作った
-- 人間が通る道を指定すると,車や人などの障害物を回避して,その経路を通る → POMDP
- 原発のがれきの自動運搬:地上はGPSが使える,地下に入れるところだけ問題
-- 荷物の積み卸しはリモートで人間がやる,運搬は自動
- つくばチャレンジ2013:決められた服装の人を走りながら見つける
- 車の自動走行:レンジセンサーで3D地図があれば走行できる
- 日本科学未来館やパシフィコ横浜などの人ごみの中でも走行できた

課題
- 歩道や横断歩道などの規則の順守?
- 人同士がよけるルールは明示されていないがどうか?
- 子供の跳び蹴りがきたらどうするか?
- 雑草を踏み倒してもいいのはどうやったら分かるのか?
-- 認識・計画・制御のループでは実現できない

** 機械学習を使って脳から夢の内容を解読する [#m3c87d28]
神谷 之康 (ATR 脳情報研究所)

ブレインデコーディング・マインドリーディングの技術
- 夢の内容を読む
- fMRIの中で人間がグー・チョキ・パーをすると,それをロボットハンドがマネする
-- fMRIの信号を目で見てもわからない → 機械学習技術
- デコーディング:脳活動は心・行動・刺激の符号化であるとの考え
-- 脳活動 10万ボクセル(3D中の信号)で,100〜1000サンプル → 現状では高バイアスモデルが多用されている
- functional brain mapping:課題をさせて,あるボクセルの反応をみる
- brain decoding → ボクセルのパターンと目的変数との対応付け

decoding visual orientation:8方向縞模様をみてその向きを当てる
- 線の向きはコラム構造という細かい領域で認識されているのが分かっているので,これをfMRIで捉えるのは難しい
- 反応するボクセルの出力をうまく集めることで認識できた
- 実際に見ている場合の反応と,その画像を思い浮かべているときの反応は似ている → mind reading の根拠
- 非常に多数の特徴,多重解像度でいろいろな箇所のデコーダを作り,それをまとめる2段階の認識

脳活動からの画像の再構成
- デコードモデル:脳活動の信号から,画像の基底を求め,それらを組み合わせて結果の画像を再構成する
- エンコードモデル:入力と同じような反応をしている画像の平均画像を出力

夢のデコード
- 睡眠:約1.5時間周期でREMになり,そのときに夢をみる → 寝入ったときにたたき起こして何の夢を見ていたか質問する
-- 300回ぐらいの睡眠で,一人から200回の夢をサンプルする
- 質問で得た文章の単語を,言語オントロジーを使ってカテゴリ分類.そのカテゴリに対応する画像を Imagenet から取得
- これらの画像を見たときの脳の反応を見て,夢を見ているときの反応と較べる
- 対象となるカテゴリの信号と共に,意味的に関連するカテゴリへの反応も上がる
- 起こす直前との関連が最も高い:報告することのは起こす直前の夢だけらしい

Brain Webインターフェース
- 計画:夢に対応する信号とWeb上の画像と対応付け,新たなコンテンツを作り出す.

* 企画セッション:学習理論 [#hac69893]

** 変分ベイズ学習理論の研究動向 [#ma13501f]
中島 伸一 (ニコン光技術研究所)

- 線形などの正則モデルと,多くのモデルが属す特異モデル
-- 過学習の程度:正則だと余分なパラメータ分ぐらい,特異でMAPはし易く,ベイズならあまりしない
-- 情報量規準:正則だとAIC,BIC,特異でベイズなら:WBICなど
- MAPなら最小化問題になるが,ベイズで特異ならサンプリングになって面倒 → 変分ベイズ

変分ベイズ [Attias 1999]
- ベイズ事後分布を(広がりのある分布で)近似する位置手法:計算は効率的,パラメータの推定精度に関する情報が得られる,モデルの自由度を自動選択可能(ARD)
-- 複数のピークを一つのピークで近似 → 分布の形状は大分変わる

凸形式 vs ベイズ
- 正則化を使った凸形式の方法 → ベイズ事前分布とみなせて,うまくλを選べばうまくいく
-- スパースベイズ:ARDで使う事前分布
- これが行列でも同様にできたと

- 周辺尤度によるモデル選択:仮説が与えられたときのデータの事後分布を最大に
-- ARDはこの原理に基づく経験ベイズ法になっている
- ベイズ学習が解析的にできないモデル
-- 行列分解モデル → 相関を無視するとできるようになる

行列分解モデル
- 行列分解したときの下の行列に残差がそれぞれガウスに従うモデル
-- 真のランクが小さくスパースであれば解ける

** 確率と計算 — アルゴリズム論的視点から [#icb28782]
来嶋 秀治 (九州大学)

- 乱択アルゴリズムにおいて,乱数に真に求める性質は何か?
-- 乱択の威力,高度な乱択技法,脱乱択化

ストリーム中の頻出アイテム検知
- 辞書 Σ のデータストリーム中で,度数(s)≧しきい値・データ数 を満たす文字 s∈Σ を全列挙
-- Σ が大きすぎて表を作ることはできない
-- 厳密解には Ω(|Σ| log(N / |Σ|)) ビットのメモリが必要
-- 厳密でなければ O((1/θ) log N) ですむ
- 単純に数を数えるには,数字を符号化するのに O(log N) ビット必要で,その近似は浮動小数点表原で O(log log N) ビットですむのだが,決定的アルゴリズムでは数え挙げ O(log log N) メモリでは不可能
-- 確率的アルゴリズムで数え上げると,現在のカウンタ値 k について 1/2^k の確率でカウンタを増やすと,総数の近似は 2^k で得られる
-- 1/2^k の確率を計算するのに 1/2 のフリップを何回連続で表がでたらいいかを数える必要があり,そのためには log(k) ビット必要で,そのため log log N のメモリが必要に

組み合わせ的対象のランダム生成:MCMC
- 各セルは非負整数,与えられた周辺和を満たすランダム2分割表の個数を求める #P (NP完全)
- MCMC法を使う:隣あう列をランダムに選び行和・列和を変えない変換を通じた,列和・行和不変なマルコフ連鎖を作る → 何回サンプリングする
-- 無限回したときのサンプリングができる:coupling from the past (解説は http://tcslab.csce.kyushu-u.ac.jp/~kijima/index_j.html から)

ランダムウォークの脱乱択化 → 複数のトークンで確定的に振る舞わせる

** 離散構造のオンライン予測 [#k9f22ef5]
畑埜 晃平 (九州大学)

離散構造のオンライン予測モデル
- オンライン資源割り当て問題
-- 資源を対象に割り当てる.割り当てたときに対応に応じてコストを返す.コストは毎時変わって,割り当てを提示すると提示される.
-- 離散空間が:k集合(多腕バンディット),全域木,順列行列・ベクトル,s-tパス
-- ヘッジアルゴリズム:エキスパートの組み合わせでよい近似ができる → 各反復で離散空間の大きさのオーダだけかかってしまう

離散→連続ベクトル予測への帰着
- 連続ベクトルのオンライン予測:累積損失+規準となるベクトルからのBregmanダイバージェンスを規準に → O(√T) のリグレット
- 射影:凸包上の一番近い点,ラウンディング:凸包上の点から,その両側の点をそれまでの距離に応じてランダムに選ぶ
- この性質を使って離散問題を連続ベクトルのオンライン予測問題に変換できる(?)

オフライン-オンライン変換
- 対応するオフラインアルゴリズムをオンライン化する
-- αリグレット:完全な解に対するリグレットではなくα近似解に対するリグレット
-- オフラインのαリグレットアルゴリズムに問い合わせることでオンラインの候補解を作り出す

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS