#author("2018-11-04T08:53:10+00:00","default:ibisforest","ibisforest")
* 第21回 情報論的学習理論ワークショップ (IBIS2018) [#o6c99e03]

COLOR(#00AA00){このページはしましまが [[IBIS2018>IBIS#IBIS2018]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.}

#contents

* 11月4日 (日) :チュートリアル [#j62a711d]

* 深層学習入門 [#nb8da56d]
園田 翔(理研AIP)

- 深層学習のNN構造一覧 https://www.asimovinstitute.org/neural-network-zoo

- 深層学習
-- 深層ニューラルネットの学習法:難しいといわれていたが,2012年から学習が可能になった
-- ニューラルネットによる機械学習の応用:画像処理,音声信号処理委,自然言語処理,ゲーム,ロボティクス
-- 深層学習 ⊂ 機械学習 ⊂ 人工知能
- 応用: 認識(YOLOによる一般物体検出,階層的なダウンサンプリング構造)生成(GAN,認識NNを逆に使って乱数をアップサンプリング)強化学習(AlphaGoなど)
- ニューラルネット:任意の写像が表現できるので,工夫次第で何でもできる
- 脆弱性:敵対的事例 (adversarial example),わずかな入力の変動で認識できなくなる
- 歴史
-- 第1次ブーム(50-60年代)単純パーセプトロン時代:19世紀末にシナプスの発見,1943年のMcCulloch&Pitts,1969 Minsky&Papert 挫折,
-- 第2次ブーム(80-90年代)多層パーセプトロンとバックプロパゲーション時代:多層についての効率性の理論も出てきた,CNNやRNNなどの基本構造はほとんど登場,学習の難しさから再び冬の時代に
-- 第3次ブーム(00年代後半)2006年で教師なし特徴抽出,2011年〜から音声や画像で多くの成功例
- 浅いニューラルネットで任意の関数を表現可能:活性化関数は任意の非線形関数でよい
-- 線形の方向に延びた活性化関数で決まる形状の畝状の関数が一つのニューロン,その任意個の線形結合で任意の関数が表現できる
- 誤差逆伝播学習:SGDで解く,勾配の計算は誤差逆伝播(合成関数の微分),簡単には収束しない(錬金術)
-- パラメータが非常に冗長で高い対称性:局所解が無数にあり,学習済みパラメータの解釈は困難
-- SGDでミニバッチを使うことで局所解の脱出を期待する
- Rectified linear unit:ヒンジ型の活性化関数,閾値からの距離の情報がステップ関数とは違って残る点が最適化において有利に,タスクによってはソフトマックスがよい場合もある
- 結局何が新しいのか?:計算機パワーと大量データ,ReLUによる勾配消失予防,Dropout&Batch正則化(層毎の正則化)ResNet(昔の名前,パターン変換)Seq2SeqやGANは新しいのでは? LSTMやCNNも昔からある
- 畳み込みニューラルネット:画像認識の性能を飛躍的に向上させた.毎年,層の数が増えたが,2015年で1000層ぐらいのNNの学習が可能になり多数の層の学習は一段落
-- 畳み込みとプーリング
-- スキップ接続:2015年ごろ,畳み込み層をスキップして出力層に直接入力を繋ぐ経路もある (ResNet)
- Deep Face:2014年,中間層では元の画像が徐々に線形分離可能な空間に移動されている
- 自動運転:2016年,運転動画⇔ステアリング信号対応がend-to-endでできた
- 回帰結合ニューラルネット(RNN)
-- BPTT:過去の誤差信号に時間に応じて指数的な係数がある→発散・消失が極端
-- LSTM:指数的な係数を1に近づくようにして安定的に収束するように
- sequence-to-sequence (encoder-decoder):入力と出力それぞれに RNN,入力は一度中間層にデータを溜めて,この中間層を使って出力側の信号を生成
-- 2015年,画像にキャプション,入力のencoderはCNN,出力のdecoderはLSTM
- 生成モデル:制限ボルツマンマシン,自己回帰型ネット (ARN),変分ベイズオートエンコーダ,敵対的生成ネット(GAN)
- ARN:過去の信号が与えられたときの次の信号の分布を学習,短いデュレーションから始めて徐々にデュレーションを長くしてゆく
- GAN:識別器⇔生成器
-- GAN,DCGAN,Conditional GAN,Wasserstein GAN
- 深層学習の理論
-- 何が学習できるか?非凸最適化なのにうまくいく理由.P≫N でなぜ汎化できるのか.内部写像が学習しているもの.ニューラルネットの説明(特徴量可視化)少数データからの学習(転移学習・メタ学習)
- 何が学習できるか?
-- 表現力の問題:深層ReLUネットの近似誤差評価.中間層の素子数に対して表現力は多項式的にしか増大しないので,深さに対して指数的に増加する方が有利,証明は変わったネットを使っている
-- リスク評価:ミニマックス最適,浅いネットでも達成可能だが,深層だと滑らかさのクラスが緩くても大丈夫
- 非凸最適化
-- ある条件の下では,DLの局所最適は大域最適(線形かつoverparametrized NNの解析が主)
-- SGDによる悪い危点の回避,層の深さと幅の広さはSGDを加速する
- なぜ汎化するのか?
-- 大まかにいって汎化誤差 G≦√{P / N},P=モデルサイズ・容量,N=データ数
-- かなり緩い限界,現実はもっと良い.多くの理論限界はパラメータ数より悪い.Aroraによる
-- どこかに正則化があるはず:明確(データ拡張,ドロップアウト,重み減衰)暗黙(SGDのノイズ,早期終了,初期値,スケーリング,学習係数,ミニバッチサイズ)どれかが有効な正則化
-- VC次元などはいずれもモデルの容量としては機能していない.そもそも深層学習がうまくいっている対象は物理的に単純だから,モデルが大きい方がよい初期値をひける可能性が高い
- 内部写像が学習しているもの
-- 積分表現理論:浅いNNのパラメータはリッジレット変換で与えられる
-- 意味の階層構造,特徴量の段階的変換
-- 輸送問題の見地:座標を線形分離可能な配置に輸送されなければならない → 常微分方程式で記述してモデル化(90年代からこの見方はある)
--- ResNet:スキップ接続は常微分方程式そのもの
--- 生成モデルは最適輸送理論における輸送写像になっている
--- DAEは輸送写像

* 転移学習:基礎と応用 [#da07859d]
山田 誠 (京大・理研AIP)

準備
- 転移学習:学習データとテストデータの分布が異なる場合を扱う機械学習の枠組み
-- 例:屋内画像で学習して,屋外画像を分類,音声認識でマイクが異なる
- 教師あり学習:入力:d次元ベクトルx,出力:y,ラベル付きデータ → モデル
- 半教師あり学習:ラベルありデータとラベルなしデータの両方を利用 → ラベルなしデータ x の分布はラベルありデータ (x,y) の部分と同じ,入力 x〜P(x),出力 y〜P(y|x)
-- 大量の教師なしデータの利用目的:入力分布の推定,入力空間のメトリックの推定
- 重み付き最尤推定法
-- 対数尤度に事例ごとに x の密度を重みとして掛ける → 密な部分のデータを予測し易いようにする
- グラフに基づいた方法
-- 入力データからデータ間の隣接関係を保持したグラフを構築し,そのグラフを用いて予測を行う → 多様体を構成するイメージ
-- ラベル伝播:ラベル付きデータのラベルの一致と,ラベルなしデータに対する隣接データ間の一致性を同時に高める

転移学習
- 教師あり学習や半教師あり学習は訓練とテストで分布が異なると予測はうまくいかない
-- 転移学習はこの問題に対処するものだが,いつもうまくいくとはいえないので,可能であれば同じ分布のデータを準備するのが王道
- 転移学習
-- 教師なし転移学習:テストデータに教師がなく,テストデータは訓練データと異なる分布
-- 教師あり転移学習:テストデータにも教師データがある.訓練データの方が多いという前提
-- 半教師あり転移学習:転移先が半教師あり設定になっている
- 教師なし転移学習:重要度重み付き最尤推定(共変量シフト)
-- 訓練とテストで一致 p(y | x),p(x) はテストと訓練で違う
-- p_te(x) / p_tr(x) の密度比で事例を重み付けした対数尤度を最適化する → 基本の共変量シフト
-- EIW-ERM:重みをτ状する.p_tr(x) と p_te(x) でサポートが大きく違うと発散するを抑止
-- RIW-ERM:密度比の補完の仕方がちがう.分母にもテスト分布が入っている.サポートの重複が全くなくても大丈夫
-- この方法は,学習データが大量にあって,テストデータは一部に特化しているような場合に有利
--- 動物全般についての訓練データがあって,鳥だけに特化した推定器を作りたいとか
-- uLSIF:密度比を直接推定するようなモデルを作る.(カーネル)線形のモデルなら解析解が計算できる.RIW の工夫を取り込んだものも.
-- 注意:深層学習の内部共変量シフトは,モデル学習時の中間層の入力変わってしまうことを意味する → 転移学習とは違う
- 教師あり転移学習:一番うまくゆきやすい,p_te(x)=p_tr(x) といった強い仮定はいらない
- 教師あり転移学習:重要度重み
-- 転移元と転移先データをまとめてしまう → α と (1 - α) でそれぞれを重み付け
- 教師あり転移学習:マルチタスク学習
-- 類似した複数のタスクを同時解くことで性能を向上させる
-- 各タスクの対数尤度を全タスクについて和 + タスク間のインタラクションを示す正則化項
-- グラフ正則化:Σ{タスクの対} タスク間の類似性重み × タスク間のモデルパラメータの乖離
--- タスクのパラメータ:w_0 + v_i のような風に共通パラメータ w0 と固有パラメータ v_i で構成されるというような明示的モデル化
- 教師あり転移学習:frustratingly easyドメイン適応
-- [x_tr x_tr 0] [x_te 0 x_te] という単純な変換をして学習する → うまくパラメータが共有できるマルチタスク学習になっている
-- 線形モデルだと w0+v1 と w0+v2 のパラメータモデル化をしているのと同じ
- 教師あり転移学習:深層学習のファインチューニング
-- CNNなどの最終識別レイヤーを取り除いて,別タスク用で最終レイヤーのみを学習
- 転移学習の応用
-- 3D姿勢推定:訓練とテストでの体格の違い.照明条件の違い
--- 照明条件の方が,訓練データの一部に特化するようなものなので,性能が出る
-- 加速度センサーからの行動識別:訓練データに含まれない被験者の試験
-- ジェスチャー識別:
- 推薦
-- 研究としては教師なしが面白いが,マルチタスクが実用的にはよい
-- 転移先のデータを少しでも用意して,教師ありにした方がよい


* データ駆動型科学のための統計的推論法 [#vbaa0c04]
竹内 一郎(名工大・理研AIP)

- 機械学習のアクセルの研究→性能の向上(大量データ・モデル改良)⇔ 機械学習のブレーキの研究→安定性・安全性の向上(課程・結果の解釈)
-- 機械学習の品質保証をしよう:統計学のP値の考えに基づく方法
- 機械学習は本来は予測用だが,理解のために利用したい場合も
-- 線形モデルの重みによって,入力の重要度が分かる
-- → ただし,重みの絶対値が小さいと意味がない → 組織的手法:検定
- 検定:真値がある値のとき,極端にその値から外れた値が生じる確率(false positive ratio; p値)を計算して,これが小さいと真値がある値ではないと考える
- 特徴選択で特徴を選んでいるときは,検定での判定は使えない → 選択バイアス
- 知識駆動型科学とデータ駆動型科学
-- 知識駆動型科学:仮説を人間の経験・知識で生成してから,それを検定で検証
-- データ駆動型科学:データにアルゴリズムを適用して仮説を生成,その仮説を検定
--- Collect data first, then ask questions -- E. Candes (2015)
--- データ駆動型科学では,仮説がデータから出てきたという前提(選択バイアスなどがある)での検定が必要
- 選択的推論:selective inference / post-selective inference
- 例:薬剤効果あり vs なし:遺伝子 g2 の活動量の差 δ2=2.0
-- δ2はSD=1の正規分布に従うとして検定
-- 出版バイアス.p値が小さいと出版発表されにくい → 観測されるデータに選択バイアスが入っている
-- 機械学習で仮説を作ると,アルゴリズムにより選択がかかる
- 選択的推論:選択バイアスがあっても適切な評価ができるように

線形モデルの選択的推論
- 特徴選択の逆像:訓練データごとに特徴選択アルゴリズムが選択する特徴は変わる → 特徴選択結果が同じになる,全ての訓練データ空間中の訓練データの領域
-- 特徴選択が A y ≦ b の形式でかける (Lee+ 2016) → 特徴選択の逆像は凸多面体になる
-- → 切断正規分布を用いて棄却点を表せる

教師なし学習における選択的推論
- ポストクラスタリング推論
-- 応用例:精密医療(個別化医療)詳細な病状に合わせて治療 → サブタイプの同定のためにクラスタリングする
-- 応用例:シングル細胞解析,細胞のタイプごとに分析
- クラスタリングでサブタイプを同定してから,各クラスタに特異的な特徴を発見して統計的信頼性を与える
-- クラスタリングで生じるバイアス:そもそも分かれるように分けてるので,差があるかを調べると差があるにきまっている
-- ポストクラスタリング推論:クラスタリングをした結果が与えられたときの検定統計量の分布を求める必要
--- 逆像:同じ分割が得られるデータの領域 → k平均法ではデータに関する線形+2次の制約で記述可能
--- 凝集型階層型クラスタリングでも,線形 + 二次 の制約で記述可能
- ポストセグメンテーション推論:動的計画法による一時元系列
-- 時系列の水準が区分的に変化するのを最小二乗であてはめ → 動的計画で解ける
-- アルゴリズムが作り出したセグメント間の差異を考慮
-- 逆像は二次不等式までで記述できる
- ポストセグメンテーション推論:グラフカットによるセグメンテーション
-- グラフ上で周囲と隣接するノードと値が大きく違う点でカットして,部分グラフを切り出す
-- 逆像は二次不等式までで記述できる

選択バイアスを補正する他の方法
- 多重検定補正
-- 機械学習が出す全ての結果を考えて,多重検定とみなして補正
- データ分割,交差確認
-- アルゴリズムの訓練データと,評価データを分離する

* クエリ可能な確率的組合せ最適化問題 [#nf473d03]
前原 貴憲 (理研AIP)

- 組合せ最適化問題:有限個の要素の組合せ(E:台集合) から 条件を満たすものの(FF:実行可能集合) うち 最も良いもの(f(X;θ):目的関数)を選択
-- 有限時間で解ける:2^|E| 通りを全部調べる → 課題:計算時間,情報不足
-- 情報不足:目的関数のパラメータが厳密には分からない
- 最適化のバリエーション
-- 期待値最適化:目的関数がθ上の期待値で表せる
-- ロバスト最適化:目的関数のmin-max最適化
-- クエリ可能最適化:最適化問題の解が良くなるように能動的(←収集の方策)に情報収集
- ポストビッグデータ時代の人工知能・機械学習
-- 十分多くの高品質データがあれば解ける → ない場合にはどうするかが今後の課題
-- クエリ可能最適化は,この課題に応えるもの
- 確率的マッチング問題
-- 腎臓交換問題:移植可能な腎臓のペアを交換して移植する → 最大多数の交換を実現する=最大マッチング問題
--- 移植可能かどうかの判断は簡便な方法では低精度でしか予測できない
-- グラフ G=(V,E),枝は確率 p_e で存在,できるだけ大きなマッチングが得られるクエリ戦略

マッチング問題
- マッチング:端点を共有しない辺集合(ノードは2個以下)
- 最大マッチング問題:サイズが最大のマッチングを求める → 多項式時間で解ける
- 極大マッチング:辺をこれ以上追加できないマッチング
- 極大マッチングと最大マッチング:サイズの差はたかだか2倍
- 最大マッチングは整数線形計画問題として表現できる → 変数の範囲を連続緩和した解は最大マッチングの解の上界を与える
- 頂点被覆:全ての枝集合に隣接する頂点集合
-- 最小頂点被覆は整数線形計画問題 → 連続緩和すると,最小被覆問題の下界を与える
- 最大マッチングの連続緩和:マッチングの連続緩和は最大マッチングのたかだか2倍

確率検査モデル
- 辺eにクエリを発行するとeの存在が分かる → 存在が分かったらeは選択しなければならない
-- 最適なクエリ戦略に対して期待的に定数倍しか違わないマッチングを与えるクエリ戦略は?
-- 既に辺を選んだ頂点に接続する辺にはクエリできない → 将来の可能性をできるだけ残すようなクエリをする
-- 問題に対する上界を計算して,上界から性能を大きく損なわない解を見つける

無制約モデル
- 辺eにクエリを発行するとeの存在が分かる → 存在が分かってもeは選択する必要はない
-- クエリ数 ⇔ 解の品質に興味 → 全部の辺にクエリを出した時の解に対して,たかだか定数倍しか違わない解を求める
- 最適解を逃さないが望ましい
-- 未クエリのっ辺は全て存在すると思って,最大マッチングを計算して,このマッチングに含まれる辺にクエリを発行

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS