#author("2018-11-04T03:00:16+00:00","default:ibisforest","ibisforest")
* 第21回 情報論的学習理論ワークショップ (IBIS2018) [#o6c99e03]

COLOR(#00AA00){このページはしましまが [[IBIS2018>IBIS#IBIS2018]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.}

#contents

* 11月4日 (日) :チュートリアル [#j62a711d]

* 深層学習入門 [#nb8da56d]
園田 翔(理研AIP)

- 深層学習のNN構造一覧 https://www.asimovinstitute.org/neural-network-zoo

- 深層学習
-- 深層ニューラルネットの学習法:難しいといわれていたが,2012年から学習が可能になった
-- ニューラルネットによる機械学習の応用:画像処理,音声信号処理委,自然言語処理,ゲーム,ロボティクス
-- 深層学習 ⊂ 機械学習 ⊂ 人工知能
- 応用: 認識(YOLOによる一般物体検出,階層的なダウンサンプリング構造)生成(GAN,認識NNを逆に使って乱数をアップサンプリング)強化学習(AlphaGoなど)
- ニューラルネット:任意の写像が表現できるので,工夫次第で何でもできる
- 脆弱性:敵対的事例 (adversarial example),わずかな入力の変動で認識できなくなる
- 歴史
-- 第1次ブーム(50-60年代)単純パーセプトロン時代:19世紀末にシナプスの発見,1943年のMcCulloch&Pitts,1969 Minsky&Papert 挫折,
-- 第2次ブーム(80-90年代)多層パーセプトロンとバックプロパゲーション時代:多層についての効率性の理論も出てきた,CNNやRNNなどの基本構造はほとんど登場,学習の難しさから再び冬の時代に
-- 第3次ブーム(00年代後半)2006年で教師なし特徴抽出,2011年〜から音声や画像で多くの成功例
- 浅いニューラルネットで任意の関数を表現可能:活性化関数は任意の非線形関数でよい
-- 線形の方向に延びた活性化関数で決まる形状の畝状の関数が一つのニューロン,その任意個の線形結合で任意の関数が表現できる
- 誤差逆伝播学習:SGDで解く,勾配の計算は誤差逆伝播(合成関数の微分),簡単には収束しない(錬金術)
-- パラメータが非常に冗長で高い対称性:局所解が無数にあり,学習済みパラメータの解釈は困難
-- SGDでミニバッチを使うことで局所解の脱出を期待する
- Rectified linear unit:ヒンジ型の活性化関数,閾値からの距離の情報がステップ関数とは違って残る点が最適化において有利に,タスクによってはソフトマックスがよい場合もある
- 結局何が新しいのか?:計算機パワーと大量データ,ReLUによる勾配消失予防,Dropout&Batch正則化(層毎の正則化)ResNet(昔の名前,パターン変換)Seq2SeqやGANは新しいのでは? LSTMやCNNも昔からある
- 畳み込みニューラルネット:画像認識の性能を飛躍的に向上させた.毎年,層の数が増えたが,2015年で1000層ぐらいのNNの学習が可能になり多数の層の学習は一段落
-- 畳み込みとプーリング
-- スキップ接続:2015年ごろ,畳み込み層をスキップして出力層に直接入力を繋ぐ経路もある (ResNet)
- Deep Face:2014年,中間層では元の画像が徐々に線形分離可能な空間に移動されている
- 自動運転:2016年,運転動画⇔ステアリング信号対応がend-to-endでできた
- 回帰結合ニューラルネット(RNN)
-- BPTT:過去の誤差信号に時間に応じて指数的な係数がある→発散・消失が極端
-- LSTM:指数的な係数を1に近づくようにして安定的に収束するように
- sequence-to-sequence (encoder-decoder):入力と出力それぞれに RNN,入力は一度中間層にデータを溜めて,この中間層を使って出力側の信号を生成
-- 2015年,画像にキャプション,入力のencoderはCNN,出力のdecoderはLSTM
- 生成モデル:制限ボルツマンマシン,自己回帰型ネット (ARN),変分ベイズオートエンコーダ,敵対的生成ネット(GAN)
- ARN:過去の信号が与えられたときの次の信号の分布を学習,短いデュレーションから始めて徐々にデュレーションを長くしてゆく
- GAN:識別器⇔生成器
-- GAN,DCGAN,Conditional GAN,Wasserstein GAN
- 深層学習の理論
-- 何が学習できるか?非凸最適化なのにうまくいく理由.P≫N でなぜ汎化できるのか.内部写像が学習しているもの.ニューラルネットの説明(特徴量可視化)少数データからの学習(転移学習・メタ学習)
- 何が学習できるか?
-- 表現力の問題:深層ReLUネットの近似誤差評価.中間層の素子数に対して表現力は多項式的にしか増大しないので,深さに対して指数的に増加する方が有利,証明は変わったネットを使っている
-- リスク評価:ミニマックス最適,浅いネットでも達成可能だが,深層だと滑らかさのクラスが緩くても大丈夫
- 非凸最適化
-- ある条件の下では,DLの局所最適は大域最適(線形かつoverparametrized NNの解析が主)
-- SGDによる悪い危点の回避,層の深さと幅の広さはSGDを加速する
- なぜ汎化するのか?
-- 大まかにいって汎化誤差 G≦√{P / N},P=モデルサイズ・容量,N=データ数
-- かなり緩い限界,現実はもっと良い.多くの理論限界はパラメータ数より悪い.Aroraによる
-- どこかに正則化があるはず:明確(データ拡張,ドロップアウト,重み減衰)暗黙(SGDのノイズ,早期終了,初期値,スケーリング,学習係数,ミニバッチサイズ)どれかが有効な正則化
-- VC次元などはいずれもモデルの容量としては機能していない.そもそも深層学習がうまくいっている対象は物理的に単純だから,モデルが大きい方がよい初期値をひける可能性が高い
- 内部写像が学習しているもの
-- 積分表現理論:浅いNNのパラメータはリッジレット変換で与えられる
-- 意味の階層構造,特徴量の段階的変換
-- 輸送問題の見地:座標を線形分離可能な配置に輸送されなければならない → 常微分方程式で記述してモデル化(90年代からこの見方はある)
--- ResNet:スキップ接続は常微分方程式そのもの
--- 生成モデルは最適輸送理論における輸送写像になっている
--- DAEは輸送写像


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS