* 第19回 情報論的学習理論ワークショップ (IBIS2016) [#jd6d6b54]

COLOR(#00AA00){このページはしましまが [[IBIS2016>IBIS#IBIS2016]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.}

#contents

* 11月16日 (水) :ワークショップ 第1日 [#w773bd16]

** オープニング [#zb458fa2]

- 今年のテーマ「ブームを乗り越える」
-- ブームで終わらせないために基盤からちゃんと固よう

* 企画セッション1:統計理論 [#tb2cbb50]

** 順序構造上の情報幾何的解析 [#e3d266cc]
大阪大学 杉山麿人

- 半順序構造 S,≦上の分布
-- 対数線形モデル:ζ関数 ζ(s,x) (s≦xなら1)と係数θ(s)
 log p(x) = Σ ζ(s, x) θ(s)
-- 線形モデル:メビウス関数 μ(s,x) (ζ^-1 )と期待値θ(s)
 p(x) = Σ μ(s, x) η(s)
- おいしいところ
-- 分布のKLダイバージェンスば分解可能
-- dually flat manifold 構造
- 半順序構造:べき集合,正整数,プレフィックス木,有向非循環グラフ
-- 分布:半順序をグラフで書くと,各ノードに確率質量がついている
-- 情報幾何的に,このような分布を空間中の点と考える
- べき集合:特徴の組み合わせ全体の集合とみなせる
-- 頻出パターンマイニング:頻度の大きな組み合わせを発見する
-- 順序構造で,ある特徴の組み合わせより大きなものの頻度が大きなパターンを見つける→有用な特徴の選択にあたる
- どちらも指数分布族
-- 線形モデルの方は,あるパターンより上に入る確率
-- 線形対数藻で得るの方は,逆にあるパターンより下に入る確率
- ζ^-1 はメビウス関数
-- 集合の和集合を求めるときの inclusion-exclusion theorem と関係
-- Möbius inversion formula でζとμを使った式を書き換えられる
- 情報幾何的解釈
-- 2特徴のべき集合 → 4ノードのグラフ,3パラメータ → 3軸の空間上の点で分布を表せる
-- Möebius inversionによって θ と η が直交することが示せる
--- θの方を 0 にして検定するなどするとき,半構造上の他のθは影響をうける.しかし,ηは直交してて影響をうけないので,それを利用して二つの分布の合成が作れる
-- 既存の情報幾何ではべき集合だけだったが,それを任意の半構造を扱えるようになる
- KLダイバージェンスの分解
-- P と Q に加えて合成した R という分布がある → KL(P,Q) = KL(P,R) + KL(R,Q)
- 部分グラフになってるかの半順序構造 → グラフマイニングの高度化

** 頻度論とベイズをつなぐ統計的信頼度 [#l16c278e]
大阪大学 下平英寿

- 平均 μ の分布からでてくる y,このμが H の集合にはいっているか?という確信度
- 多変量正規分布に
- ベイズ事後確率:確信度=事後確率,元の分布と同じガウス分布が y が平均の事後分布に
- 頻度論:真の分布で出たサンプルが μ∈H の仮説の下でダメだといわれる確率を危険率に
- ベイズ事後確率はp値を近似:ベイズの事後確率は頻度論のサンプリングによる計算を近似できるが,その差は結構大きい
- いろいろな H が,それぞれいろいろな系統樹を表す領域と思うと,どの系統樹が正しいかという検定ができる
- サンプリングして p値やベイズ事後確率を推定する
-- ブートストラップサンプリング:同じデータのコピーをサンプル → 結構バイアスがある
-- 推定p値は,いろんな領域 H の遠さと,領域の大きさに影響される → サンプリングの工夫でうまく分離可能
- 多重比較:type1エラーは非常に保守的評価 → 仮説の絞り込みができない
-- ブートストラップ,ダブルブートストラップ,マルチスケールブートストラップ などのサンプリングによる推定の補正
- ベイズのp値は曲率の反転で(だいたい)頻度論のp値に一致させることができる

** 低ランクテンソルの学習理論と計算理論 [#ndd13f8c]
東京工業大学情報理工学院/JSTさきがけ   鈴木大慈

- テンソル:高次の関係性を扱う
- スパースベクトル:規定は固定で係数(特徴の重み)のみ学習,低ランク行列:規定と係数の両方を学習
- 低ランク行列推定の精度:最小二乗法やトレースノルム正則化などの結果

分解をテンソルに拡張
- CP分解
-- ランク1のテンソル=ベクトル,各次元ごとの要素ベクトルの積の和として表す
-- 低ランクのもので,高ランクをいくらでもよく近似できてしまったりする
-- スケーリングと列の入れ換えの自由度を除いて(回転抜き)で一意
-- 分解した要素 U^(k) が降るランクならCP分解は一意に多項式時間で解ける

テンソル分解の学習理論
- 難しいところ高次元性,特異性(表現が一意で派に),非凸性
- 凸正則化法:損失 + 低ランクになるようなペナルティ
-- テンソルを行列に変換してトレースノルム → ちょっと無理な制約(制限強凸性)がある
- ベイズ推定 → ほぼ minmax最適を達成

推定法
- 交互最適化:成分を一つずつ最適化してゆく
- ベイズ推定:カーネル関数の点推定 → ガウス過程にする
- カバーリングナンバー:関数の複雑さを測る → RKHSの空間の複雑さに適用できる
-- GPにも拡張できる(小球確率)


* 招待講演: Strategies & Principles for Distributed Machine Learning [#q5933529]
Eric Xing, カーネギーメロン大

- 外の人からみると機械学習はブラックボックスに見える
- 中の人からみると,いろいろな要素がある.手法もデータも多様.
-- それらの計算基盤としてのハードウェア
- 機械学習は非線形最適化問題,反復的にパラメータを更新することで解く
-- 反復計算で,勾配の計算を並列化する
- データの規模は拡大:Google Brain 1Bパラメータ,ゲノム分析100M〜1Bパラメータ
-- IoT では 50Bデバイスのデータの分析が必要に
-- 深層学習でのパラメータは 1T 超え
- MapReduce:反復ごとに HDFS の同期が必要でボトルネックに
- Spark:RDD はキャッシュによって反復ごとに同期が必要ないので高速に
- 並列計算では同期のコストと,データ転送の帯域が重要
- MLプログラムの特徴:optimization-centric で iterative convergentなアルゴリズム
-- error tolerance:最適化とかは多少は最適解からずれてもよい
-- 動的構造依存性:モデルパラメータの相関という,並列計算効率に影響する要素が変化する
-- non-uniform convergence:パラメータによって収束の速さが違う
-- ⇔これらあh以前のプログラム:transaction-centric, atomic correctness と対照的
- MLシステム設計で重要なのは
-- 並列化の方法,計算と通信の連結,通信方法,何を通信するか
- 並列化の方法:スケジューリングと負荷分散
-- 係数を分割するとき,係数に掛けるデータの内容の依存性構造を予め知っておく必要
-- 構造に合わせた動的なスケジューラー:優先度スケジューリング,ブロックスケジューリング → SAPスケジューリング(相関の小さなパラメータブロックに分割)
- 計算と通信の連結:モデルの結と,限定的な同期
-- MapReduce や Spark では多くの同期が必要に,CPU間の通信コストは非常に大きい
- 安全な同期と危険な非同期
-- Stale Stale Synchronous Parallel Bridging model:遅いのと速いのとの差が大きくなったら早いのを止めて,資源配分を変える(?)
- 通信方法:managed communicationとトポロジー
-- managed communication:同期と通信を同時に
-- 通信トポロジー
--- マスター=スレーブ(それぞれのマシンで違うコード)
--- P2P 同期コストは大きい
--- Halton sequence topology, random partial broadcsting, diverse mini-batch selection
- 何を通信するか
-- パラメータが多いと更新は大変 → 一部を更新
- Petuum:並列計算環境 http://petuum.org

* 11月17日(木):ワークショップ第2日 [#nd836ea6]

* 企画セッション2:実社会データへの機械学習の応用 [#m7c5b26e]

** 機械学習ビジネス化の進展と今後の方向 [#bbf0e04f]
日本電気株式会社データサイエンス研究所 森永 聡

- 機会学習のビジネス化:可視化システム→予測システム→意思決定システム→人工知能間の交渉・協調・連携
- 2000年〜:見える化(可視化,BI) → 2010年〜:予測分析 が今の主戦場

- 大規模予測システム
-- ビルのエネルギー消費,水道施設のための水需要予測,小売りチェーンの商品需要予測 ← 数k〜数100kの対象について15分〜半日ごとぐらいに予測結果を出す
- 予測モデル;業務知識+大量データ分析に機械学習を適用
- 大規模予測システム
-- 高精度(当然の条件),ホワイトボックス性(お客さんを説得できるか),低コスト(運用コストも)の同時実現が次行に必要
- 一般に 高精度⇔ホワイトボックス はトレードオフ関係
-- 異種混合データ:傾向の異なる複数のデータが混ざっている → 単一回帰では当たらない → 混合モデルを 決定木 + 回帰 にする技術 (FAB: factorized asymptotic Bayesian inference) 説明と精度の両立
- 適用例
-- エネルギー需要予測 http://www.fbi-award.jp/sentan/jusyou/2015/7.pdf
-- 小売りの需要予測,中古品の適性価格予測,工場の品質予測,施設の劣化予測(どの部分がいつ,劣化速度に影響する因子)チャーン予測(利用をやめるか),購買予測(クロスセルや競合のために売れなくなったり)
-- データサイエンティストが人手でやってると高コスト + 需要的に追いつかないとかの問題で,モデルの自動化のために予測モデルを構築化してきた

意思決定の自動化(OR・リスク分析)
- 2015年〜:予測ができるとしてオペレーションを自動化,データ分析の先端ユーザ
- 水道施設:ポンプやバルブを調整して需要を満たすように水の流れを調節
-- 高圧だとパイプが痛む,低圧だと断水,電気は安い時間帯,安全マージンの確保(緊急対応のコストは非常に大きい)
-- 不確実性を考慮したリスクの少ない計画策定 → ロバスト最適化(現在シミュレーションで20%の電力効率化,実運用に向けて準備中)
- 水需要→造水/配水,商品売上→価格/品揃え,通勤需要→運行計画,部品需要→物流最適化,設備の劣化→保全スケジュール
- シンガポールの輸送局:ドライバーの事故リスクを考慮したトレーニング

2020年:人工知能間の交渉・連携(ゲーム理論)
- それぞれのシステムが効率化を図るが,それは外部が静的である前提 → 他のシステムの最適化により外部が変わる
-- マイカーのナビゲーション,公共交通の管理,緊急車両 のシステム相互に影響 → 安全・安心・効率・公平を保持しつつ
-- 交渉の自動化:部品調達の最適化
-- 意思統一されていない自動オペレーション間でも挙動を調整できる仕組み
- 自社のシステムだけでなく他社システムとも連携:標準化の必要 → 人工知能間の交渉・連携の最適化:業界横断で政策にはたらきかけ,政策提言

** 時系列ビッグデータ解析の新たな展開 [#k1fde1f7]
熊本大学 櫻井保志(元NTT)

- 時系列ビックデータ解析:センサーデータ,Web,医療情報
-- 製造業を対象にした研究(富士通,トヨタ)
-- SIGMOD 2015 / WWW 2016でチュートリアルを開催
- 大規模時系列解析の種類
-- 大規模テンソル解析:次元の一つが時間方向,
--- Webでいつ・どこで・誰がアクセスを分析できる:潜在因子を見ることで傾向が見える
-- 非線形モデリング:微分方程式の大規模化
--- ソーシャルメディアの情報の拡散パターン,ハリーポッターの1作目のピークから,2作目以降のピーク,さらには,他の作品のピークも予測できる
--- 競合関係にある商品群の抽出をWebログだけから,アンケートを採らずに行う:業界の全体傾向などの要因の排除
-- 特徴の自動抽出:モーションキャプチャーのモデルから,行動パターンの数と,識別に必要な特徴を見つける

現在の研究プロジェクト
- 非線形テンソル分析
-- 国ごとの検索ワードの分析:トレンド,周期性,スパイクなどに分離し,全世界・国ごとのパターンを見る
--- クリスマスにピークがあるのはキリスト教圏,中国は旧正月
--- 2008年の米大統領選挙のマスメディア間の競合関係
--- 車両センサーデータ:地理情報使った事故防止
- リアルタイム予測:100秒先の状態を,長期間,継続的に検出,適応力のある予測
-- レジームシフト:時系列パターンの構造変化,レジームの推定器がある,既知レジームモデルの再利用や新モデル生成の判断

今後
- 技術的課題:
-- 自立的モデル学習:予測モデルの蓄積と最適なモデルの選択
-- 因果関係の解析:モデル間の連結の強さの推定,要因・結果の関係性の発見
- トヨタ(2014〜)富士通(2016〜)その他・製造業
- サービスのために:調整作業,改良,保守などを作る企業を作りたい

** IT企業における機械学習 [#m10a057f]
京都大学 山田 誠(元 米Yahoo Labs)

- Yahoo Lab:北米IT企業はPh.Dの主な就職先,何らかの形でベストペーパーを持ってたりする
-- 仕事:データの前処理,モデルチューニング,新規モデル提案,プロトタイプモデルの実装
-- あんまり論文は評価されないが,ベストペーパーぐらいでないと見てもらえない
-- プレッシャーは大きい
- Yahooの機械学習
- トップページ:検索:GBDT,メール:GBDT,バナー:ロジスティック回帰,FM,ニュース:FM,GBDTなど
- 検索エンジン:クエリの自動補完(GBDT,CRF),Webランキング(GBDT)

- データ量と特徴数:サンプル数少ない(lasso),少特徴多データはGBDT

低次元大規模データ:データ数が次元数より大きい
- 詐欺検知(偽物,商品を送らない,優良ユーザスコアを溜めてから大規模詐欺):能動学習,最終的な詐欺の判断は人間がする,GBDTと特徴エンジニアリング
- 検索結果の最適化:10ブルーリンク(文書へのリンクを10個ならべる)
-- 仮定:文書が他の文書とは独立,利用者は上位から順に見る → これらだけでは不十分
-- 検索結果には:広告,ニュース,知識カード(オバマ大統領のプロファイルなど),画像,Webビデオ
-- 写真とかがあると視線は画像に行きやすい → 上から見るという仮定はくずれる
-- 満足度=クリック率(検索結果と検索方法の関数),FM や GBDT で学習
-- 学習した満足度を最大化するための検索結果・検索方法を選ぶ
--- 運用では,探索・活用トレードオフがあるので,εグリーディのようなことをする
-- どこどこの知覚の飲み屋を検索すると,地図より,飲み屋が上位に

高次元・大規模・疎:疎性があると線形モデルでも高い予測性能が得られる
- 推薦システム=疎行列の行列分解:欠損と未観測が区別できないデータの場合
- 0で欠損値を埋めると未観測を0とするのでうまくいかない
- 観測値だけに当てはめる → 非凸最適化で局所最適
- 凸行列分解,トレースノルムを使った緩和 → スケールしない
- bounded semi-definite programming:大規模化,Hazan's アルゴリズム(Frank-Wolfeの一種)近似固有ベクトルの計算と,行列の推定の反復
- cold-start問題:新規利用者 → 利用者やアイテムの特徴などの補助情報を使う
-- 復号行列分解 + トレースノルム を使った方法
- Tumbler のブログ推薦:フォローしているブログを読めるサービス
-- ブログ記事が対象なので,リッチなテキストデータが利用可能


* 招待講演:深層学習は世界をどのように変えられるのか [#g32f8144]
PFN\PFI 岡野原大輔

- PFN:2014年〜,50人ほど,ほとんど研究・エンジニア,主な出資者:FANUC,Toyota,NTT
- 深層学習の応用が進む:画像音声認識,予測,制御,異常検知,画像音楽生成,自然言語理解,対話,翻訳,アルゴリズム生成,最適化
- 深層学習:多層のニューラルネット,今では急速に複雑化して1000層でもOK,幅も万〜数10万
-- ニューラルネットワークの構造に事前知識を埋め込んでいる
- なせ深層学習が性能がいいのか?[Lin+ 16]:世の中の問題の特徴
-- 低次性(しられテイル物理現象の変数間の相互作用の次数は2〜4)
-- 局所相互作用性(相互作用の数は変数の数に対して線形にしか増えない)
-- 対称性(画像や化学反応の対称性で実際の自由度は見かけより小さい)
-- マルコフ性(生成過程は直前の状態に依存)
- 人工知能と飛行機:空を飛ぶのに鳥を作る必要はないので飛行機で作った,ただし,ハチドリのような運動性能はない → 知的作業のために人間を作る必要はない,人間の知能レベルを達成しなくても役に立つ
- 今の人工知能:数値計算などの大人水準の知能と,画像認識による子供水準の知能が混ざっている
- 飛行機はライト兄弟から10年で定期便ができるほど急速に発展 → 人工知能技術も人間の可能性を大きく伸ばす可能性

自動車
- 自動運転での人や車の検出:ダイムラーが出しているデータの例,
-- 影やオクルージョンは難しかったが,深層学習で精度が上がった
- 走行可能領域の認識(歩道や標識,緊急回避の場所も)→ 領域分割
- 200+次元のレンジセンサー → ハンドルやアクセルの制御を強化学習
-- センサーの情報から特徴を人手で作る必要がなくなった
-- 模型自動車でも動作
- 自動運転のレベル:2 ADASなど,緊急時のみの介入,3:トラックの縦列運転,システムが主に運転,緊急時は人間,4:完全自動運転,緊急時対応もできる
-- 難しさのポイントがそれぞれのレベルで違う
- 必要な技術
-- 環境認識:位置などの認識,交通参加者の検出と状態推定,走行可能領域,標識,駐車可能
-- 予測:交通参加者の行動予測(分布の形で)未観測の乗降の推定(車のドアや人の飛び出し)
- 課題
-- 多様な環境への対応:地域,天候:雨雪霧でのセンサ性能,時間帯:逆光,場所:トンネル,周囲が壁 → 状況によらず性能保証
-- 深層学習の説明性,性能保証:説明に基づくテスト,問題が起きたときの原因追跡,独立同分布でないデータでの汎化性能,既存方法でやっても深層学習と同じぐらい複雑になるだろう
-- シミュレーション上での学習:レアイベントはなかなか実際にはとれない,アノテーションコストは無視できない → シミュレーションの利用:実世界との差をどうするか?シミュレーションから現実世界への転移
-- センサーフュージョン:カメラ,ライダー(レーザーセンサー),ミリ派 → それぞれ動作条件が違うので,組み合わせることとで頑健な認識ができるのか?

ロボット w. FUNAC
- ばら積み部品のピックアップ
-- 多くの試行から教師あり学習 → 去年の時点で人間のプログラムと同等
-- Amazon picking challenge:棚入れ・棚だし,今は人間がやっているが,何でもつかめるロボットはまだないから
--- 場所を画像とライダーで認識
- ドローン:命令からの状態変化までのタイムラグ,モータの変化からの状態変化予測
- 現状のロボット:正確性・速度・パワー・耐久性は人間以上,一方でものをつかむといった人間には簡単なことがまだできない
-- 課題:多様な認識(画像など),多アクチュエータの制御,複雑なタスクの教示(説明書を読めるか?)
-- 認識の問題は解けつつある.
--- one-shot,zoro-shot学習:始めて見る商品でもつかむことができるように,照明などが始めての状況でも認識できるように
-- 安全な強化学習
--- シミュレータなど危険なことができる環境でないと学習の初期は無理,安全性への理論保証
-- 教示方法
--- より抽象的な指示ができるか(座標を指定するとかじゃなくて)
--- 模倣学習 (imitation learning),徒弟学習
-- 物理モデルの学習
--- 人は経験から物理モデルを学習できる(滑る床への対応),シミュレーションでのデータ同化,制御工学ではシステム同定,強化学習では状態遷移モデル
--- differntiable physics engine

バイオ・ヘルスケア
- 薬の活性化予測コンペでNNが優勝
- microRNAのbinding予測:どういう場合にくっつくかを従来7割→9割
- DNA/RNA/タンパク
-- NLPや画像の連続表現 → DNA/RNA/タンパクでもできるのでは?
- 新NP問題
-- 高次元・小規模問題,大量のラベルなし+少数のラベルあり → 半教師あり,弱教師あり,転移学習
- 時空間解像度
-- 生体内のダイナミクスのほとんどは観測できていない(遺伝子発現量の生きた細胞内での観測はできない),細胞・細胞群・組織のダイナミクスとそれらの相互作用

コミュニケーション
- 対話システム:直前の言葉には反応できるが,文の意味や文脈は理解できていない
-- 偶然にそれらしい対話をすることもある
- 知識をどのように埋め込むのか?
-- 知識を大量に記憶することは得意,どのように埋め込むのかは難しい問題,符号化・保持・想起をどう実現するのか?
- 心理モデル
-- 相手の考えに対するモデル,人間同士はハードウェアが共通なので実現出来ている可能性がある→そうだとすると機械にさせるのはとても難しい
- コミュニケーションの目的関数
-- 次の文を予測,協調してタスクを達成,内発的な動機付け(知的好奇心,,情報最大規準),翻訳のBLUEのようなリーズナブルな評価規準

まとめ
- 深層学習の応用にともなって課題がでてきた
-- one-shot などの昔からの課題 + シミュレーションからの転移など新しい課題
- 具体的な問題の解決からの理論の進展の可能性
- 深層学習の分野は広がる,人間の知能は実現できていないがそれでも役立つ
- 人の知能のしくみで工学的に参考になる部分は多い:認識,学習,記憶のしくみ,目的関数,ハードウェア


* 11月18日(金):ワークショップ第3日 [#i78faa23]

* 企画セッション3:物質・材料科学への機械学習の応用 [#u6e729de]

** 人工知能技術による機能分子・物質設計 [#b1e44fd5]
東京大学  津田宏治

- マテリアルインフォマティクス:材料科学にIT技術を利用
-- オバマ政権 2012: Materials Genome Initiative → ITを使って材料を作る時間を半分に
- 材料科学:
-- 結晶構造,セルにはたかだか10個の原子
-- 量子力学が重要:金が金色なのは量子効果,全ての原子の相互作用を計算する必要
- 第1原理計算:正確で遅い:full configuration interaction, wave function based, density functional theory, semi-empirical, empirical potentials → 不正確で速い
-- density functional theory (DFT) がよく使われる
- 従来:実験結果をシミュレーションで検証 → シミュレーションを使って有望な材料を予測して,実験で検証していく
- 3種類の手法
-- 仮想スクリーニング:low-LTC分子の発見
-- ベイズ最適化:grain boundaryの最適化,Si-Geナノ構造の設計
-- モンテカルロ木探索:最適RNA系列の探索
- 第1原理計算だけで有用なものを見つける → ナイーブには全部計算 → 候補が多いと計算量的に無理
-- 仮想スクリーニング:候補の一部だけをちゃんと第1原理計算して,残りを機械学習的に予測する

熱伝導度の低い分子を見つけたい:断熱材,熱電材料を作るのに重要
- 第1原理計算 Lattice Thermal Conductivity (LTC):100コアで1週間かかるが,非常に正確
- 101種類の- materials project Db:54779種類登録されているが,物性はほとんど登録されてない
-- 101種類の候補について仮想スクリーニング → 8個を第1原理計算 → 非常に熱伝導率の低い物質候補を発見,ただいま合成しようとしている
- ベイズ最適化:最小の観測数で,最適値を見つける
-- 最適化が目的であるので,関数全体を見つけたい能動学習とはやや違う
-- 仮想スクリーニングで,予測値と予測値の分散の両方を考慮しつつ次に検証すべき候補を見つける
-- ベイズ推定では,各反復でベイズ推定した物性に対し,現在の最良値を超える確率を計算し,それが大きい点を見つける
- 記述子:DFT calculated features,物質の特徴

ベイズ最適化
- grain boundary構造決定
-- grain boundary:二つの原子の塊が並んだとき,そのずれが最小のものでうまく落ち着く位置を見つける
- Si-Geナノ構造の設計
-- シリコン=ゲルマニウムの格子があるとき,そのうちの一部はシリコン,のこりはゲルマニウム
-- 熱伝導度が高い・低い配列を見つける

** 科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性 [#be7b0924]
北海道大学 / JSTさきがけ  瀧川一学

- http://art.ist.hokudai.ac.jp 

- バイオの世界で:前立腺癌に効く化合物と効かないもの → 分子をグラフと見て,そのトポロジーの特徴からクラス分類する
-- 部分グラフとかは使えないので特徴がとても難しい → 専門家が決めているので,この特徴工学をどうにかしたい

特徴工学をどうにかしたい
- 目標:基礎の特徴量を決める → あとは組み合わせでデータドリブンで決める
-- 演繹:実験的にわかっていることを最小の仮説や公理で説明する(アインシュタイン) ← この逆の帰納をするのがデータ駆動科学
- 例:二つの結晶構造のどちらをとりうるか? 数個の基本特徴の簡単な組み合わせで特徴を使ったlasso回帰であてた
-- 特徴の差を指数関数で割ったとか適当な特徴が効いた
- 変数間の交互作用を表現できる特徴
-- 統計では変数の積が多い → 変数間のインタラクションがあれば,高次でも,非線形変換があったりしてもいい
-- 機械学習側で考慮する方法もあるだろうが,実際に合成して入れた方が性能は出る
- 超高次元の問題:たくさん特徴を合成しているといろいろまずいことがおきる
-- 擬相関:本当は無相関でもランダム性の影響で偶然に相関があるように見えてしまう
-- 測度の集中現象/次元の呪い:高次元では距離がどの対象間でも同じになる
- 変数選択・正則化
-- best subset:L0最適化,全列挙,不安定
-- lasso:変数間の相関がなければbest subsetに一致,しかし相関があれば一致性がない
-- glmnet::エラスティックネット
-- lassoの改良手法:adaptive lasso, SCAD, MC+ など(√n 一致性,漸近正規性)
-- Sure Independence Screening:超高次元用の特徴スクリーニングの前処理
- 安定性
-- best subset はデータで結構解が変わる不安定性
-- stability selection,randomized lasso(ランダムにlassoの特徴重みを変えて安定性を見る)
- 木回帰・再帰分割:交互作用のもう一つの扱い
-- automatic interaction detectorが決定木の起源,最適な木は計算できないのでCARTのように欲張り法
- 交互作用から合成特徴量:積以外の特徴を構成
- アンサンブル木型回帰
-- ランダムフォレスト:バギング
-- 勾配ブースティング:関数空間で関数が目的の方向に近づくように勾配を足していく
-- regularized greed forests:回帰の森を一部拡張していく
-- decision jungles:決定木 → DAG
-- 木のアンサンブルはわりと解釈可能 (feature importance, PDP)
- 非線形ランダム特徴量:random projections, randomized tree ← ランダム生成でも結構いい
- メタ特徴量
- モデル特徴集合の妥当性評価
-- applicability domain:機械学習は訓練データにない外挿には弱いので,目的のモデルとして適当か?
-- Y-Scrambling test:(x,y) の y ランダムに入れ換えてもあたるモデルはまずい

** パーシステントホモロジーと機械学習 [#jcb863f3]
東北大学 平岡 裕章

- 位相的データ解析:topological data analysis; TDA
-- データの幾何構造,トポロジーに注目して分析
-- Gunner Carlsson, Robet Ghrist, Konstantin Mischaikow
- 材料科学への応用:高分子,アモルファル,粉体 → 無秩序にみえるものを記述する言語
- データの形状:データの幾何モデルを作り(多面体で記述)→ その代数的な記述を得る
- alpha shape:多面体モデルの一つ,点データをドロネー分割,辺の両側の各点から一定半径の級を作って交わりができきないものを切って残るような多面体
-- 扱いやすいデータ,距離変えることでデータ分析の解像度を変えることができる
- パーシステント・ホモロジー
-- ホモロージーはトポロジーの穴の数だが,それを大きさや形状を考える
-- alpha shapeでは,距離を変化させたときの,穴が消える点や発生する点を考える,この穴の発生と消滅の区間に形状を分解して記述できた → プロットしたのがパーシステント図
- アモルファス(ガラス)
-- 近傍だけでなく,離れた原子も性質に影響
-- 原子配置を入力データだと思って,alpha shapeによって記述してみる
-- パーシステント図は,液体だと2次元の広がり,結晶は点だけ,アモルファスだと曲線状に分布 → 分布の次元が重要
-- トポロジーの穴は,物性的には変形できる方向とそうでない方向ととに対応している
- パーシステント図とカーネル
-- パーシステント図:ホモロジー(穴構造)に注目した記述 → この記述が集まったときに,この統計的性質を分析したい
-- ヒストグラムであるパーシテント図を記述できるカーネル persistence weighted Gaussian kernel (PWGK)
- アモルファスのパーシステント図に見られる曲線を分析すると,それに対する原子配置を見いだすことができる

* 招待講演:深層学習の基礎:自己組織化と教師付学習 [#qd087858]
理化学研究所脳科学総合研究センター 甘利俊一

- 自己組織化と確率的降下教師付き学習
-- 重要なのは,特徴の表現が大事なのだと説明されているが,どうなのか?
- ニューロンのヘブ自己組織化
-- 入力が表す球の一部をしきい値で切り取ったものが,受容野となる
- ボルツマンマシン自己組織化学習
-- 需要野中の信号の平均が,需要野の中心に一致するように学習
-- 中心の一致を考えると,信号の分布が単峰でないとと,全体の中心で安定する場合と,それぞれの峰を学習する場合
-- 外界の信号とモデルがKLの意味で一致するように
-- ニューロンの相互作用:各ニューロンの需要野の中心の一次結合,係数は二つのニューロンが同時に発火する確率
- 入力の分布 p(v) の構造から特徴を出しているとすれば,どういった構造の特徴をだしているのかは当然疑問
-- PCA?クラスタ?
- ランダム回路でどんな構造がでるのか調べてみた
-- 層をえるごとに,信号の混合の仕方が複雑に
-- 入力の微少変動が,出力にどう変動するかの解析 → 若い人やって下さい

教師付き学習:誤差逆伝播
- 勾配降下で最適解に行くには,関数空間にいっぱい特異点があって大変
-- ある層の中で,入力に対する重みが同じになると特異点が出る → エラー関数にプラトーに → 本来は動かないが,浮動小数点エラーとかでじわじわ動いて学習が進む
-- minor attractor:安定領域に一度は引き込まれ,そのあと不安定領域からでていく
-- 2次元以上になると厳密には当てはまらない

脳に何を学ぶのか,意識と無意識のダイナミクス
- AI:記号,論理 ⇔ NN:興奮パターン,並列ダイナミクス
- Libetの実験:自由意志はあるか
-- 自分のとめたいと思うところで時計を止めさせる
-- 止めたいと決めた前の500m秒前に信号が出ていて,外部から本人の意識が観測できる
- 予測(先付け)と後付け
-- 双方向のダイナミクス:行動をあとから意識が合理化する ⇔ 意識的判断によって行動を変える
- これからはこのダイナミクスを実現していく必要
- 意識の定量化 ー 意識の定義が人によって違うのでいろいろかみ合わないが…
-- 時間の経過にともなって,情報の統合がどれくらい進むかで測ればいいのでは?

* 企画セッション4: 神経・脳科学からの学習理論 [#z6d4feb4]

** 動的ボルツマンマシン [#q475c29a]
IBM東京基礎研究所    恐神貴行

- 90年代のSTDP (spike-timing dependent plasticity) Hebb則のように同時に発火したというだけでなく,発火のタイミングも重要 → 機械学習に生かそう
- ボルツマンマシン:ニューロンが重みのある辺で繋がっている
-- 学習則:データの対数尤度の最大化,勾配は観測値とモデルの期待値の差に
-- データを一ずつ扱う確率的な更新にすると,同時発火に対する重みの変更であるヘブ則が現れる
- ニューロン:ニューロンの発火には方向(順番)があり,タイムラグがある
- STDP則
-- preが発火して,postが発火すると時間が経つと発火は弱くなる
-- postが発火して,preが発火すると,信号は逆向きで,時間差がない方が発火は強い
- ボルツマンマシンで,このSTDPをモデル化しよう
-- 時間方向にボルツマンマシンを並べ,その並べる数が無限大の極限を考える
-- 結合は,時間間隔が離れるほど重みは小さくなる → 時間遅れのモデル化
-- ボルツマンマシンの学習則との違い:最近どれくらいのスパイクが来たのかを表す項が加わっている
- pre が post の後で発火する場合にも,同様にモデル化できる
- さらに両者を合わせたモデルに
- 層があってもBPのような逐次計算がなくて並列に計算し易い

** 脳の生物学的特徴と学習( Brain's biological machinery for learning) [#wf012b8c]
理化学研究所脳科学総合研究センター  深井朋樹

- SFN:3万人参加の会議,14000 のうち 3858 では可塑性・学習の論文
- Marrの3レベル:脳は何を計算しているのか?計算の手続きは?計算の実装は? ← 最後の問題 Neural Codeをやっている

ニューロンの信号のスパイク
- スパイクの計算でのメリット,短時間なので高速かもしれないが,長期にはどうか?
- 抑制と興奮の活動はバランスしている
-- 運動を抑えるときに,抑制の細胞が発火しているわけではない
- reservoir computation:ランダムな回帰結合,いろいろなパターンを学習できる
- 独立成分分析:カクテルパテーティ効果
-- 線形代数で使っているので,二人で同じマイクを使うようだとまずいのでは?
-- STDP を使えば非線形なものもいけるのでは?
-- STDPは,一度勝ったニューロンはかち続けてしまう → 実際の脳はそうではない → 対数ガウスよりも裾の重い分布を使うとよい
-- 強い相関を検出するのに役立つ → 耳の蝸牛の各周波数に対応するニューロンの信号の同期から独立成分分析ができる,ベイジアンICAに近い

海馬
- 歯状回 → CA3 → CA1 → 嗅内皮質 をループする
- place cell:特定の場所で発火するニューロン,θ波を観測するとこの場所細胞が逐次的に活動 → 移動できる
-- 8割ぐらいの将来使われる細胞は,予め存在している
- 樹状突起:相関関係の抽出に関連する

* 11月19日(土):チュートリアル [#e9f3e63b]

- 場所:イノベーション棟 シンポジウムルーム

* ベイズ推定からベイズ的最適化入門まで [#n266ba7d]
佐藤一誠

- 統計モデルを推論する
-- 癌なら陽性の検査で陽性だった
-- 癌でないなら陰性のはずなので,癌である
-- 統計的推論(仮説検定):癌でないなら陽性の確率は2%なので,癌である
- ベイズ推定
-- 他の統計では Pr(結果|原因) を考えるがベイズでは Pr(原因|結果) を考える
 Pr(原因 | 結果) = [ Pr(結果 | 原因) / Pr(結果) ] Pr(原因)
- 事前分布→事後分布 への変化
-- 逐次合理性:2回目は,1回目の事後確率を事前確率にすればよい
- モンティホール問題
-- ベイズの公式で計算する(理由不十分の原理:最初に何もわからないときは事前分布は一様分布に)
-- 一般には変えた方がよいことになっているが,これは司会者が間違えずに車がない方のカーテンを開けるというモデリングに依存しており,これを変えると推論結果は変わる
- 確率πで表がでるコイン,そして π=0.4, 0.5, 0.6 のような確率の確率を考える → 離散なので離散一様分布が使える
-- πが連続のときはベータ分布を使う → 事後分布もベータ分布に
- 5人のうち4人に薬の効果があった → 80%で効くといっていいか?
-- ベイズ推論では,効果がある確率が0.5以上である確率といったものを計算できる
- 5人の陽性被験者を集めるには20人の被験者,このときさらに2人陽性の被験者を得るのにあと何人の被験者を集める必要があるか?
-- 負の二項分布を使い,ベータ分布を事前分布にする

ベイズ最適化
- 関数の形状が未知であるブラックボックス関数の最適化
- 4種類の薬品を混ぜた投与量による効果を最大にする混ぜ方
-- 関数 f(x) をベイズ推定しつつ最適化を行う
- 関数 f(x) の種類は無限個あるので,ガウス過程を使う
-- 関数の事後分布が計算できる → 平均的な関数とその分散が計算できる
- 探索と活用のトレードオフ
-- 探索:関数の分散がおおきく曖昧な部分を調べる ⇔ 活用:現状で一番よい値の近くを調べる
-- 信頼区間戦略:平均 + κ 標準偏差 最大の部分を調べる(トレードオフはκで調整)

* スパース正則化入門 — 今さらL1ノルム?今こそL1ノルム!— [#bd2fcaa8]
大関真之

- 機械学習:データに対する関数の当てはめ
- スパースモデリング:どこが重要かを自動的に判別する技術
- カンニング検出
-- 正解しそうかどうかを予測するのに,本人能力や問題の難易度に関連する情報に加え,他の人の回答を入力に使う
-- スパース正則化で特徴選択をすることで,他人の回答が非常に重要な特徴となっているときにはカンニングが選ばれる(カンニングする人が少ないスパース性)
- 圧縮センシング:計測への疎性の利用
-- 制約数の足りない連立方程式(劣決定系)でも,入力の疎性の情報を利用すれば解くことができる
-- 計測データが足りない場合でも疎性を利用すると十分な情報を復元できる場合がある
-- 計算量的に解くのが難しいL0ノルム制約を,L1ノルム制約に緩和して解く
- L1ノルムは疎な解の選択法だが,その選ばれた解が真の解に一致することの理論保証についての議論もある
- 観測したいものが本当に疎か? → うまく変換して疎にする
-- 元の信号が疎である
-- 変化が局所的に均一なら,隣接データ間の差をとると疎になる
-- Wavelet/Curveletなどの変換によって疎にする
- 実際に解くには?
-- 等式制約付きのL1ノルム最小化は,未定乗数法でも罰金法でも解きにくい
-- L1ノルムの方を最小化する → 微分不可能点があるので勾配法では直接にはとけない
- Iterative Shrinkage Thresholding Algorighm (ISATA):上界の関数(メジャライザー)である点で勾配が同じものを,逐次的に移動させて最適化する
- Alternating Direction of Multiplier method (ADMM)
-- 二つの関数の和の最小化 min {f(x) + g(x)} → min{x,z} {f(x) + g(z)} s.t. x=z と書き換え
-- この制約付き最適化問題を,ラグランジュ法にさらに2乗罰金項をつけた拡張ラグランジュ法で解く
-- そして,x と z についての最小化を交互に繰り返す
- lasso では本来は見たしたかった y=A x を厳密に満たすようにするには,L1ノルムの正則化パラメータの調整が必要
-- さらに変数を追加することで,lassoを経由することなく ADMM で解くこともできる
- 行列の補完
-- 観測された値が保存される制約下での,特異値ベクトルのL1ノルムの最小化

* カーネル法の最前線 [#s037873b]
福水健次

- 正定値カーネルは内積:内積はおおまかにいって類似度
-- カーネルを決めることは,類似度を決めて分析するモデリングの方法
- カーネルの性質
-- k(・,x) はヒルベルト空間
-- 再生性 <f, k(・,x)>=f(x)
- ノンパラメトリック推定:データが増えていくと,モデルの自由度も上がる,カーネル密度推定や特性関数による推定など
-- カーネル平均:期待値計算ができる
-- カーネル平均で分布が記述可能なカーネルを特性的なカーネル → いろいろな推定に使える
- Hilbert-Schmidt独立性規準 (HSIC) → 独立性の規準
- Kernelized Sorting:各ドメインで,他の要素との相対的な距離・類似度が定義されている要素群があるとき,ドメイン間で要素を対応付ける
-- HSICはグラム行列間の類似度とみなせるので,ドメイン内の要素を置換して最も類似する配置を見つければ対応が分かる
- ベイズ推論:平均カーネルを重み付き平均に変えると適用できるように
- カーネル選択:モデル選択の問題なので決定打はない
-- カーネルのパラメータはうまく設定しないといけない
-- 教師あり学習 → 交差確認,教師なし→一般にはないが検定では検出力を規準に
-- Multiple Kernel Learning:カーネルの凸結合を使い,要素カーネルの重みを学習
- 計算の効率化
-- グラム行列の低ランク近似,分解した状態で計算するとデータ数→実際のランクになる
-- Random Fourier Feature:k(x,y) が x-y の関数だと非負なので,確率とみなしてモンテカルロ近似できる (random kitchen sink)
- カーネル法の深化:カーネルの多層化,大規模化,基底関数を固定ではなく学習する
-- doubly stochastic gradient:SGDをするのに加え,カーネル部分はさらにRFFでのサンプリング1個で近似
-- QMC feature map:可変基底,RFFの変形

* ディープラーニングの基礎 [#r8144694]
庄野逸

- 人工知能は Alpha GO で話題 → DeepMind は次にヘルスケアに
- 深層学習:深い階層構造のあるニューラルネットモデル
-- 進展にはデータの質と量の影響が大きい
- 深層学習以前:特徴量構築 + 単純モデル → 特徴抽出器の設計の難しさ → 深層学習で特徴も学習できる
- パーセプトロンが目指したもの:パターン認識=人間らしい計算理論の確立
- バックプロパゲーションによる進展は,auto-encoder,NETTalk,ソナー音分析などの応用を示すことで,産業界にアピールした
-- データ不足,勾配消失問題でネット全体を最適化するのは難しい,過学習 → 深いネットを一気に学習するのは難しい
-- 勾配をどうにかする(ReLU / LSTM),学習を各層ごとに(RBM/クラスタリング/sparse coding)最適化の改良 (AdaGrad,AdaDelta,Adam),モデルを制約 (ネオコグニトロン,CNN),学習の制約 (DropOut,sparse coding)
- 勾配消失:活性化関数で微分値が非常に小さくなる範囲では誤差が伝播しない → ReLU では半分の領域で微分値は 0 ではない
- ネオコグニトロンが過去の研究との繋がりなしに出てきているのは,脳の視覚モデルを本当に参考にして構成したモデルだから
-- 今のCNNはすでに脳とは関係ない,すでに人間のエラー率より小さい
- 医療画像認識:データ数があまりない(各病気ごとに10数名の患者)
-- 転移学習:他の一般画像認識で学習済みのモデルを利用し,最後の識別器だけを交換 ← 画像には何らかの共通構造があるという仮定
- CNNの内部の解析
-- 各層ごとの分離平面を調べた:Pooling層でクラスタ内分散が小さくなっている
-- 前向きの信号のパスを逆方向にたどる分析:各ニューロンが画像の何に反応しているのか分かる,DeconvNet

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS