しましま/IBIS2016
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* 第19回 情報論的学習理論ワークショップ (IBIS2016) [#jd6d...
COLOR(#00AA00){このページはしましまが [[IBIS2016>IBIS#IBI...
#contents
* 11月16日 (水) :ワークショップ 第1日 [#w773bd16]
** オープニング [#zb458fa2]
- 今年のテーマ「ブームを乗り越える」
-- ブームで終わらせないために基盤からちゃんと固よう
* 企画セッション1:統計理論 [#tb2cbb50]
** 順序構造上の情報幾何的解析 [#e3d266cc]
大阪大学 杉山麿人
- 半順序構造 S,≦上の分布
-- 対数線形モデル:ζ関数 ζ(s,x) (s≦xなら1)と係数θ(s)
log p(x) = Σ ζ(s, x) θ(s)
-- 線形モデル:メビウス関数 μ(s,x) (ζ^-1 )と期待値θ(s)
p(x) = Σ μ(s, x) η(s)
- おいしいところ
-- 分布のKLダイバージェンスば分解可能
-- dually flat manifold 構造
- 半順序構造:べき集合,正整数,プレフィックス木,有向非...
-- 分布:半順序をグラフで書くと,各ノードに確率質量がつい...
-- 情報幾何的に,このような分布を空間中の点と考える
- べき集合:特徴の組み合わせ全体の集合とみなせる
-- 頻出パターンマイニング:頻度の大きな組み合わせを発見する
-- 順序構造で,ある特徴の組み合わせより大きなものの頻度が...
- どちらも指数分布族
-- 線形モデルの方は,あるパターンより上に入る確率
-- 線形対数藻で得るの方は,逆にあるパターンより下に入る確率
- ζ^-1 はメビウス関数
-- 集合の和集合を求めるときの inclusion-exclusion theorem...
-- Möbius inversion formula でζとμを使った式を書き換えら...
- 情報幾何的解釈
-- 2特徴のべき集合 → 4ノードのグラフ,3パラメータ → 3軸の...
-- Möebius inversionによって θ と η が直交することが示せる
--- θの方を 0 にして検定するなどするとき,半構造上の他のθ...
-- 既存の情報幾何ではべき集合だけだったが,それを任意の半...
- KLダイバージェンスの分解
-- P と Q に加えて合成した R という分布がある → KL(P,Q) =...
- 部分グラフになってるかの半順序構造 → グラフマイニングの...
** 頻度論とベイズをつなぐ統計的信頼度 [#l16c278e]
大阪大学 下平英寿
- 平均 μ の分布からでてくる y,このμが H の集合にはいって...
- 多変量正規分布に
- ベイズ事後確率:確信度=事後確率,元の分布と同じガウス...
- 頻度論:真の分布で出たサンプルが μ∈H の仮説の下でダメだ...
- ベイズ事後確率はp値を近似:ベイズの事後確率は頻度論のサ...
- いろいろな H が,それぞれいろいろな系統樹を表す領域と思...
- サンプリングして p値やベイズ事後確率を推定する
-- ブートストラップサンプリング:同じデータのコピーをサン...
-- 推定p値は,いろんな領域 H の遠さと,領域の大きさに影響...
- 多重比較:type1エラーは非常に保守的評価 → 仮説の絞り込...
-- ブートストラップ,ダブルブートストラップ,マルチスケー...
- ベイズのp値は曲率の反転で(だいたい)頻度論のp値に一致...
** 低ランクテンソルの学習理論と計算理論 [#ndd13f8c]
東京工業大学情報理工学院/JSTさきがけ 鈴木大慈
- テンソル:高次の関係性を扱う
- スパースベクトル:規定は固定で係数(特徴の重み)のみ学...
- 低ランク行列推定の精度:最小二乗法やトレースノルム正則...
分解をテンソルに拡張
- CP分解
-- ランク1のテンソル=ベクトル,各次元ごとの要素ベクトル...
-- 低ランクのもので,高ランクをいくらでもよく近似できてし...
-- スケーリングと列の入れ換えの自由度を除いて(回転抜き)...
-- 分解した要素 U^(k) が降るランクならCP分解は一意に多項...
テンソル分解の学習理論
- 難しいところ高次元性,特異性(表現が一意で派に),非凸性
- 凸正則化法:損失 + 低ランクになるようなペナルティ
-- テンソルを行列に変換してトレースノルム → ちょっと無理...
- ベイズ推定 → ほぼ minmax最適を達成
推定法
- 交互最適化:成分を一つずつ最適化してゆく
- ベイズ推定:カーネル関数の点推定 → ガウス過程にする
- カバーリングナンバー:関数の複雑さを測る → RKHSの空間の...
-- GPにも拡張できる(小球確率)
* 招待講演: Strategies & Principles for Distributed Machi...
Eric Xing, カーネギーメロン大
- 外の人からみると機械学習はブラックボックスに見える
- 中の人からみると,いろいろな要素がある.手法もデータも...
-- それらの計算基盤としてのハードウェア
- 機械学習は非線形最適化問題,反復的にパラメータを更新す...
-- 反復計算で,勾配の計算を並列化する
- データの規模は拡大:Google Brain 1Bパラメータ,ゲノム分...
-- IoT では 50Bデバイスのデータの分析が必要に
-- 深層学習でのパラメータは 1T 超え
- MapReduce:反復ごとに HDFS の同期が必要でボトルネックに
- Spark:RDD はキャッシュによって反復ごとに同期が必要ない...
- 並列計算では同期のコストと,データ転送の帯域が重要
- MLプログラムの特徴:optimization-centric で iterative c...
-- error tolerance:最適化とかは多少は最適解からずれても...
-- 動的構造依存性:モデルパラメータの相関という,並列計算...
-- non-uniform convergence:パラメータによって収束の速さ...
-- ⇔これらあh以前のプログラム:transaction-centric, ato...
- MLシステム設計で重要なのは
-- 並列化の方法,計算と通信の連結,通信方法,何を通信するか
- 並列化の方法:スケジューリングと負荷分散
-- 係数を分割するとき,係数に掛けるデータの内容の依存性構...
-- 構造に合わせた動的なスケジューラー:優先度スケジューリ...
- 計算と通信の連結:モデルの結と,限定的な同期
-- MapReduce や Spark では多くの同期が必要に,CPU間の通信...
- 安全な同期と危険な非同期
-- Stale Stale Synchronous Parallel Bridging model:遅い...
- 通信方法:managed communicationとトポロジー
-- managed communication:同期と通信を同時に
-- 通信トポロジー
--- マスター=スレーブ(それぞれのマシンで違うコード)
--- P2P 同期コストは大きい
--- Halton sequence topology, random partial broadcsting,...
- 何を通信するか
-- パラメータが多いと更新は大変 → 一部を更新
- Petuum:並列計算環境 http://petuum.org
* 11月17日(木):ワークショップ第2日 [#nd836ea6]
* 企画セッション2:実社会データへの機械学習の応用 [#m7c5b...
** 機械学習ビジネス化の進展と今後の方向 [#bbf0e04f]
日本電気株式会社データサイエンス研究所 森永 聡
- 機会学習のビジネス化:可視化システム→予測システム→意思...
- 2000年〜:見える化(可視化,BI) → 2010年〜:予測分析 ...
- 大規模予測システム
-- ビルのエネルギー消費,水道施設のための水需要予測,小売...
- 予測モデル;業務知識+大量データ分析に機械学習を適用
- 大規模予測システム
-- 高精度(当然の条件),ホワイトボックス性(お客さんを説...
- 一般に 高精度⇔ホワイトボックス はトレードオフ関係
-- 異種混合データ:傾向の異なる複数のデータが混ざっている...
- 適用例
-- エネルギー需要予測 http://www.fbi-award.jp/sentan/jusy...
-- 小売りの需要予測,中古品の適性価格予測,工場の品質予測...
-- データサイエンティストが人手でやってると高コスト + 需...
意思決定の自動化(OR・リスク分析)
- 2015年〜:予測ができるとしてオペレーションを自動化,デ...
- 水道施設:ポンプやバルブを調整して需要を満たすように水...
-- 高圧だとパイプが痛む,低圧だと断水,電気は安い時間帯,...
-- 不確実性を考慮したリスクの少ない計画策定 → ロバスト最...
- 水需要→造水/配水,商品売上→価格/品揃え,通勤需要→運行計...
- シンガポールの輸送局:ドライバーの事故リスクを考慮した...
2020年:人工知能間の交渉・連携(ゲーム理論)
- それぞれのシステムが効率化を図るが,それは外部が静的で...
-- マイカーのナビゲーション,公共交通の管理,緊急車両 の...
-- 交渉の自動化:部品調達の最適化
-- 意思統一されていない自動オペレーション間でも挙動を調整...
- 自社のシステムだけでなく他社システムとも連携:標準化の...
** 時系列ビッグデータ解析の新たな展開 [#k1fde1f7]
熊本大学 櫻井保志(元NTT)
- 時系列ビックデータ解析:センサーデータ,Web,医療情報
-- 製造業を対象にした研究(富士通,トヨタ)
-- SIGMOD 2015 / WWW 2016でチュートリアルを開催
- 大規模時系列解析の種類
-- 大規模テンソル解析:次元の一つが時間方向,
--- Webでいつ・どこで・誰がアクセスを分析できる:潜在因子...
-- 非線形モデリング:微分方程式の大規模化
--- ソーシャルメディアの情報の拡散パターン,ハリーポッタ...
--- 競合関係にある商品群の抽出をWebログだけから,アンケー...
-- 特徴の自動抽出:モーションキャプチャーのモデルから,行...
現在の研究プロジェクト
- 非線形テンソル分析
-- 国ごとの検索ワードの分析:トレンド,周期性,スパイクな...
--- クリスマスにピークがあるのはキリスト教圏,中国は旧正月
--- 2008年の米大統領選挙のマスメディア間の競合関係
--- 車両センサーデータ:地理情報使った事故防止
- リアルタイム予測:100秒先の状態を,長期間,継続的に検出...
-- レジームシフト:時系列パターンの構造変化,レジームの推...
今後
- 技術的課題:
-- 自立的モデル学習:予測モデルの蓄積と最適なモデルの選択
-- 因果関係の解析:モデル間の連結の強さの推定,要因・結果...
- トヨタ(2014〜)富士通(2016〜)その他・製造業
- サービスのために:調整作業,改良,保守などを作る企業を...
** IT企業における機械学習 [#m10a057f]
京都大学 山田 誠(元 米Yahoo Labs)
- Yahoo Lab:北米IT企業はPh.Dの主な就職先,何らかの形でベ...
-- 仕事:データの前処理,モデルチューニング,新規モデル提...
-- あんまり論文は評価されないが,ベストペーパーぐらいでな...
-- プレッシャーは大きい
- Yahooの機械学習
- トップページ:検索:GBDT,メール:GBDT,バナー:ロジス...
- 検索エンジン:クエリの自動補完(GBDT,CRF),Webランキ...
- データ量と特徴数:サンプル数少ない(lasso),少特徴多デ...
低次元大規模データ:データ数が次元数より大きい
- 詐欺検知(偽物,商品を送らない,優良ユーザスコアを溜め...
- 検索結果の最適化:10ブルーリンク(文書へのリンクを10個...
-- 仮定:文書が他の文書とは独立,利用者は上位から順に見る...
-- 検索結果には:広告,ニュース,知識カード(オバマ大統領...
-- 写真とかがあると視線は画像に行きやすい → 上から見ると...
-- 満足度=クリック率(検索結果と検索方法の関数),FM や ...
-- 学習した満足度を最大化するための検索結果・検索方法を選ぶ
--- 運用では,探索・活用トレードオフがあるので,εグリーデ...
-- どこどこの知覚の飲み屋を検索すると,地図より,飲み屋が...
高次元・大規模・疎:疎性があると線形モデルでも高い予測性...
- 推薦システム=疎行列の行列分解:欠損と未観測が区別でき...
- 0で欠損値を埋めると未観測を0とするのでうまくいかない
- 観測値だけに当てはめる → 非凸最適化で局所最適
- 凸行列分解,トレースノルムを使った緩和 → スケールしない
- bounded semi-definite programming:大規模化,Hazan's ア...
- cold-start問題:新規利用者 → 利用者やアイテムの特徴など...
-- 復号行列分解 + トレースノルム を使った方法
- Tumbler のブログ推薦:フォローしているブログを読めるサ...
-- ブログ記事が対象なので,リッチなテキストデータが利用可能
* 招待講演:深層学習は世界をどのように変えられるのか [#g3...
PFN\PFI 岡野原大輔
- PFN:2014年〜,50人ほど,ほとんど研究・エンジニア,主な...
- 深層学習の応用が進む:画像音声認識,予測,制御,異常検...
- 深層学習:多層のニューラルネット,今では急速に複雑化し...
-- ニューラルネットワークの構造に事前知識を埋め込んでいる
- なせ深層学習が性能がいいのか?[Lin+ 16]:世の中の問題の...
-- 低次性(しられテイル物理現象の変数間の相互作用の次数は...
-- 局所相互作用性(相互作用の数は変数の数に対して線形にし...
-- 対称性(画像や化学反応の対称性で実際の自由度は見かけよ...
-- マルコフ性(生成過程は直前の状態に依存)
- 人工知能と飛行機:空を飛ぶのに鳥を作る必要はないので飛...
- 今の人工知能:数値計算などの大人水準の知能と,画像認識...
- 飛行機はライト兄弟から10年で定期便ができるほど急速に発...
自動車
- 自動運転での人や車の検出:ダイムラーが出しているデータ...
-- 影やオクルージョンは難しかったが,深層学習で精度が上が...
- 走行可能領域の認識(歩道や標識,緊急回避の場所も)→ 領...
- 200+次元のレンジセンサー → ハンドルやアクセルの制御を強...
-- センサーの情報から特徴を人手で作る必要がなくなった
-- 模型自動車でも動作
- 自動運転のレベル:2 ADASなど,緊急時のみの介入,3:トラ...
-- 難しさのポイントがそれぞれのレベルで違う
- 必要な技術
-- 環境認識:位置などの認識,交通参加者の検出と状態推定,...
-- 予測:交通参加者の行動予測(分布の形で)未観測の乗降の...
- 課題
-- 多様な環境への対応:地域,天候:雨雪霧でのセンサ性能,...
-- 深層学習の説明性,性能保証:説明に基づくテスト,問題が...
-- シミュレーション上での学習:レアイベントはなかなか実際...
-- センサーフュージョン:カメラ,ライダー(レーザーセンサ...
ロボット w. FUNAC
- ばら積み部品のピックアップ
-- 多くの試行から教師あり学習 → 去年の時点で人間のプログ...
-- Amazon picking challenge:棚入れ・棚だし,今は人間がや...
--- 場所を画像とライダーで認識
- ドローン:命令からの状態変化までのタイムラグ,モータの...
- 現状のロボット:正確性・速度・パワー・耐久性は人間以上...
-- 課題:多様な認識(画像など),多アクチュエータの制御,...
-- 認識の問題は解けつつある.
--- one-shot,zoro-shot学習:始めて見る商品でもつかむこと...
-- 安全な強化学習
--- シミュレータなど危険なことができる環境でないと学習の...
-- 教示方法
--- より抽象的な指示ができるか(座標を指定するとかじゃな...
--- 模倣学習 (imitation learning),徒弟学習
-- 物理モデルの学習
--- 人は経験から物理モデルを学習できる(滑る床への対応)...
--- differntiable physics engine
バイオ・ヘルスケア
- 薬の活性化予測コンペでNNが優勝
- microRNAのbinding予測:どういう場合にくっつくかを従来7...
- DNA/RNA/タンパク
-- NLPや画像の連続表現 → DNA/RNA/タンパクでもできるのでは?
- 新NP問題
-- 高次元・小規模問題,大量のラベルなし+少数のラベルあり ...
- 時空間解像度
-- 生体内のダイナミクスのほとんどは観測できていない(遺伝...
コミュニケーション
- 対話システム:直前の言葉には反応できるが,文の意味や文...
-- 偶然にそれらしい対話をすることもある
- 知識をどのように埋め込むのか?
-- 知識を大量に記憶することは得意,どのように埋め込むのか...
- 心理モデル
-- 相手の考えに対するモデル,人間同士はハードウェアが共通...
- コミュニケーションの目的関数
-- 次の文を予測,協調してタスクを達成,内発的な動機付け(...
まとめ
- 深層学習の応用にともなって課題がでてきた
-- one-shot などの昔からの課題 + シミュレーションからの転...
- 具体的な問題の解決からの理論の進展の可能性
- 深層学習の分野は広がる,人間の知能は実現できていないが...
- 人の知能のしくみで工学的に参考になる部分は多い:認識,...
* 11月18日(金):ワークショップ第3日 [#i78faa23]
* 企画セッション3:物質・材料科学への機械学習の応用 [#u6e...
** 人工知能技術による機能分子・物質設計 [#b1e44fd5]
東京大学 津田宏治
- マテリアルインフォマティクス:材料科学にIT技術を利用
-- オバマ政権 2012: Materials Genome Initiative → ITを使...
- 材料科学:
-- 結晶構造,セルにはたかだか10個の原子
-- 量子力学が重要:金が金色なのは量子効果,全ての原子の相...
- 第1原理計算:正確で遅い:full configuration interaction...
-- density functional theory (DFT) がよく使われる
- 従来:実験結果をシミュレーションで検証 → シミュレーショ...
- 3種類の手法
-- 仮想スクリーニング:low-LTC分子の発見
-- ベイズ最適化:grain boundaryの最適化,Si-Geナノ構造の...
-- モンテカルロ木探索:最適RNA系列の探索
- 第1原理計算だけで有用なものを見つける → ナイーブには全...
-- 仮想スクリーニング:候補の一部だけをちゃんと第1原理計...
熱伝導度の低い分子を見つけたい:断熱材,熱電材料を作るの...
- 第1原理計算 Lattice Thermal Conductivity (LTC):100コア...
- 101種類の- materials project Db:54779種類登録されてい...
-- 101種類の候補について仮想スクリーニング → 8個を第1原理...
- ベイズ最適化:最小の観測数で,最適値を見つける
-- 最適化が目的であるので,関数全体を見つけたい能動学習と...
-- 仮想スクリーニングで,予測値と予測値の分散の両方を考慮...
-- ベイズ推定では,各反復でベイズ推定した物性に対し,現在...
- 記述子:DFT calculated features,物質の特徴
ベイズ最適化
- grain boundary構造決定
-- grain boundary:二つの原子の塊が並んだとき,そのずれが...
- Si-Geナノ構造の設計
-- シリコン=ゲルマニウムの格子があるとき,そのうちの一部...
-- 熱伝導度が高い・低い配列を見つける
** 科学と機械学習のあいだ:変量の設計・変換・選択・交互作...
北海道大学 / JSTさきがけ 瀧川一学
- http://art.ist.hokudai.ac.jp
- バイオの世界で:前立腺癌に効く化合物と効かないもの → 分...
-- 部分グラフとかは使えないので特徴がとても難しい → 専門...
特徴工学をどうにかしたい
- 目標:基礎の特徴量を決める → あとは組み合わせでデータド...
-- 演繹:実験的にわかっていることを最小の仮説や公理で説明...
- 例:二つの結晶構造のどちらをとりうるか? 数個の基本特徴...
-- 特徴の差を指数関数で割ったとか適当な特徴が効いた
- 変数間の交互作用を表現できる特徴
-- 統計では変数の積が多い → 変数間のインタラクションがあ...
-- 機械学習側で考慮する方法もあるだろうが,実際に合成して...
- 超高次元の問題:たくさん特徴を合成しているといろいろま...
-- 擬相関:本当は無相関でもランダム性の影響で偶然に相関が...
-- 測度の集中現象/次元の呪い:高次元では距離がどの対象間...
- 変数選択・正則化
-- best subset:L0最適化,全列挙,不安定
-- lasso:変数間の相関がなければbest subsetに一致,しかし...
-- glmnet::エラスティックネット
-- lassoの改良手法:adaptive lasso, SCAD, MC+ など(√n 一...
-- Sure Independence Screening:超高次元用の特徴スクリー...
- 安定性
-- best subset はデータで結構解が変わる不安定性
-- stability selection,randomized lasso(ランダムにlasso...
- 木回帰・再帰分割:交互作用のもう一つの扱い
-- automatic interaction detectorが決定木の起源,最適な木...
- 交互作用から合成特徴量:積以外の特徴を構成
- アンサンブル木型回帰
-- ランダムフォレスト:バギング
-- 勾配ブースティング:関数空間で関数が目的の方向に近づく...
-- regularized greed forests:回帰の森を一部拡張していく
-- decision jungles:決定木 → DAG
-- 木のアンサンブルはわりと解釈可能 (feature importance, ...
- 非線形ランダム特徴量:random projections, randomized tr...
- メタ特徴量
- モデル特徴集合の妥当性評価
-- applicability domain:機械学習は訓練データにない外挿に...
-- Y-Scrambling test:(x,y) の y ランダムに入れ換えてもあ...
** パーシステントホモロジーと機械学習 [#jcb863f3]
東北大学 平岡 裕章
- 位相的データ解析:topological data analysis; TDA
-- データの幾何構造,トポロジーに注目して分析
-- Gunner Carlsson, Robet Ghrist, Konstantin Mischaikow
- 材料科学への応用:高分子,アモルファル,粉体 → 無秩序に...
- データの形状:データの幾何モデルを作り(多面体で記述)→...
- alpha shape:多面体モデルの一つ,点データをドロネー分割...
-- 扱いやすいデータ,距離変えることでデータ分析の解像度を...
- パーシステント・ホモロジー
-- ホモロージーはトポロジーの穴の数だが,それを大きさや形...
-- alpha shapeでは,距離を変化させたときの,穴が消える点...
- アモルファス(ガラス)
-- 近傍だけでなく,離れた原子も性質に影響
-- 原子配置を入力データだと思って,alpha shapeによって記...
-- パーシステント図は,液体だと2次元の広がり,結晶は点だ...
-- トポロジーの穴は,物性的には変形できる方向とそうでない...
- パーシステント図とカーネル
-- パーシステント図:ホモロジー(穴構造)に注目した記述 →...
-- ヒストグラムであるパーシテント図を記述できるカーネル p...
- アモルファスのパーシステント図に見られる曲線を分析する...
* 招待講演:深層学習の基礎:自己組織化と教師付学習 [#qd08...
理化学研究所脳科学総合研究センター 甘利俊一
- 自己組織化と確率的降下教師付き学習
-- 重要なのは,特徴の表現が大事なのだと説明されているが,...
- ニューロンのヘブ自己組織化
-- 入力が表す球の一部をしきい値で切り取ったものが,受容野...
- ボルツマンマシン自己組織化学習
-- 需要野中の信号の平均が,需要野の中心に一致するように学習
-- 中心の一致を考えると,信号の分布が単峰でないとと,全体...
-- 外界の信号とモデルがKLの意味で一致するように
-- ニューロンの相互作用:各ニューロンの需要野の中心の一次...
- 入力の分布 p(v) の構造から特徴を出しているとすれば,ど...
-- PCA?クラスタ?
- ランダム回路でどんな構造がでるのか調べてみた
-- 層をえるごとに,信号の混合の仕方が複雑に
-- 入力の微少変動が,出力にどう変動するかの解析 → 若い人...
教師付き学習:誤差逆伝播
- 勾配降下で最適解に行くには,関数空間にいっぱい特異点が...
-- ある層の中で,入力に対する重みが同じになると特異点が出...
-- minor attractor:安定領域に一度は引き込まれ,そのあと...
-- 2次元以上になると厳密には当てはまらない
脳に何を学ぶのか,意識と無意識のダイナミクス
- AI:記号,論理 ⇔ NN:興奮パターン,並列ダイナミクス
- Libetの実験:自由意志はあるか
-- 自分のとめたいと思うところで時計を止めさせる
-- 止めたいと決めた前の500m秒前に信号が出ていて,外部から...
- 予測(先付け)と後付け
-- 双方向のダイナミクス:行動をあとから意識が合理化する ⇔...
- これからはこのダイナミクスを実現していく必要
- 意識の定量化 ー 意識の定義が人によって違うのでいろいろ...
-- 時間の経過にともなって,情報の統合がどれくらい進むかで...
* 企画セッション4: 神経・脳科学からの学習理論 [#z6d4feb4]
** 動的ボルツマンマシン [#q475c29a]
IBM東京基礎研究所 恐神貴行
- 90年代のSTDP (spike-timing dependent plasticity) Hebb則...
- ボルツマンマシン:ニューロンが重みのある辺で繋がっている
-- 学習則:データの対数尤度の最大化,勾配は観測値とモデル...
-- データを一ずつ扱う確率的な更新にすると,同時発火に対す...
- ニューロン:ニューロンの発火には方向(順番)があり,タ...
- STDP則
-- preが発火して,postが発火すると時間が経つと発火は弱く...
-- postが発火して,preが発火すると,信号は逆向きで,時間...
- ボルツマンマシンで,このSTDPをモデル化しよう
-- 時間方向にボルツマンマシンを並べ,その並べる数が無限大...
-- 結合は,時間間隔が離れるほど重みは小さくなる → 時間遅...
-- ボルツマンマシンの学習則との違い:最近どれくらいのスパ...
- pre が post の後で発火する場合にも,同様にモデル化できる
- さらに両者を合わせたモデルに
- 層があってもBPのような逐次計算がなくて並列に計算し易い
** 脳の生物学的特徴と学習( Brain's biological machinery f...
理化学研究所脳科学総合研究センター 深井朋樹
- SFN:3万人参加の会議,14000 のうち 3858 では可塑性・学...
- Marrの3レベル:脳は何を計算しているのか?計算の手続きは...
ニューロンの信号のスパイク
- スパイクの計算でのメリット,短時間なので高速かもしれな...
- 抑制と興奮の活動はバランスしている
-- 運動を抑えるときに,抑制の細胞が発火しているわけではない
- reservoir computation:ランダムな回帰結合,いろいろなパ...
- 独立成分分析:カクテルパテーティ効果
-- 線形代数で使っているので,二人で同じマイクを使うようだ...
-- STDP を使えば非線形なものもいけるのでは?
-- STDPは,一度勝ったニューロンはかち続けてしまう → 実際...
-- 強い相関を検出するのに役立つ → 耳の蝸牛の各周波数に対...
海馬
- 歯状回 → CA3 → CA1 → 嗅内皮質 をループする
- place cell:特定の場所で発火するニューロン,θ波を観測す...
-- 8割ぐらいの将来使われる細胞は,予め存在している
- 樹状突起:相関関係の抽出に関連する
* 11月19日(土):チュートリアル [#e9f3e63b]
- 場所:イノベーション棟 シンポジウムルーム
* ベイズ推定からベイズ的最適化入門まで [#n266ba7d]
佐藤一誠
- 統計モデルを推論する
-- 癌なら陽性の検査で陽性だった
-- 癌でないなら陰性のはずなので,癌である
-- 統計的推論(仮説検定):癌でないなら陽性の確率は2%なの...
- ベイズ推定
-- 他の統計では Pr(結果|原因) を考えるがベイズでは Pr(原...
Pr(原因 | 結果) = [ Pr(結果 | 原因) / Pr(結果) ] Pr(原因)
- 事前分布→事後分布 への変化
-- 逐次合理性:2回目は,1回目の事後確率を事前確率にすれば...
- モンティホール問題
-- ベイズの公式で計算する(理由不十分の原理:最初に何もわ...
-- 一般には変えた方がよいことになっているが,これは司会者...
- 確率πで表がでるコイン,そして π=0.4, 0.5, 0.6 のような...
-- πが連続のときはベータ分布を使う → 事後分布もベータ分布に
- 5人のうち4人に薬の効果があった → 80%で効くといっていい...
-- ベイズ推論では,効果がある確率が0.5以上である確率とい...
- 5人の陽性被験者を集めるには20人の被験者,このときさらに...
-- 負の二項分布を使い,ベータ分布を事前分布にする
ベイズ最適化
- 関数の形状が未知であるブラックボックス関数の最適化
- 4種類の薬品を混ぜた投与量による効果を最大にする混ぜ方
-- 関数 f(x) をベイズ推定しつつ最適化を行う
- 関数 f(x) の種類は無限個あるので,ガウス過程を使う
-- 関数の事後分布が計算できる → 平均的な関数とその分散が...
- 探索と活用のトレードオフ
-- 探索:関数の分散がおおきく曖昧な部分を調べる ⇔ 活用:...
-- 信頼区間戦略:平均 + κ 標準偏差 最大の部分を調べる(ト...
* スパース正則化入門 — 今さらL1ノルム?今こそL1ノルム!— ...
大関真之
- 機械学習:データに対する関数の当てはめ
- スパースモデリング:どこが重要かを自動的に判別する技術
- カンニング検出
-- 正解しそうかどうかを予測するのに,本人能力や問題の難易...
-- スパース正則化で特徴選択をすることで,他人の回答が非常...
- 圧縮センシング:計測への疎性の利用
-- 制約数の足りない連立方程式(劣決定系)でも,入力の疎性...
-- 計測データが足りない場合でも疎性を利用すると十分な情報...
-- 計算量的に解くのが難しいL0ノルム制約を,L1ノルム制約に...
- L1ノルムは疎な解の選択法だが,その選ばれた解が真の解に...
- 観測したいものが本当に疎か? → うまく変換して疎にする
-- 元の信号が疎である
-- 変化が局所的に均一なら,隣接データ間の差をとると疎になる
-- Wavelet/Curveletなどの変換によって疎にする
- 実際に解くには?
-- 等式制約付きのL1ノルム最小化は,未定乗数法でも罰金法で...
-- L1ノルムの方を最小化する → 微分不可能点があるので勾配...
- Iterative Shrinkage Thresholding Algorighm (ISATA):上...
- Alternating Direction of Multiplier method (ADMM)
-- 二つの関数の和の最小化 min {f(x) + g(x)} → min{x,z} {f...
-- この制約付き最適化問題を,ラグランジュ法にさらに2乗罰...
-- そして,x と z についての最小化を交互に繰り返す
- lasso では本来は見たしたかった y=A x を厳密に満たすよ...
-- さらに変数を追加することで,lassoを経由することなく AD...
- 行列の補完
-- 観測された値が保存される制約下での,特異値ベクトルのL1...
* カーネル法の最前線 [#s037873b]
福水健次
- 正定値カーネルは内積:内積はおおまかにいって類似度
-- カーネルを決めることは,類似度を決めて分析するモデリン...
- カーネルの性質
-- k(・,x) はヒルベルト空間
-- 再生性 <f, k(・,x)>=f(x)
- ノンパラメトリック推定:データが増えていくと,モデルの...
-- カーネル平均:期待値計算ができる
-- カーネル平均で分布が記述可能なカーネルを特性的なカーネ...
- Hilbert-Schmidt独立性規準 (HSIC) → 独立性の規準
- Kernelized Sorting:各ドメインで,他の要素との相対的な...
-- HSICはグラム行列間の類似度とみなせるので,ドメイン内の...
- ベイズ推論:平均カーネルを重み付き平均に変えると適用で...
- カーネル選択:モデル選択の問題なので決定打はない
-- カーネルのパラメータはうまく設定しないといけない
-- 教師あり学習 → 交差確認,教師なし→一般にはないが検定で...
-- Multiple Kernel Learning:カーネルの凸結合を使い,要素...
- 計算の効率化
-- グラム行列の低ランク近似,分解した状態で計算するとデー...
-- Random Fourier Feature:k(x,y) が x-y の関数だと非負な...
- カーネル法の深化:カーネルの多層化,大規模化,基底関数...
-- doubly stochastic gradient:SGDをするのに加え,カーネ...
-- QMC feature map:可変基底,RFFの変形
* ディープラーニングの基礎 [#r8144694]
庄野逸
- 人工知能は Alpha GO で話題 → DeepMind は次にヘルスケアに
- 深層学習:深い階層構造のあるニューラルネットモデル
-- 進展にはデータの質と量の影響が大きい
- 深層学習以前:特徴量構築 + 単純モデル → 特徴抽出器の設...
- パーセプトロンが目指したもの:パターン認識=人間らしい...
- バックプロパゲーションによる進展は,auto-encoder,NETTa...
-- データ不足,勾配消失問題でネット全体を最適化するのは難...
-- 勾配をどうにかする(ReLU / LSTM),学習を各層ごとに(RB...
- 勾配消失:活性化関数で微分値が非常に小さくなる範囲では...
- ネオコグニトロンが過去の研究との繋がりなしに出てきてい...
-- 今のCNNはすでに脳とは関係ない,すでに人間のエラー率よ...
- 医療画像認識:データ数があまりない(各病気ごとに10数名...
-- 転移学習:他の一般画像認識で学習済みのモデルを利用し,...
- CNNの内部の解析
-- 各層ごとの分離平面を調べた:Pooling層でクラスタ内分散...
-- 前向きの信号のパスを逆方向にたどる分析:各ニューロンが...
終了行:
* 第19回 情報論的学習理論ワークショップ (IBIS2016) [#jd6d...
COLOR(#00AA00){このページはしましまが [[IBIS2016>IBIS#IBI...
#contents
* 11月16日 (水) :ワークショップ 第1日 [#w773bd16]
** オープニング [#zb458fa2]
- 今年のテーマ「ブームを乗り越える」
-- ブームで終わらせないために基盤からちゃんと固よう
* 企画セッション1:統計理論 [#tb2cbb50]
** 順序構造上の情報幾何的解析 [#e3d266cc]
大阪大学 杉山麿人
- 半順序構造 S,≦上の分布
-- 対数線形モデル:ζ関数 ζ(s,x) (s≦xなら1)と係数θ(s)
log p(x) = Σ ζ(s, x) θ(s)
-- 線形モデル:メビウス関数 μ(s,x) (ζ^-1 )と期待値θ(s)
p(x) = Σ μ(s, x) η(s)
- おいしいところ
-- 分布のKLダイバージェンスば分解可能
-- dually flat manifold 構造
- 半順序構造:べき集合,正整数,プレフィックス木,有向非...
-- 分布:半順序をグラフで書くと,各ノードに確率質量がつい...
-- 情報幾何的に,このような分布を空間中の点と考える
- べき集合:特徴の組み合わせ全体の集合とみなせる
-- 頻出パターンマイニング:頻度の大きな組み合わせを発見する
-- 順序構造で,ある特徴の組み合わせより大きなものの頻度が...
- どちらも指数分布族
-- 線形モデルの方は,あるパターンより上に入る確率
-- 線形対数藻で得るの方は,逆にあるパターンより下に入る確率
- ζ^-1 はメビウス関数
-- 集合の和集合を求めるときの inclusion-exclusion theorem...
-- Möbius inversion formula でζとμを使った式を書き換えら...
- 情報幾何的解釈
-- 2特徴のべき集合 → 4ノードのグラフ,3パラメータ → 3軸の...
-- Möebius inversionによって θ と η が直交することが示せる
--- θの方を 0 にして検定するなどするとき,半構造上の他のθ...
-- 既存の情報幾何ではべき集合だけだったが,それを任意の半...
- KLダイバージェンスの分解
-- P と Q に加えて合成した R という分布がある → KL(P,Q) =...
- 部分グラフになってるかの半順序構造 → グラフマイニングの...
** 頻度論とベイズをつなぐ統計的信頼度 [#l16c278e]
大阪大学 下平英寿
- 平均 μ の分布からでてくる y,このμが H の集合にはいって...
- 多変量正規分布に
- ベイズ事後確率:確信度=事後確率,元の分布と同じガウス...
- 頻度論:真の分布で出たサンプルが μ∈H の仮説の下でダメだ...
- ベイズ事後確率はp値を近似:ベイズの事後確率は頻度論のサ...
- いろいろな H が,それぞれいろいろな系統樹を表す領域と思...
- サンプリングして p値やベイズ事後確率を推定する
-- ブートストラップサンプリング:同じデータのコピーをサン...
-- 推定p値は,いろんな領域 H の遠さと,領域の大きさに影響...
- 多重比較:type1エラーは非常に保守的評価 → 仮説の絞り込...
-- ブートストラップ,ダブルブートストラップ,マルチスケー...
- ベイズのp値は曲率の反転で(だいたい)頻度論のp値に一致...
** 低ランクテンソルの学習理論と計算理論 [#ndd13f8c]
東京工業大学情報理工学院/JSTさきがけ 鈴木大慈
- テンソル:高次の関係性を扱う
- スパースベクトル:規定は固定で係数(特徴の重み)のみ学...
- 低ランク行列推定の精度:最小二乗法やトレースノルム正則...
分解をテンソルに拡張
- CP分解
-- ランク1のテンソル=ベクトル,各次元ごとの要素ベクトル...
-- 低ランクのもので,高ランクをいくらでもよく近似できてし...
-- スケーリングと列の入れ換えの自由度を除いて(回転抜き)...
-- 分解した要素 U^(k) が降るランクならCP分解は一意に多項...
テンソル分解の学習理論
- 難しいところ高次元性,特異性(表現が一意で派に),非凸性
- 凸正則化法:損失 + 低ランクになるようなペナルティ
-- テンソルを行列に変換してトレースノルム → ちょっと無理...
- ベイズ推定 → ほぼ minmax最適を達成
推定法
- 交互最適化:成分を一つずつ最適化してゆく
- ベイズ推定:カーネル関数の点推定 → ガウス過程にする
- カバーリングナンバー:関数の複雑さを測る → RKHSの空間の...
-- GPにも拡張できる(小球確率)
* 招待講演: Strategies & Principles for Distributed Machi...
Eric Xing, カーネギーメロン大
- 外の人からみると機械学習はブラックボックスに見える
- 中の人からみると,いろいろな要素がある.手法もデータも...
-- それらの計算基盤としてのハードウェア
- 機械学習は非線形最適化問題,反復的にパラメータを更新す...
-- 反復計算で,勾配の計算を並列化する
- データの規模は拡大:Google Brain 1Bパラメータ,ゲノム分...
-- IoT では 50Bデバイスのデータの分析が必要に
-- 深層学習でのパラメータは 1T 超え
- MapReduce:反復ごとに HDFS の同期が必要でボトルネックに
- Spark:RDD はキャッシュによって反復ごとに同期が必要ない...
- 並列計算では同期のコストと,データ転送の帯域が重要
- MLプログラムの特徴:optimization-centric で iterative c...
-- error tolerance:最適化とかは多少は最適解からずれても...
-- 動的構造依存性:モデルパラメータの相関という,並列計算...
-- non-uniform convergence:パラメータによって収束の速さ...
-- ⇔これらあh以前のプログラム:transaction-centric, ato...
- MLシステム設計で重要なのは
-- 並列化の方法,計算と通信の連結,通信方法,何を通信するか
- 並列化の方法:スケジューリングと負荷分散
-- 係数を分割するとき,係数に掛けるデータの内容の依存性構...
-- 構造に合わせた動的なスケジューラー:優先度スケジューリ...
- 計算と通信の連結:モデルの結と,限定的な同期
-- MapReduce や Spark では多くの同期が必要に,CPU間の通信...
- 安全な同期と危険な非同期
-- Stale Stale Synchronous Parallel Bridging model:遅い...
- 通信方法:managed communicationとトポロジー
-- managed communication:同期と通信を同時に
-- 通信トポロジー
--- マスター=スレーブ(それぞれのマシンで違うコード)
--- P2P 同期コストは大きい
--- Halton sequence topology, random partial broadcsting,...
- 何を通信するか
-- パラメータが多いと更新は大変 → 一部を更新
- Petuum:並列計算環境 http://petuum.org
* 11月17日(木):ワークショップ第2日 [#nd836ea6]
* 企画セッション2:実社会データへの機械学習の応用 [#m7c5b...
** 機械学習ビジネス化の進展と今後の方向 [#bbf0e04f]
日本電気株式会社データサイエンス研究所 森永 聡
- 機会学習のビジネス化:可視化システム→予測システム→意思...
- 2000年〜:見える化(可視化,BI) → 2010年〜:予測分析 ...
- 大規模予測システム
-- ビルのエネルギー消費,水道施設のための水需要予測,小売...
- 予測モデル;業務知識+大量データ分析に機械学習を適用
- 大規模予測システム
-- 高精度(当然の条件),ホワイトボックス性(お客さんを説...
- 一般に 高精度⇔ホワイトボックス はトレードオフ関係
-- 異種混合データ:傾向の異なる複数のデータが混ざっている...
- 適用例
-- エネルギー需要予測 http://www.fbi-award.jp/sentan/jusy...
-- 小売りの需要予測,中古品の適性価格予測,工場の品質予測...
-- データサイエンティストが人手でやってると高コスト + 需...
意思決定の自動化(OR・リスク分析)
- 2015年〜:予測ができるとしてオペレーションを自動化,デ...
- 水道施設:ポンプやバルブを調整して需要を満たすように水...
-- 高圧だとパイプが痛む,低圧だと断水,電気は安い時間帯,...
-- 不確実性を考慮したリスクの少ない計画策定 → ロバスト最...
- 水需要→造水/配水,商品売上→価格/品揃え,通勤需要→運行計...
- シンガポールの輸送局:ドライバーの事故リスクを考慮した...
2020年:人工知能間の交渉・連携(ゲーム理論)
- それぞれのシステムが効率化を図るが,それは外部が静的で...
-- マイカーのナビゲーション,公共交通の管理,緊急車両 の...
-- 交渉の自動化:部品調達の最適化
-- 意思統一されていない自動オペレーション間でも挙動を調整...
- 自社のシステムだけでなく他社システムとも連携:標準化の...
** 時系列ビッグデータ解析の新たな展開 [#k1fde1f7]
熊本大学 櫻井保志(元NTT)
- 時系列ビックデータ解析:センサーデータ,Web,医療情報
-- 製造業を対象にした研究(富士通,トヨタ)
-- SIGMOD 2015 / WWW 2016でチュートリアルを開催
- 大規模時系列解析の種類
-- 大規模テンソル解析:次元の一つが時間方向,
--- Webでいつ・どこで・誰がアクセスを分析できる:潜在因子...
-- 非線形モデリング:微分方程式の大規模化
--- ソーシャルメディアの情報の拡散パターン,ハリーポッタ...
--- 競合関係にある商品群の抽出をWebログだけから,アンケー...
-- 特徴の自動抽出:モーションキャプチャーのモデルから,行...
現在の研究プロジェクト
- 非線形テンソル分析
-- 国ごとの検索ワードの分析:トレンド,周期性,スパイクな...
--- クリスマスにピークがあるのはキリスト教圏,中国は旧正月
--- 2008年の米大統領選挙のマスメディア間の競合関係
--- 車両センサーデータ:地理情報使った事故防止
- リアルタイム予測:100秒先の状態を,長期間,継続的に検出...
-- レジームシフト:時系列パターンの構造変化,レジームの推...
今後
- 技術的課題:
-- 自立的モデル学習:予測モデルの蓄積と最適なモデルの選択
-- 因果関係の解析:モデル間の連結の強さの推定,要因・結果...
- トヨタ(2014〜)富士通(2016〜)その他・製造業
- サービスのために:調整作業,改良,保守などを作る企業を...
** IT企業における機械学習 [#m10a057f]
京都大学 山田 誠(元 米Yahoo Labs)
- Yahoo Lab:北米IT企業はPh.Dの主な就職先,何らかの形でベ...
-- 仕事:データの前処理,モデルチューニング,新規モデル提...
-- あんまり論文は評価されないが,ベストペーパーぐらいでな...
-- プレッシャーは大きい
- Yahooの機械学習
- トップページ:検索:GBDT,メール:GBDT,バナー:ロジス...
- 検索エンジン:クエリの自動補完(GBDT,CRF),Webランキ...
- データ量と特徴数:サンプル数少ない(lasso),少特徴多デ...
低次元大規模データ:データ数が次元数より大きい
- 詐欺検知(偽物,商品を送らない,優良ユーザスコアを溜め...
- 検索結果の最適化:10ブルーリンク(文書へのリンクを10個...
-- 仮定:文書が他の文書とは独立,利用者は上位から順に見る...
-- 検索結果には:広告,ニュース,知識カード(オバマ大統領...
-- 写真とかがあると視線は画像に行きやすい → 上から見ると...
-- 満足度=クリック率(検索結果と検索方法の関数),FM や ...
-- 学習した満足度を最大化するための検索結果・検索方法を選ぶ
--- 運用では,探索・活用トレードオフがあるので,εグリーデ...
-- どこどこの知覚の飲み屋を検索すると,地図より,飲み屋が...
高次元・大規模・疎:疎性があると線形モデルでも高い予測性...
- 推薦システム=疎行列の行列分解:欠損と未観測が区別でき...
- 0で欠損値を埋めると未観測を0とするのでうまくいかない
- 観測値だけに当てはめる → 非凸最適化で局所最適
- 凸行列分解,トレースノルムを使った緩和 → スケールしない
- bounded semi-definite programming:大規模化,Hazan's ア...
- cold-start問題:新規利用者 → 利用者やアイテムの特徴など...
-- 復号行列分解 + トレースノルム を使った方法
- Tumbler のブログ推薦:フォローしているブログを読めるサ...
-- ブログ記事が対象なので,リッチなテキストデータが利用可能
* 招待講演:深層学習は世界をどのように変えられるのか [#g3...
PFN\PFI 岡野原大輔
- PFN:2014年〜,50人ほど,ほとんど研究・エンジニア,主な...
- 深層学習の応用が進む:画像音声認識,予測,制御,異常検...
- 深層学習:多層のニューラルネット,今では急速に複雑化し...
-- ニューラルネットワークの構造に事前知識を埋め込んでいる
- なせ深層学習が性能がいいのか?[Lin+ 16]:世の中の問題の...
-- 低次性(しられテイル物理現象の変数間の相互作用の次数は...
-- 局所相互作用性(相互作用の数は変数の数に対して線形にし...
-- 対称性(画像や化学反応の対称性で実際の自由度は見かけよ...
-- マルコフ性(生成過程は直前の状態に依存)
- 人工知能と飛行機:空を飛ぶのに鳥を作る必要はないので飛...
- 今の人工知能:数値計算などの大人水準の知能と,画像認識...
- 飛行機はライト兄弟から10年で定期便ができるほど急速に発...
自動車
- 自動運転での人や車の検出:ダイムラーが出しているデータ...
-- 影やオクルージョンは難しかったが,深層学習で精度が上が...
- 走行可能領域の認識(歩道や標識,緊急回避の場所も)→ 領...
- 200+次元のレンジセンサー → ハンドルやアクセルの制御を強...
-- センサーの情報から特徴を人手で作る必要がなくなった
-- 模型自動車でも動作
- 自動運転のレベル:2 ADASなど,緊急時のみの介入,3:トラ...
-- 難しさのポイントがそれぞれのレベルで違う
- 必要な技術
-- 環境認識:位置などの認識,交通参加者の検出と状態推定,...
-- 予測:交通参加者の行動予測(分布の形で)未観測の乗降の...
- 課題
-- 多様な環境への対応:地域,天候:雨雪霧でのセンサ性能,...
-- 深層学習の説明性,性能保証:説明に基づくテスト,問題が...
-- シミュレーション上での学習:レアイベントはなかなか実際...
-- センサーフュージョン:カメラ,ライダー(レーザーセンサ...
ロボット w. FUNAC
- ばら積み部品のピックアップ
-- 多くの試行から教師あり学習 → 去年の時点で人間のプログ...
-- Amazon picking challenge:棚入れ・棚だし,今は人間がや...
--- 場所を画像とライダーで認識
- ドローン:命令からの状態変化までのタイムラグ,モータの...
- 現状のロボット:正確性・速度・パワー・耐久性は人間以上...
-- 課題:多様な認識(画像など),多アクチュエータの制御,...
-- 認識の問題は解けつつある.
--- one-shot,zoro-shot学習:始めて見る商品でもつかむこと...
-- 安全な強化学習
--- シミュレータなど危険なことができる環境でないと学習の...
-- 教示方法
--- より抽象的な指示ができるか(座標を指定するとかじゃな...
--- 模倣学習 (imitation learning),徒弟学習
-- 物理モデルの学習
--- 人は経験から物理モデルを学習できる(滑る床への対応)...
--- differntiable physics engine
バイオ・ヘルスケア
- 薬の活性化予測コンペでNNが優勝
- microRNAのbinding予測:どういう場合にくっつくかを従来7...
- DNA/RNA/タンパク
-- NLPや画像の連続表現 → DNA/RNA/タンパクでもできるのでは?
- 新NP問題
-- 高次元・小規模問題,大量のラベルなし+少数のラベルあり ...
- 時空間解像度
-- 生体内のダイナミクスのほとんどは観測できていない(遺伝...
コミュニケーション
- 対話システム:直前の言葉には反応できるが,文の意味や文...
-- 偶然にそれらしい対話をすることもある
- 知識をどのように埋め込むのか?
-- 知識を大量に記憶することは得意,どのように埋め込むのか...
- 心理モデル
-- 相手の考えに対するモデル,人間同士はハードウェアが共通...
- コミュニケーションの目的関数
-- 次の文を予測,協調してタスクを達成,内発的な動機付け(...
まとめ
- 深層学習の応用にともなって課題がでてきた
-- one-shot などの昔からの課題 + シミュレーションからの転...
- 具体的な問題の解決からの理論の進展の可能性
- 深層学習の分野は広がる,人間の知能は実現できていないが...
- 人の知能のしくみで工学的に参考になる部分は多い:認識,...
* 11月18日(金):ワークショップ第3日 [#i78faa23]
* 企画セッション3:物質・材料科学への機械学習の応用 [#u6e...
** 人工知能技術による機能分子・物質設計 [#b1e44fd5]
東京大学 津田宏治
- マテリアルインフォマティクス:材料科学にIT技術を利用
-- オバマ政権 2012: Materials Genome Initiative → ITを使...
- 材料科学:
-- 結晶構造,セルにはたかだか10個の原子
-- 量子力学が重要:金が金色なのは量子効果,全ての原子の相...
- 第1原理計算:正確で遅い:full configuration interaction...
-- density functional theory (DFT) がよく使われる
- 従来:実験結果をシミュレーションで検証 → シミュレーショ...
- 3種類の手法
-- 仮想スクリーニング:low-LTC分子の発見
-- ベイズ最適化:grain boundaryの最適化,Si-Geナノ構造の...
-- モンテカルロ木探索:最適RNA系列の探索
- 第1原理計算だけで有用なものを見つける → ナイーブには全...
-- 仮想スクリーニング:候補の一部だけをちゃんと第1原理計...
熱伝導度の低い分子を見つけたい:断熱材,熱電材料を作るの...
- 第1原理計算 Lattice Thermal Conductivity (LTC):100コア...
- 101種類の- materials project Db:54779種類登録されてい...
-- 101種類の候補について仮想スクリーニング → 8個を第1原理...
- ベイズ最適化:最小の観測数で,最適値を見つける
-- 最適化が目的であるので,関数全体を見つけたい能動学習と...
-- 仮想スクリーニングで,予測値と予測値の分散の両方を考慮...
-- ベイズ推定では,各反復でベイズ推定した物性に対し,現在...
- 記述子:DFT calculated features,物質の特徴
ベイズ最適化
- grain boundary構造決定
-- grain boundary:二つの原子の塊が並んだとき,そのずれが...
- Si-Geナノ構造の設計
-- シリコン=ゲルマニウムの格子があるとき,そのうちの一部...
-- 熱伝導度が高い・低い配列を見つける
** 科学と機械学習のあいだ:変量の設計・変換・選択・交互作...
北海道大学 / JSTさきがけ 瀧川一学
- http://art.ist.hokudai.ac.jp
- バイオの世界で:前立腺癌に効く化合物と効かないもの → 分...
-- 部分グラフとかは使えないので特徴がとても難しい → 専門...
特徴工学をどうにかしたい
- 目標:基礎の特徴量を決める → あとは組み合わせでデータド...
-- 演繹:実験的にわかっていることを最小の仮説や公理で説明...
- 例:二つの結晶構造のどちらをとりうるか? 数個の基本特徴...
-- 特徴の差を指数関数で割ったとか適当な特徴が効いた
- 変数間の交互作用を表現できる特徴
-- 統計では変数の積が多い → 変数間のインタラクションがあ...
-- 機械学習側で考慮する方法もあるだろうが,実際に合成して...
- 超高次元の問題:たくさん特徴を合成しているといろいろま...
-- 擬相関:本当は無相関でもランダム性の影響で偶然に相関が...
-- 測度の集中現象/次元の呪い:高次元では距離がどの対象間...
- 変数選択・正則化
-- best subset:L0最適化,全列挙,不安定
-- lasso:変数間の相関がなければbest subsetに一致,しかし...
-- glmnet::エラスティックネット
-- lassoの改良手法:adaptive lasso, SCAD, MC+ など(√n 一...
-- Sure Independence Screening:超高次元用の特徴スクリー...
- 安定性
-- best subset はデータで結構解が変わる不安定性
-- stability selection,randomized lasso(ランダムにlasso...
- 木回帰・再帰分割:交互作用のもう一つの扱い
-- automatic interaction detectorが決定木の起源,最適な木...
- 交互作用から合成特徴量:積以外の特徴を構成
- アンサンブル木型回帰
-- ランダムフォレスト:バギング
-- 勾配ブースティング:関数空間で関数が目的の方向に近づく...
-- regularized greed forests:回帰の森を一部拡張していく
-- decision jungles:決定木 → DAG
-- 木のアンサンブルはわりと解釈可能 (feature importance, ...
- 非線形ランダム特徴量:random projections, randomized tr...
- メタ特徴量
- モデル特徴集合の妥当性評価
-- applicability domain:機械学習は訓練データにない外挿に...
-- Y-Scrambling test:(x,y) の y ランダムに入れ換えてもあ...
** パーシステントホモロジーと機械学習 [#jcb863f3]
東北大学 平岡 裕章
- 位相的データ解析:topological data analysis; TDA
-- データの幾何構造,トポロジーに注目して分析
-- Gunner Carlsson, Robet Ghrist, Konstantin Mischaikow
- 材料科学への応用:高分子,アモルファル,粉体 → 無秩序に...
- データの形状:データの幾何モデルを作り(多面体で記述)→...
- alpha shape:多面体モデルの一つ,点データをドロネー分割...
-- 扱いやすいデータ,距離変えることでデータ分析の解像度を...
- パーシステント・ホモロジー
-- ホモロージーはトポロジーの穴の数だが,それを大きさや形...
-- alpha shapeでは,距離を変化させたときの,穴が消える点...
- アモルファス(ガラス)
-- 近傍だけでなく,離れた原子も性質に影響
-- 原子配置を入力データだと思って,alpha shapeによって記...
-- パーシステント図は,液体だと2次元の広がり,結晶は点だ...
-- トポロジーの穴は,物性的には変形できる方向とそうでない...
- パーシステント図とカーネル
-- パーシステント図:ホモロジー(穴構造)に注目した記述 →...
-- ヒストグラムであるパーシテント図を記述できるカーネル p...
- アモルファスのパーシステント図に見られる曲線を分析する...
* 招待講演:深層学習の基礎:自己組織化と教師付学習 [#qd08...
理化学研究所脳科学総合研究センター 甘利俊一
- 自己組織化と確率的降下教師付き学習
-- 重要なのは,特徴の表現が大事なのだと説明されているが,...
- ニューロンのヘブ自己組織化
-- 入力が表す球の一部をしきい値で切り取ったものが,受容野...
- ボルツマンマシン自己組織化学習
-- 需要野中の信号の平均が,需要野の中心に一致するように学習
-- 中心の一致を考えると,信号の分布が単峰でないとと,全体...
-- 外界の信号とモデルがKLの意味で一致するように
-- ニューロンの相互作用:各ニューロンの需要野の中心の一次...
- 入力の分布 p(v) の構造から特徴を出しているとすれば,ど...
-- PCA?クラスタ?
- ランダム回路でどんな構造がでるのか調べてみた
-- 層をえるごとに,信号の混合の仕方が複雑に
-- 入力の微少変動が,出力にどう変動するかの解析 → 若い人...
教師付き学習:誤差逆伝播
- 勾配降下で最適解に行くには,関数空間にいっぱい特異点が...
-- ある層の中で,入力に対する重みが同じになると特異点が出...
-- minor attractor:安定領域に一度は引き込まれ,そのあと...
-- 2次元以上になると厳密には当てはまらない
脳に何を学ぶのか,意識と無意識のダイナミクス
- AI:記号,論理 ⇔ NN:興奮パターン,並列ダイナミクス
- Libetの実験:自由意志はあるか
-- 自分のとめたいと思うところで時計を止めさせる
-- 止めたいと決めた前の500m秒前に信号が出ていて,外部から...
- 予測(先付け)と後付け
-- 双方向のダイナミクス:行動をあとから意識が合理化する ⇔...
- これからはこのダイナミクスを実現していく必要
- 意識の定量化 ー 意識の定義が人によって違うのでいろいろ...
-- 時間の経過にともなって,情報の統合がどれくらい進むかで...
* 企画セッション4: 神経・脳科学からの学習理論 [#z6d4feb4]
** 動的ボルツマンマシン [#q475c29a]
IBM東京基礎研究所 恐神貴行
- 90年代のSTDP (spike-timing dependent plasticity) Hebb則...
- ボルツマンマシン:ニューロンが重みのある辺で繋がっている
-- 学習則:データの対数尤度の最大化,勾配は観測値とモデル...
-- データを一ずつ扱う確率的な更新にすると,同時発火に対す...
- ニューロン:ニューロンの発火には方向(順番)があり,タ...
- STDP則
-- preが発火して,postが発火すると時間が経つと発火は弱く...
-- postが発火して,preが発火すると,信号は逆向きで,時間...
- ボルツマンマシンで,このSTDPをモデル化しよう
-- 時間方向にボルツマンマシンを並べ,その並べる数が無限大...
-- 結合は,時間間隔が離れるほど重みは小さくなる → 時間遅...
-- ボルツマンマシンの学習則との違い:最近どれくらいのスパ...
- pre が post の後で発火する場合にも,同様にモデル化できる
- さらに両者を合わせたモデルに
- 層があってもBPのような逐次計算がなくて並列に計算し易い
** 脳の生物学的特徴と学習( Brain's biological machinery f...
理化学研究所脳科学総合研究センター 深井朋樹
- SFN:3万人参加の会議,14000 のうち 3858 では可塑性・学...
- Marrの3レベル:脳は何を計算しているのか?計算の手続きは...
ニューロンの信号のスパイク
- スパイクの計算でのメリット,短時間なので高速かもしれな...
- 抑制と興奮の活動はバランスしている
-- 運動を抑えるときに,抑制の細胞が発火しているわけではない
- reservoir computation:ランダムな回帰結合,いろいろなパ...
- 独立成分分析:カクテルパテーティ効果
-- 線形代数で使っているので,二人で同じマイクを使うようだ...
-- STDP を使えば非線形なものもいけるのでは?
-- STDPは,一度勝ったニューロンはかち続けてしまう → 実際...
-- 強い相関を検出するのに役立つ → 耳の蝸牛の各周波数に対...
海馬
- 歯状回 → CA3 → CA1 → 嗅内皮質 をループする
- place cell:特定の場所で発火するニューロン,θ波を観測す...
-- 8割ぐらいの将来使われる細胞は,予め存在している
- 樹状突起:相関関係の抽出に関連する
* 11月19日(土):チュートリアル [#e9f3e63b]
- 場所:イノベーション棟 シンポジウムルーム
* ベイズ推定からベイズ的最適化入門まで [#n266ba7d]
佐藤一誠
- 統計モデルを推論する
-- 癌なら陽性の検査で陽性だった
-- 癌でないなら陰性のはずなので,癌である
-- 統計的推論(仮説検定):癌でないなら陽性の確率は2%なの...
- ベイズ推定
-- 他の統計では Pr(結果|原因) を考えるがベイズでは Pr(原...
Pr(原因 | 結果) = [ Pr(結果 | 原因) / Pr(結果) ] Pr(原因)
- 事前分布→事後分布 への変化
-- 逐次合理性:2回目は,1回目の事後確率を事前確率にすれば...
- モンティホール問題
-- ベイズの公式で計算する(理由不十分の原理:最初に何もわ...
-- 一般には変えた方がよいことになっているが,これは司会者...
- 確率πで表がでるコイン,そして π=0.4, 0.5, 0.6 のような...
-- πが連続のときはベータ分布を使う → 事後分布もベータ分布に
- 5人のうち4人に薬の効果があった → 80%で効くといっていい...
-- ベイズ推論では,効果がある確率が0.5以上である確率とい...
- 5人の陽性被験者を集めるには20人の被験者,このときさらに...
-- 負の二項分布を使い,ベータ分布を事前分布にする
ベイズ最適化
- 関数の形状が未知であるブラックボックス関数の最適化
- 4種類の薬品を混ぜた投与量による効果を最大にする混ぜ方
-- 関数 f(x) をベイズ推定しつつ最適化を行う
- 関数 f(x) の種類は無限個あるので,ガウス過程を使う
-- 関数の事後分布が計算できる → 平均的な関数とその分散が...
- 探索と活用のトレードオフ
-- 探索:関数の分散がおおきく曖昧な部分を調べる ⇔ 活用:...
-- 信頼区間戦略:平均 + κ 標準偏差 最大の部分を調べる(ト...
* スパース正則化入門 — 今さらL1ノルム?今こそL1ノルム!— ...
大関真之
- 機械学習:データに対する関数の当てはめ
- スパースモデリング:どこが重要かを自動的に判別する技術
- カンニング検出
-- 正解しそうかどうかを予測するのに,本人能力や問題の難易...
-- スパース正則化で特徴選択をすることで,他人の回答が非常...
- 圧縮センシング:計測への疎性の利用
-- 制約数の足りない連立方程式(劣決定系)でも,入力の疎性...
-- 計測データが足りない場合でも疎性を利用すると十分な情報...
-- 計算量的に解くのが難しいL0ノルム制約を,L1ノルム制約に...
- L1ノルムは疎な解の選択法だが,その選ばれた解が真の解に...
- 観測したいものが本当に疎か? → うまく変換して疎にする
-- 元の信号が疎である
-- 変化が局所的に均一なら,隣接データ間の差をとると疎になる
-- Wavelet/Curveletなどの変換によって疎にする
- 実際に解くには?
-- 等式制約付きのL1ノルム最小化は,未定乗数法でも罰金法で...
-- L1ノルムの方を最小化する → 微分不可能点があるので勾配...
- Iterative Shrinkage Thresholding Algorighm (ISATA):上...
- Alternating Direction of Multiplier method (ADMM)
-- 二つの関数の和の最小化 min {f(x) + g(x)} → min{x,z} {f...
-- この制約付き最適化問題を,ラグランジュ法にさらに2乗罰...
-- そして,x と z についての最小化を交互に繰り返す
- lasso では本来は見たしたかった y=A x を厳密に満たすよ...
-- さらに変数を追加することで,lassoを経由することなく AD...
- 行列の補完
-- 観測された値が保存される制約下での,特異値ベクトルのL1...
* カーネル法の最前線 [#s037873b]
福水健次
- 正定値カーネルは内積:内積はおおまかにいって類似度
-- カーネルを決めることは,類似度を決めて分析するモデリン...
- カーネルの性質
-- k(・,x) はヒルベルト空間
-- 再生性 <f, k(・,x)>=f(x)
- ノンパラメトリック推定:データが増えていくと,モデルの...
-- カーネル平均:期待値計算ができる
-- カーネル平均で分布が記述可能なカーネルを特性的なカーネ...
- Hilbert-Schmidt独立性規準 (HSIC) → 独立性の規準
- Kernelized Sorting:各ドメインで,他の要素との相対的な...
-- HSICはグラム行列間の類似度とみなせるので,ドメイン内の...
- ベイズ推論:平均カーネルを重み付き平均に変えると適用で...
- カーネル選択:モデル選択の問題なので決定打はない
-- カーネルのパラメータはうまく設定しないといけない
-- 教師あり学習 → 交差確認,教師なし→一般にはないが検定で...
-- Multiple Kernel Learning:カーネルの凸結合を使い,要素...
- 計算の効率化
-- グラム行列の低ランク近似,分解した状態で計算するとデー...
-- Random Fourier Feature:k(x,y) が x-y の関数だと非負な...
- カーネル法の深化:カーネルの多層化,大規模化,基底関数...
-- doubly stochastic gradient:SGDをするのに加え,カーネ...
-- QMC feature map:可変基底,RFFの変形
* ディープラーニングの基礎 [#r8144694]
庄野逸
- 人工知能は Alpha GO で話題 → DeepMind は次にヘルスケアに
- 深層学習:深い階層構造のあるニューラルネットモデル
-- 進展にはデータの質と量の影響が大きい
- 深層学習以前:特徴量構築 + 単純モデル → 特徴抽出器の設...
- パーセプトロンが目指したもの:パターン認識=人間らしい...
- バックプロパゲーションによる進展は,auto-encoder,NETTa...
-- データ不足,勾配消失問題でネット全体を最適化するのは難...
-- 勾配をどうにかする(ReLU / LSTM),学習を各層ごとに(RB...
- 勾配消失:活性化関数で微分値が非常に小さくなる範囲では...
- ネオコグニトロンが過去の研究との繋がりなしに出てきてい...
-- 今のCNNはすでに脳とは関係ない,すでに人間のエラー率よ...
- 医療画像認識:データ数があまりない(各病気ごとに10数名...
-- 転移学習:他の一般画像認識で学習済みのモデルを利用し,...
- CNNの内部の解析
-- 各層ごとの分離平面を調べた:Pooling層でクラスタ内分散...
-- 前向きの信号のパスを逆方向にたどる分析:各ニューロンが...
ページ名: