#author("2020-11-27T04:24:29+00:00","default:ibisforest","ibisforest")
* 第23回 情報論的学習理論ワークショップ (IBIS 2020) [#r1d10190]
COLOR(#00AA00){このページはしましまが [[IBIS2020>IBIS#IBIS2020]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.}
#contents
* 11月23日(月祝):チュートリアル [#wfdf2a05]
* 深層強化学習入門 [#z15bb460]
内部 英治 (株式会社国際電気通信基礎技術研究所)
- 進展:深層強化学習が適用できる範囲は広がっています
- 問題点:実行する環境は大規模,ルービック・キューブを操作する手の学習=2.8GWh=原発3基
- 環境 pT,報酬 r,方策 π
- 状態価値関数 V^π(s):指数的に割り引く←数学的に取り扱いやすく,実際の脳の機能との関連
- 状態行動価値関数 Q^π(s, a)
- ベルマン方程式:V^π や Q^π の1状態分の変化を表す → これらの関数は一意な不動点に収束
- 近似修正方策反復法:モデルベース,各状態で価値を最大化する行動を選ぶ(近似価値反復法,近似方策反復法)
- 状態遷移確率が未知の場合は,実際に得られた報酬と予測値との誤差を小さくするように学習
- Deep Q Networks:Q^π を深層畳み込みネットで表す
-- 状態価値関数を求めるとき,観測値と予測値の両方に同じ価値関数が含まれるため,別のネットワークをもう一つ用意する工夫
-- 経験再生:改善しようとしている方策と別の方策で集めたデータも訓練に使う
- 問題点:学習の収束が遅い
-- エントロピー正則化:確率的な探索活動を活性化 + 急激な方策更新の抑制
-- アドバンテージ学習作用素:価値最大行動と,それ以外の行動の差を区別しやすくする
- 問題点:実用的な報酬関数を準備するのは現実には難しい
-- 逆強化学習:熟練者の行動情報から報酬関数を学習,不良設定問題の難しさ
* バンディットアルゴリズム・ベイズ最適化入門 [#f95b3ffd]
飯塚 修平 (外資系 IT 企業勤務)
- バンディット・ベイズ最適化の応用例
-- Webデザイン,Webコンテンツ最適化,CGのパラメータ設定,クッキーのレシピ
- ベルヌーイ分布でのベイズ推定,事前分布はベータ分布
- 基本的バンディット:累積報酬の最適化,選択肢=アーム の数 K,予算 T 回の試行が可能,各アーム t は期待値 θt のベルヌーイ分布から,報酬 r(t) を得る
-- ε-greedy:確率εで最適以外の行動をとる
-- UCBアルゴリズム:報酬の予測期待値に,その予測値の不確かさの区間の幅を加えたもの(確信度上界=upper confidence bound)を最大化する
-- トンプソン抽出:予測期待値の事後分布に比例する確率でアームを選ぶ
--- これらの手法は期待報酬を最小化
- 文脈付きバンディット:各アームを特徴量で表す → 特徴量→報酬 の関数のモデルを導入
-- LinUCB:ベイズ線形回帰 + UCB
-- LinTS:ベイズ線形回帰からのサンプリングした値が最大のアームを選ぶ
- ベイズ最適化:関数の最適化問題を,関数の形が分からない状況(ブラックボックス関数)で解く
-- 不確かさも併せて予測できるベイズ最適化を利用し関数の形の更新と,次のサンプリング点の決定を交互に行う
-- GP-UDB:UCBを最大化する点をサンプリング
-- GP-TS:事後分布に応じてサンプリングして,最大値になった点をサンプリング
* kaggle・実践データ解析入門 [動画, 資料] [#ge48f76c]
大越 拓実 (Rist)
- Kaggle:コンペ期間中は何度もスコアを確認可能 → 終了時のスコアで賞金とメダル → 累積メダルに応じて称号がえられる,最上位は GrandMaster
-- 世界中の人が参加している
- 多様な問題に取り組める
-- 入力データが表形式のものから,画像などの場合もある
-- NN が良い問題も,GBDT が良い問題もある
- データの把握
-- 訓練・テストの分布の違い,ラベルノイズ,クラス不均衡など
- オフラインコンペ:実際に集まって,チームを組んだりして問題に取り組む
* 統計的因果探索入門 [#a45961bd]
前田 高志ニコラス (理化学研究所)
- 統計的因果推論:変数間の因果的依存グラフを求める
-- ある因果構造を検証する仮説検証問題ではない
- X→Y の因果関係がある:Xを変えるとYは変化するが,Yを変化させてもXは変化しない
-- 互いに独立な外生変数 E_X と E_Y を導入し次式で因果関係を表す
X = E_X
Y = a_X X + E_X
-- としても,Y を変えると X がそれに連れて変化してしまう
- 介入と do 演算子
-- 変数の値をある値に固定する
do(X=c): X = c, Y = a_X X + E_Y
do(Y=c): X = E_X, Y = c
--- do した変数に入る因果の矢印を消して,そのノードの値を固定する
-- Yに介入すると P(X | Y=c) ≠ P(X | do(Y=c)) と変化するが,X に介入しても P(Y | X=c) = P(Y | do(X=c)) は変わらない
- (期待)因果効果が 0 でないときに X から Y への因果効果があるという
E(Y | do(X=c)) - E(Y | do(X=d))
- 介入の方法
-- 無作為化比較試験:介入するかどうかを無作為に選ぶ
-- 回帰不連続デザイン:介入効果を知りたい変数が,ある変数(時刻が多い)のある点の前後によってのみ決まるとき,その点の前後の効果の差で介入効果を測る
- 2変数間の因果の向きが分かっても交絡因子などで不明になる場合も.
- 実際に介入実験するのは倫理面や費用面の観点から難しい
- 統計的因果探索
-- 生成過程に何らかの仮定を導入して,介入実験をしない観測データから因果関係を推定する
- 主な仮定
-- 因果グラフは非巡回グラフ
-- 各観測変数はその親と外生変数にのみに直接的に依存(外生変数は互いに独立)
-- 二つ以上の観測変数に影響を与える変数は全て観測されている
- PCアルゴリズム
-- 最初に全部の変数を無向辺で連結
-- 変数集合 S (空でもOK)で条件付けたとき,X と Y が独立なら,X と Y の間の無向辺を消す,X-Y-Z という繋がりがあり,X-Z は切れているとき,Y で条件付けたときに X と Z が非独立なら X→Y←Z とする,DAG になるように無向辺を有向辺に置き換える
--- 問題点:真の因果グラフが求まるとは限らない
- 因果関数に仮定を導入して問題を解消
-- 線形(ICA-LinGAM, DirectLiNGAM)非線形 (ANM, RESIT), ポスト非線形 X_i = g_i(f_i(PA_i) + E_i) (PNL)
- LinGAM
-- 2変数では X = E_X, Y = b X + E_Y のモデル
-- 外生変数が非ガウスのときに利用できる
-- Y を X に回帰した残差と Y が独立,X を Y に回帰した残差 X と非独立なら X→Y への因果関係がある(Darmoris-Skitovitchの定理を使う)
-- 外生変数にのみ依存する変数から順に親変数を見つけてゆく
- ANM (additive noise model)
-- X = E_X は同じで,Y は任意の関数を許す Y = f(X) + E_Y
-- Y - g(X) が X と独立になる g は存在し,X - g(Y) が Y と独立になる g は存在しない
-- LinGAMとは逆方向だが,欲張り探索で変数の依存順序関係は求まる
-- 実際に全ての関数は調べられないのでカーネルを用いた HSIC を利用
- 統計的因果探索手法で明確にすべき条件
-- データ生成のモデルの仮定:グラフの形状,因果変数が線形・非線形
-- 2変数間の因果関係が,何らかの非対称性が生じて示されることを証明し,それを使って検証できるアルゴリズム
- 線形モデルで非ガウスの未観測変数が,観測変数の共通原因となっている場合のDirectLinGAMの拡張
-- 残差との独立性に差がなくなるので,今までの LinGAM の方法は使えない
-- 直接的に未観測共通原因がある変数対の因果関係はあきらめて,他の因果関係を明らかにする
- 非線形 ICA の利用
-- 親変数と外生変数の任意の関数を利用できる
-- 普通のICAは観測データ Y が元信号 X の線形関数で生成されたと仮定 Y = A X
-- この線形性仮定をはずす → X は一意には定まらなくなる
-- 時系列定常性などの仮定を導入して因果探索を行う
* 企画セッション1:学習理論 : 2020/11/24 14:30 – 16:30 @ [ウェビナー] [#j4e9f63b]
二反田 篤史 (東大/AIP/さきがけ)・唐木田 亮 (産総研)
** 無限次元勾配ランジュバン動力学による深層学習の最適化と汎化誤差解析 [動画, 資料] [#y8bf8438]
鈴木 大慈 (東京大学/理研AIP)
- 最適化の観点では浅いNNに該当するが,深層学習が高性能になるのは
-- 滑らかな部分と,凹凸が激しい部分が混在していると深層ネットが有利
-- より形式的には,複数の関数の凸結合をとることで,元の関数の性質が崩れるようだと不利に
- Neural Tangent Kernel, 平均場解析,有限次元勾配Langevin動力学 など既存手法ではうまく説明できない
-- 無限次元のLangevin動力学によって対応する
- オーバーパラメータ化:層の幅をより広めにして,最適解に到達しやすくする
-- Neural Tanget Kernelに基づく解析:NNと等価なカーネルを考える
-- 平均場解析:パラメータ分布の最適化をNNの学習と考える
- SGDがよい理由:尖った部分の局所解より,幅が広めの部分の局所解に行くので汎化性能がよい
-- ノイズありの勾配降下=勾配にノイズ項を加えた動力学を,カーネルを使った無限次元空間で考える
** 積分幾何学に基づくニューラルネットのパラメータ分布再考 [#sa4680cf]
園田 翔 (理研AIP)
- NNの中間層の和を積分にすることで,中間層が無限個に相当するNNを考える
-- 積分表現で,非線形写像が線形に
-- Ridgelet 変換という逆作用素が知られる
- 積分表現もRidgelet変換もフーリエ変換の形に表現できて便利
** 機械学習におけるカーネル法とガウス過程の等価性・関係性について [動画非公開, 資料公開予定] [#j78cf843]
金川 元信 (Eurecom)
- 正定値カーネル:ガウス過程の共分散,RKHSの構成 の2通りの利用 → 二つのアプローチの差を理解する
- Matérnカーネル:2点間の距離に依存する形のカーネル,Laprace や Gaussianカーネルの一般化
- 回帰:GPでは尤度を最大化 ⇔ RKHSでは損失を最小化
-- 正則化項に付く定数が同じなら同じものに
- GPからのサンプルは,対応するRKHS上にない場合がある → RKHS の方が滑らか
-- 二つの一致は表面的? ← これを否定したい
- 目標とモデルの滑らかさが一致していれば大丈夫 (?)
* 11月25日(水):ワークショップ2日目 [#rc3d6742]
* 企画セッション2:機械学習応用のフロンティア [#m42cb3e8]
牛久 祥孝 (オムロンサイニックエックス/Ridge-i)・上田 隼也 (Mercari)
** 機械学習を使ったデジタル・ファブリケーションのためのデザイン支援 [#p0fbae1c]
梅谷 信行 (東京大学)
- 機械工学への機械学習の導入
-- 工作機械を使いこなすことをサポートする
-- ファッションデザイン:2次元の型紙 → 3次元形状の服
--- 実時間で,型紙の形状を変えると,それを着せたモデルが表示されるシミュレーション
--- 型紙の変更が及ぼす出力画像の対応関係を線形近似で求めておく
-- 構造の脆弱性:壊れやすい部分を指摘する
-- 楽器の音:任意の形状に,吹き口と指穴を作って,楽器として機能するようにする
- 空気力学:ナビエ-ストーク方程式の計算コストが非常に大きい
-- 機械学習でスキップして入力と出力を対応付ける関数を獲得する
-- 入力と出力の記述形式が難しい点
--- 形状記述:メッシュとかだと入力次元数が変動するので使えない
- 紙飛行機の設計
-- 紙飛行機の形状を変更すると飛行の航跡を表示し,さらに最適な重りの位置を決定
-- 翼の発生させる力を,形状,レイノルズ数(速さ),迎え角のパラメータから予測する.
- 3次元凧の設計
-- 全方向の空気力学:いろいろな形状のものを落として,その軌跡を観測したデータを得る
-- カルマンフィルタで軌跡を予測
-- このモデルを使って,複数の立体が繋がった凧の姿勢が安定するように最適化する
- 自動車の車体形状を,空気抵抗係数(Cd値)を減らすようにしている
-- 車体形状を変えると,Cd値,流速,圧力などが実時間で計算できるシステム
-- メッシュを階層的に細かくしてゆきながら計算する
-- どこの形状がCd値に影響しているかを可視化し,工学的知見と比較してモデルを検証
** マルチモーダルデータを用いた革新的情報協働栽培への期待 [#oc595b99]
峰野 博史 (静岡大学)
- 農業でのAI技術
-- 農業ロボット:雑草だけに除草剤をまく,収穫ロボット
-- 作物・土壌の診断:外周・土壌をスマホカメラで診断,ドローンの空撮による診断
-- 予測診断:気象予測,病気・病害虫の予測
- 植物のしおれを画像 + 環境データで認識 → 水やり
-- 高価なレーザー変異計を使って茎の太さに基づく水やりをすると非常に高品質なものは作れる → 装置は高い
-- 安価なセンサー出力から茎の太さを予測
--- ビデオ画像のオプティカルフローを使ってしおれ具合を定量化
-- CNNによる特徴抽出や,SVR による予測
** 土木工学分野におけるデータ科学手法への期待と応用事例 [動画公開予定, 資料] [#oa240b11]
宮本 崇 (山梨大学)
- 都市運用の将来像
-- 従来型:人口の集中による維持コスト低減 → 生活の質の低下
-- 自律分散型:中心都市のない相互ネットワーク → 維持コストの増加
- AI技術の適用
-- 効率化:自動運転,インフラの自律点検
-- 防災:被害状況の把握,リスク予測
- 事前知識を活用したAI設計
-- 人工衛星を使った災害状況の把握
-- 建物ごとの被害状況など詳細はなかなか分からない
-- 災害の前後の画像の差の情報を利用,築年代の情報などの外部情報の利用
- 物理とデータ駆動の統合による将来予測
-- 降雨予測
--- 機械学習で外挿したデータの活用 → 降雨の系は不確定性が大きく外挿は難しい
-- クープマン作用素解析:非線形的なダイナミクスが,線形なものに分解できるとして,逆問題を解けるようにする
- AI手法と非AI手法の協調:観測・理論・シミュレーションとの連携
* 招待講演2:Quantifying Problems with Shapley Values as a Way of Explaining Model Behavior [#xc7783b8]
Suresh Venkatasubramanian
- 機械学習で得たモデルの説明
-- 特徴と出力や,特徴間の影響の関係を調べる
- Shapley値:参加者 d 人の部分集合 S,価値関数:部分集合→実数,d人の全部分集合に,ある参加者 i を加えたときの平均の価値の増加分がShaplay値
- メンバーを特徴に,coaltion を特徴集合に対応させて,機械学習に適用
- 説明:現状と反実仮想との対比 by Tim Miller
-- Shapley値では S と S ∪ {i} との対比になっている
- Shapley値の制限
-- 特徴がどのように相互に影響しているかを反映できない
-- データとの影響を反映できない
- inessential game:各参加者の価値の線形和で価値関数が決まる
-- 全体の勾配が,各参加者 i での偏勾配で表せる → 特徴の影響を分解できる
-- 個別の特徴ではなく,特徴集合の追加による貢献を計算できるように (?)
* 11月26日(木):ワークショップ3日目 [#w0cbfd0c]
* 企画セッション3:機械学習の信頼性 [#p144e81e]
原 聡 (阪大)
** 深層学習における判断根拠の視覚的説明と活用 [#k1cf8545]
山下 隆義 (中部大学)
- class activation mapping:CNN で反応した部分をヒートマップで可視化
-- 専用ネットワークなので,予測精度は低下
- attention branch network
-- CNNの識別器部分が,注目 attention 用と認識用の二つの組合せ
-- 特徴抽出部分の出力とattention用を掛けたものを認識用に入力
-- attention 用と認識用の両者の和の誤差が小さくなるように学習
- 骨格を表すグラフで動作を表現する
-- GCN:グラフを隣接行列で表現して,その畳み込みを考える
-- 辺とノードそれぞれについてattentionブランチを作る
** Adversarial attack / defenseの紹介とその近年の展開 [#ka731198]
都竹 雄介 (Preferred Networks, Inc.)
- 敵対的事例:入力画像を僅かに変えただけだが,誤認識される事例
- 敵対的学習:敵対的事例を作る学習
-- 誤認識させたい出力とネットの出力の誤差と,元の入力への近さの和を最小化するような入力を誤差逆伝播で見つける
- 敵対的訓練:代表的な防衛手段
-- 敵対的訓練事例を作り,通常の尤度に加え,敵対的事例に係数を掛けた項を加えることで,敵対的事例を誤分類しないようにする
- step wise function:勾配をstep wiseにすることで,勾配を辿って敵対的事例を作れないようにする
- 大域的リプシッツ制約を用いる手法:勾配の上界がネットワークから計算できるので,この上界が正解クラスと非正解クラスの出力の差より小さくなるようにする
** 深層生成モデルによるメディア生成とフェイク検知 [#u2fef965]
山岸 順一 (国立情報学研究所)
- 画像・音声・自然言語文などのメディア生成の検知
- 生成音声の検知
-- 音声の話者変換:音声を同じ内容を話す別の人の音声に変換する
- 話者識別:話者を識別したり,予め合成を除外してから話者を識別
-- GANと違って,話者識別器の情報は生成器には伝わらない
- ディープフェイク:映像の顔を置き換える
- テキストの生成:サクラのレビュー
* グラフとアルゴリズム [#n0568f62]
河瀬 康志 (東大)
** グラフにおける組合せ最適化 ―マッチング・最短経路― [#mfca0845]
山口 勇太郎 (九州大学)
- 2部グラフのマッチング
-- 同じノードが重複して選ばれない.選ばれる辺の数を最大化.
-- 頂点被覆:選んだノード間に結合している辺を選ぶと,辺の全集合に一致
-- マッチングの最大辺数=被覆の最小頂点数
--- 判定問題が NP ∩ coNP に属するといえる
-- 辺数kのマッチングがあるとき → 枝数 k+1 のマッチングがあるか(改善できるか),頂点数 k の被覆があるか(最適性の証明)は効率的にできる
- 一般グラフのマッチング
-- 一般のグラフではマッチングの変数と被覆の頂点数の関係は消える
-- 辺数が頂点数+誘導成分の数(誘導部分グラフの数?)の半分で抑えられる
- 制約付き最短経路問題マッチング
-- 最短経路問題:ダイクストラ法
-- 辺数が奇数の経路:重み付きマッチングに帰着して解ける
-- 最短非可縮経路(トーラスなどの多様体上で1点に潰せない経路) → 群ラベル付きグラフへ発展
-- 最短経路問題(負の重み,負閉路なし) → 重み付きマッチング
--- さらに辺数が偶奇の制約が加わると未解決問題
** 密グラフ抽出に対する最適化モデルとアルゴリズム [#j1c580f8]
宮内 敦史 (東京大学)
- 最密部分グラフ:密度(Sの誘導部分グラフの辺の重みの総和 / Sの頂点数)を最大にする頂点集合 S を見つける
-- 連続緩和すると線形計画で解ける
--- 実際の辺の有無に変換するには → 有望な辺について総当たりか,最大流問題に変換
- 拡張
-- よりクリークに近い密の定義,密部分と外部のつながりは少ない
-- 辺が確率的に存在する場合,辺の重みが確率的
-- 動的に変化するグラフ,ストリーミンググラフ
-- 最疎カット問題:切断する辺の重みの和の最小化 → 密部分と外部との疎の連携
* 11月26日(木):ワークショップ3日目 [#r508593b]
* 企画セッション3:機械学習の信頼性 [#a2a8e69b]
原 聡 (阪大)
** 深層学習における判断根拠の視覚的説明と活用 [#u577330b]
山下 隆義 (中部大学)
- class activation mapping:CNN で反応した部分をヒートマップで可視化
-- 専用ネットワークなので,予測精度は低下
- attention branch network
-- CNNの識別器部分が,注目 attention 用と認識用の二つの組合せ
-- 特徴抽出部分の出力とattention用を掛けたものを認識用に入力
-- attention 用と認識用の両者の和の誤差が小さくなるように学習
- 骨格を表すグラフで動作を表現する
-- GCN:グラフを隣接行列で表現して,その畳み込みを考える
-- 辺とノードそれぞれについてattentionブランチを作る
** Adversarial attack / defenseの紹介とその近年の展開 [#d91fd0cf]
都竹 雄介 (Preferred Networks, Inc.)
- 敵対的事例:入力画像を僅かに変えただけだが,誤認識される事例
- 敵対的学習:敵対的事例を作る学習
-- 誤認識させたい出力とネットの出力の誤差と,元の入力への近さの和を最小化するような入力を誤差逆伝播で見つける
- 敵対的訓練:代表的な防衛手段
-- 敵対的訓練事例を作り,通常の尤度に加え,敵対的事例に係数を掛けた項を加えることで,敵対的事例を誤分類しないようにする
- step wise function:勾配をstep wiseにすることで,勾配を辿って敵対的事例を作れないようにする
- 大域的リプシッツ制約を用いる手法:勾配の上界がネットワークから計算できるので,この上界が正解クラスと非正解クラスの出力の差より小さくなるようにする
** 深層生成モデルによるメディア生成とフェイク検知 [#xcf0d7cf]
山岸 順一 (国立情報学研究所)
- 画像・音声・自然言語文などのメディア生成の検知
- 生成音声の検知
-- 音声の話者変換:音声を同じ内容を話す別の人の音声に変換する
- 話者識別:話者を識別したり,予め合成を除外してから話者を識別
-- GANと違って,話者識別器の情報は生成器には伝わらない
- ディープフェイク:映像の顔を置き換える
- テキストの生成:サクラのレビュー
* グラフとアルゴリズム [#c143b20f]
河瀬 康志 (東大)
** グラフにおける組合せ最適化 ―マッチング・最短経路― [#bede4b04]
山口 勇太郎 (九州大学)
- 2部グラフのマッチング
-- 同じノードが重複して選ばれない.選ばれる辺の数を最大化.
-- 頂点被覆:選んだノード間に結合している辺を選ぶと,辺の全集合に一致
-- マッチングの最大辺数=被覆の最小頂点数
--- 判定問題が NP ∩ coNP に属するといえる
-- 辺数kのマッチングがあるとき → 枝数 k+1 のマッチングがあるか(改善できるか),頂点数 k の被覆があるか(最適性の証明)は効率的にできる
- 一般グラフのマッチング
-- 一般のグラフではマッチングの変数と被覆の頂点数の関係は消える
-- 辺数が頂点数+誘導成分の数(誘導部分グラフの数?)の半分で抑えられる
- 制約付き最短経路問題マッチング
-- 最短経路問題:ダイクストラ法
-- 辺数が奇数の経路:重み付きマッチングに帰着して解ける
-- 最短非可縮経路(トーラスなどの多様体上で1点に潰せない経路) → 群ラベル付きグラフへ発展
-- 最短経路問題(負の重み,負閉路なし) → 重み付きマッチング
--- さらに辺数が偶奇の制約が加わると未解決問題
** 密グラフ抽出に対する最適化モデルとアルゴリズム [#t1d30892]
宮内 敦史 (東京大学)
- 最密部分グラフ:密度(Sの誘導部分グラフの辺の重みの総和 / Sの頂点数)を最大にする頂点集合 S を見つける
-- 連続緩和すると線形計画で解ける
--- 実際の辺の有無に変換するには → 有望な辺について総当たりか,最大流問題に変換
- 拡張
-- よりクリークに近い密の定義,密部分と外部のつながりは少ない
-- 辺が確率的に存在する場合,辺の重みが確率的
-- 動的に変化するグラフ,ストリーミンググラフ
-- 最疎カット問題:切断する辺の重みの和の最小化 → 密部分と外部との疎の連携