しましま/IBIS2021
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* 第24回 情報論的学習理論ワークショップ (IBIS 2021) [#c03...
COLOR(#00AA00){このページはしましまが [[IBIS2021>IBIS#IBI...
#contents
* 11月10日(月) [#w6751e00]
* ソフトウェア検証と機械学習 [#q1a1137d]
オーガナイザ:蓮尾 一郎(NII)
- ソフトウェアの複雑化 → システムの動作保証が難しくなる
- 安全性の形式的検証:全ての入力に対して動作が正しい形式...
- 証明のためにはシステムのモデル化が必要 → 機械学習の導入...
** 論理的推論と統計的推論の融合 [#r644e77d]
[[卜部 夏木(国立情報学研究所)>https://group-mmm.org/~nu...
- ソフト・ICT'システムの信頼性検証:形式検証=あらゆる入...
- 形式検証:システム + 仕様 → システムから仕様が導出でき...
- モデル検証=システムを有限状態のモデルに帰着
-- 有限状態と,システムに対する入力に対する状態遷移で記述
-- 実システムでは状態数は数百万
- 定理証明=仕様が成立することを理論的に説明
-- ランキング関数というものを合成して証明する
- 確率的拡張
-- モデル検証 → 状態遷移が確率的
-- 定理証明 → プログラムに確率的な条件分岐が含まれる
- 形式検証に機械学習を利用する:ランキング関数やループ不...
- 機械学習を形式検証する
-- システムレベルの仕様,入力に対する頑健性
- ランダムテスト=ランダム入力に対する
- サーチベースドテスト=能動的に失敗しそうな入力を探す
-- 仕様をどれくらい満たしているかを定量的な指標で表す拡張...
-- 論理構造:論理構造によっては全体の評価が特定の要素で律...
** 機械学習によるループ不変条件の発見 [#a3dd3d78]
[[関山 太朗(国立情報学研究所・総合研究大学院大学)>https...
- 定理証明:全ての入力に対する検証 ⇔ ソフトウェアテスト:...
- 実世界の検証ソフト:SLAM,Infer,CPAchecker,Astree
- ループ不変量=ループの実行中でもその値が変わらないよう...
- 学習ベース法:learner=不変量の候補を挙げる ⇔ teacher=...
- 学習の入力:正例,反例,制約条件
- 決定木に正例と負例を与えて,学習した木をを論理式に変換
-- プログラム変数間の関係を表す属性 → 難しい… → さらに機...
- 記号処理(=テンプレートベース)を機械学習で補助
-- テンプレートを決めて,そのパラメータを選ぶ方法
-- 強化学習による効率化:行動=テンプレートの生成操作,報...
** 回帰型ニューラルネットワークの圏論的分析 [#k850a29e]
[[勝股 審也(国立情報学研究所)>https://group-mmm.org/~s-...
- 圏論:空間・構造(集合,ベクトル空間,可測空間…)とそれ...
- 圏=対象のクラス,射の集合族,恒等射,合成
-- 対象と射の2種類の集まりがある代数系,いろいろな代数系...
- ある代数系に対応する圏のインスタンス→モナド
-- 確率的プログラム → モナド Prob の利用
- ニューラルネット → 勾配降下法で学習
- RNN のヤコビアンはどうする? → BPTT
-- 展開して計算するが,その正当性は? 実際に何が微分され...
- 遅延フィードバックのあるモデル St を構成
-- St:圏 C に対する遅延フィードバックの追加 → 各時刻ごと...
-- いろいろなモデルの同一性などの形式的検証が可能になる
- 遅延フィードバックのある計算の微分 D* を定義 = C が微...
-- カルテシアン微分圏を利用して証明 → D* が展開して微分す...
* Scaling Optimal Transport for High dimensional Learning...
Gabriel Peyré (CNRS and Ecole Normale Supérieure)
- https://optimaltransport.github.io/
- Monge問題:二組の点間の距離の総和を最小化する点の置換を...
- Kantrovitchの定式化:点→質量,置換→coupling と緩和
-- coupling P=Aのi要素の重みをBのn個にどう分配するか?
- 最適輸送:i∈A→j∈B に分配するときに距離 d(i,j) で加重
-- 線形計画で O(n^3 log(n)^2) → 任意の距離に対する近似手...
-- 特殊な場合:Hugarian / Auction → O(n^3),1次元ではソー...
- エントロピー正則化:coupling P のエントロピー正則項を加...
-- Schrödinger問題:正則化パラメータが増えると均等に輸送...
- Sinkhornアルゴリズム:n×m のPを最適化するかわりに uとv...
-- u と v の交互最適化で,収束性を証明 [Sinkhorn 1964]
- Sinkhornダイバージェンス:エントロピー付き最小化を解い...
- 確率密度分布のあてはめ=KLダイバージェンスを使った最小...
- GAN:距離の学習=discriminator,分布のあてはめ=generat...
* 11月11日(火) [#ja855b3c]
* 新型コロナウイルス感染症のデータサイエンス [#xc940d39]
オーガナイザ:伊藤 公人(北大)
** 集団遺伝学による新型コロナウイルス変異株の流行予測 [#v...
伊藤 公人(北海道大学人獣共通感染症国際共同研究所)
- スライド: https://www.czc.hokudai.ac.jp/bioinform/japa...
- RNAウイルス
-- スパイクたんぱく:抗体がとりつく場所,ウイルス表面
-- ウイルス内のRNAには,自身の情報と,ウイルスのRNA複製に...
-- 宿主の細胞内に,ウイルスはウイルスを複製するRNAと,そ...
- RNAウイルスの生存戦略:遺伝子のコピーミスが多く,子孫ウ...
- 疫学とゲノムのビッグデータ
-- インフルエンザ:毎週の陽性者数(WHO,国),約34万株の塩...
-- COVID-19:毎日の陽性者・死者数,7月で約225万の塩基配列...
- 進化系統樹などの情報は別途解析されて公開されているので...
-- 進化系統樹のリアルタイム可視化 http://nextstrain.org
- 疫学解析(株の流行状況など)と進化生物学解析(株の変異...
- デルタ株:インドとイギリスの感染状況 → 伝播性の定量化,...
- 実効再生産数=一人の感染者が平均何人に感染させているか
-- 世代時間(感染時期の差)を発症間隔(発症した時期の差)...
-- 発症間隔は対数正規分布でモデル化
-- 従来株の実効再生産数を1としたときの,変異株の上乗せ分...
** 行動変容と感染症の再帰的流行の数理モデリング [#zbd0ac3c]
國谷 紀良(神戸大学大学院システム情報学研究科)
- 非公開
** COVID-19の疫学モデル [#w8f75b1c]
西浦 博 京都大学大学院医学研究科
- 非公開
* Some Recent Insights on Transfer and Multitask Learning...
Samory Kpotufe (Columbia University)
- 転移学習:分布 P から得たデータから,分布 Q に従う環境...
-- 両方のデータを使うことで,目標データだけからの誤差より...
- 誤差の上界 → 悲観的な見積もり
-- 元と目標分布の差の距離で抑える [Ben David+]
-- 元と目標の密度比で抑える [Sugiyama+]
- 逆に転移させてみて,転移に非対称性があるなら計量が不適切
- 転移exponent:転移元の誤差を 1/ρ 状して転移先の誤差を抑...
- 同時に分類の難しさも考える:Bernstein条件
* 11月12日(水) [#b3706d4c]
* 因果推論 [#d5ed76d4]
オーガナイザ:清水 昌平(滋賀大)
** On the Causal Foundations of AI [#m805dec7]
Elias Bareinboim (Columbia University)
- [[On Pearl’s Hierarchy and the Foundations of Causal In...
- [[Causal Reinforcement Learning>https://crl.causalai.ne...
- [[Neural Causal Inference>https://causalai.net/r80.pdf]]
- 構造因果モデル:変数間の依存関係と撹乱項で構成される有...
-- 介入:変数の値を強制的に変化させる←do演算子
-- 観察 P(Z, X, Y) ⇔ 介入 P(Z, Y | do(X=Yes))
-- 公理的定義 {Halpern, Galles, Pearl, 1998]
- SCM はPearlの因果階層を含意
- Pearlの因果階層
-- L1:P(y|x) 連関,seeing,MLでは教師あり学習(NN,決定...
-- L2:P(y|do(x),c) 介入,doing,MLでは強化学習(ベイジア...
-- L3:P(y_x | x', y'),想像・回想 (SCM),もしXしていた...
- レベル1で集めたデータで,レベル2の質問に答えられるか?→...
-- XのYへの効果 P(Y|do(X)) は P(Y|X) からは識別不能
-- 全てのPearl階層を単一にまとめることは不可能
- 因果強化学習
-- 一般化方策学習=一般化do演算で環境を観察・介入で獲得
-- いつ・どこで介入すべきか?
-- 反事実データの統合
-- 因果知識の一般化
-- 構造知識を観察・実験データを統合して学習
- 因果深層学習
-- 観察データ:推定した分布は中心極限定理で真の分布に収束
-- 構造的な因果制約はNNでは無理(?)
** 原因の確率-必要性,十分性,必要十分性とその定量的評価-...
黒木 学(横浜国立大学)
- 暴露=1・費暴露=0 & Y:疾患あり=1・なし=0の分割表が与え...
-- 反事実:暴露を受けた事実があり + もし暴露を受けていな...
- 必要性の確率 (PN):PN=P(Y0=0 | X=1, Y=1) ← 過去を振り...
-- 現実:暴露をうけて疾患に + 反事実:暴露を受けなかった...
- 十分性の確率 (PS):PS=P(Y1=1 | X=0, Y=0) ← 未来を
-- 現実:暴露をうけてなくて疾患なし + 反事実:暴露をうけ...
- 必要十分性の確率: P(Y1=1, Y0=0)
-- 反事実:暴露を受けて疾患になる + 反事実:暴露を受けず...
- 無視可能 (Y1,Y0) ⫫ X の場合 → PS や PN は PNSから計算可能
- 単調性 P(Y1=0, Y0=1)=0 → 観察データでPNSが計算可能
- 単調性が成立しないときの限界は計算されている
- 制約なしには推定できない,限界はゆるい → 共変量を使って...
-- 共変量で層別 → 各層で PN, PS, PNSを計算 → 統合
- 観測できない交絡因子に代替変数がある
-- 共変量の空間を,2値の処置と結果変数の値によって四つに...
** “バンドメンバー”としての統計的因果推論を考える [#k5ecf...
林 岳彦(国立環境研究所)
- 因果推論はフロントマンだが,バックのバンドメンバー手法
- 因果概念の軸
-- 類型ベース=因果はパターン(恒常的隣接) ⇔ 影響ベース...
-- 差異形式=因果とは世界の状態の違いを生み出すもの ⇔ 算...
- 潜在帰結モデル:2種類の介入による結果の差で因果効果を表す
- 因果プロセスはよく有向グラフィカルモデルで表現される
-- 処置から結果までに何段階かある場合には,媒介経路を吟味...
- 潜在構造モデル:非常に広いモデルで,潜在帰結モデルや,...
- ニッケルのEPT指数(カゲロウ,カワゲラ,トビケラ数)への...
-- できるだけたくさん共変量を取ってもらった
-- 因果効果のモデルを演繹的に書いて,バックドアを特定 → ...
- EPT指数が広く使われているが,この3種は影響を受けるもの...
- 水田用ネオニコ殺虫剤のアキアカネへの影響
-- 農法の変化といったバックドアのデータがない
-- モデルシミュレーションに基づいて因果効果を推定 → かな...
* 量子計算と機械学習 2021/11/12 13:30–15:30 [#nabe0b6b]
オーガナイザ:津田 宏治(東大)
** 量子機械学習:理論・実践・現状・展望 [#hb3e1b29]
藤井 啓祐 (大阪大学)
量子計算
- 古典ビット:0 と 1 の異なる2状態
- 量子ビット=0と1の二つの重ね合わせ,|ψ>=[α β] の複素ベ...
-- 論理素子を通過するたびに重ね合わせの状態が増加する
-- 論理素子はユニタリ行列にあたり,重ね合わせ状態ベクトル...
- 量子デバイスの進展:2014年は5ビット,現在は72〜53
-- 50量子bit→16Pバイト
- 階層的ニューラルネットとの対応:量子計算には非線形性が...
-- 各ノードの状態→量子状態,線形変換=ユニタリー行列,非...
- ディラック表記:列ベクトル=ケット|v> 双対空間の行ベク...
-- <v|w> は内積,|v><w| は外積
- 密度演算子表記:量子状態 ρ=|ψ><ψ| 量子演算 U ρ U^+ → s...
y=Tr[O U ρ U^+]
量子機械学習
- 変分量子アルゴリズム:ユニタリ行列にパラメータ化→V(Θ)
-- |ψ(Θ)> = V(Θ) |0> とすると L(Θ)=<ψ(Θ)| O |ψ(Θ)> を観...
-- 線形モデルだが指数的に大きな数のパラメータ数を扱える
- カーネル法との関係
-- 変分良しか言い露 V(Θ) U(x) のように与えられている
-- 特徴量特徴量状態:U と 0qビット → 出力は量子特徴量のト...
- 量子の教師あり機械学習が全てカーネル法というわけではない
- V と U は1層だけ → 多重に重ねる → 勾配消失問題
-- 深くなると初期状態からのパラメータ変化は小さい → ニュ...
- 量子タンジェントカーネル
-- 関数を1次近似して,1次の勾配項の内積を考える
** ニューラルネットワーク波動関数を用いた量子化学計算法 [...
柳井 毅(名古屋大学)
- 化学=分子の振るまい → シュレディンガー方程式
-- 方程式をは解けない(電子数に対して指数的に困難に)ので...
- 人工ニューラルネット量子状態法:ニューラルネットに波動...
- 制限ボルツマンマシン:エネルギー最小化を物理的なエネル...
- 量子計算機への実装
-- (ぐはっ)
** 量子アニーリングと機械学習の交差点 [#zc2b3db7]
門脇 正史 (デンソー)
- 量子アニーリング:最適化問題を解ける量子有るゴリ事務
-- 二値変数のコスト関数 H_C = - Σ{i<j} J_ij x_i x_j
-- A(t) コスト関数 + B(t) 横磁場 の形式で,横磁場だけの...
- ブラックボックス最適化:組合せ関数の最適化を扱う
- factorization machine は二次なので量子アニーリングが使...
- ID (整数基底分解(?))=非線形関数の組合せ最適化
-- 最適化の式は分かっているが,ブラックボックス関数とおも...
- 振動に対する耐性:有限要素法で求めた共振周波数(高い方...
* 11月13日(木) [#h3024c9b]
* 因果推論の入門と機械学習 [#t8af27a3]
安井 翔太(サイバーエージェント)
- ある教育方法の効果の検証
-- 受講した人 100人 と,していない人 100人 で収入の平均に...
-- 15万の受講料 → 裕福でないと受講できない → 受講の効果か...
因果推論の考え方
- 因果推論:効果の定義と,効果の推定方法
- 同じものに,ある施策をしたときと,していないときの二つ...
-- potential outcome framework
効果 = Y^(1) - Y^(0)
選択バイアス
- クーポンの効果 → 同時に観測できない(クーポンを配ったら...
- クーポンを配った集団と配っていない集団の平均の差を効果...
-- クーポンをもらった人は買う意向があって,そもそも平均的...
A/Bテスト
- A/Bテスト=RCT(無作為化比較試験)
-- 「無作為に」施策をする集団としない集団に分けて比較する
-- 無作為にすることで,集団の選び方による選択バイアスを除...
実験研究ができない場合
- 条件付き独立の仮定 (CIA; conditional independence assum...
{Y^(0), Y^(1)} ⫫ Z=介入 | X=交絡
-- X で条件付けして比較すれば,選択バイアスがないとする仮定
- 条件が満たされない例
-- 性別だけで条件付けしても,まだ年齢による差が残っている...
回帰分析
- 介入 Z の項を含むXからの回帰式と,含まない回帰式の差が...
傾向スコア
- 傾向スコア=介入が割り振られる確率のこと P(Z=1 | X)
-- 重み付け,マッチングで用いる
- 介入が割り振られる確率で条件付けされれば効果を比較可能
- 逆傾向スコア (IPW)=傾向スコアの逆数で重み付けする
- マッチング:傾向スコアが同じデータでペアを作って差を求...
- 傾向スコアはロジスティック回帰や機械学習で推定する必要
差分の差分法
- クーポン配布を店舗単位で行う → 店舗で客層が違う,個人ご...
- 平均の比較 → 店舗ごと差の影響を無視できない
- 同じ店舗でクーポンの配布前と配布後の変化を比較 → 店舗の...
- 店舗間の差分を施策の前後でそれぞれ計算し,これらの差分...
-- 回帰分析と親和的
- 並行トレンド仮定:介入効果は店舗間で同等
-- 仮説に頼る=定性的な性質が似ている店舗を選ぶ,データに...
- 予測モデルを使って並行トレンドを満たすデータを作る方法...
回帰不連続デザイン
- 去年の購買額が一定以上だったときにクーポンをもらえる → ...
-- 去年の購買額は,今年の購買額に影響することが推測される...
-- クーポンを配布する金額のしきい値の前後を比較すればよい...
- ある金額を超えるとクーポンがもらえることを知っていると...
機械学習との関連
- 機械学習のオフライン予測と実際のKPIが無関係
-- 機械学習は予測値を出すところまでだが,その後の意思決定...
-- off-policy evaluation:傾向スコアなどを使って評価を補正
-- off-policy learning:off-policy評価を最適化する機械学...
- 高次元データでの因果推論
-- 高次元だとどの変数で統制すればよいか分からない,機械学...
-- → double/debiased machine learning
- 因果効果の予測
-- upliftモデリング:介入群と非介入群の予測モデルの差を効...
-- ITE prediction:予測モデルの差で,効果の誤差を考える
-- CATE:generalized random forest,因果効果の推定
- 言語データを用いた因果推論:出力,傾向スコア,言語モデ...
* 最適輸送入門 [#m810ef81]
佐藤 竜馬(京大)
- 最適輸送を使って,確率分布同士を比較できる
-- 生成モデルや予測モデルの獲得には確率分布間の類似性を評...
- 直感的な最適輸送:ある分布の山を移動させて一致させるの...
- KLダイバージェンスは,分布内の各要素ごとに差を求めて分...
-- 要素間の類似性を無視している → 最適輸送では考慮できる
-- サポートが一致している必要 → 最適輸送では問題ない
-- 最適輸送では分布の対応関係を知ることができる
- KL→最適輸送の事例:GANの損失,マルチクラス分類,セグメ...
最適輸送の定義と求め方
- カテゴリ変数の場合
-- 入力:ヒストグラムによる分布と,ビンの間の距離行列
-- 線形計画問題になる
--- 移動距離と,移動させる確率質量の積の総和を最小に
--- 輸送量は非負,あまりと不足が生じない拘束条件
- 点群の場合
-- 入力:点群の対(個数がちがってもより)}点間の距離関数
-- 線形計画
--- 輸送量を距離で重み付けした荷重和の最小化
--- 輸送量は非負,あまりと不足が生じない拘束条件
- 連続分布の場合
-- 入力:密度分布の対,点間の距離関数
-- 輸送コストは,輸送量は連続的な密度関数で表されるので線...
- Wasserstein距離:距離公理を満たす最適輸送の特殊な場合
-- 定義に用いる距離関数が距離の公理を満たせば,最適輸送も...
Sinkhornアルゴリズム
- エントロピー正則化を輸送総コストに加えた目的関数を最適...
-- 双対問題を考えると制約なしの最大化問題にできる
-- 座標向上法で交互最適化すれば解ける
-- Gibbsカーネルを導入すると非常に簡潔な形式になる
Wasserstein GAN
- 連続の場合のWassersteinの計算は大変
-- 二つ連続関数の最適化 → コストが距離の公理を満たすと一...
-- 各点対について制約がある → 最適化する関数の1-Lipschitz...
- 双対問題の直感的理解:移動量を最適化するというより,流...
- 一つの最適化する関数 f をNNで表現する ⇔ Lipschitz連続性...
- Lipschitz性の解消
-- weight clipping:NNの重みが一定以上になったらクリップ...
-- gradient penalty: 勾配が1より離れないようにする罰則項...
* 量子計算・量子機械学習入門 [#h05607b5]
御手洗 光祐(阪大)
量子コンピュータとは
- 古典ビット=いずれか一つの状態しか𝔸割らせない ⇔ 量子ビ...
- 超伝導量子ビット:コンデンサに電子の対の有無で表現 → 電...
-- 切替は連続的なため,電磁波を当てている間は重ね合わせ状...
α,β∈ℂ)になる
- 量子ビットの観測:観測すると |α|^2 の確率で 0 が,|β|^2...
- 量子ビットの数学的表現
-- |0>=[1 0]^T の縦ベクトル,|ψ>=α |0> + β |1> = [α β]^T
--- 0 が出る確率は内積を用いて |<0|ψ>|^2 となる
-- ブロッホ球:量子ビット状態は球面上の点として表せる
- 量子ゲート
-- 1量子ビットゲートは 2×2 のユニタリ行列 U (ノルムの保...
-- 量子ゲートはブロッホ球上の回転操作
- 複数量子ビットの数学的表現
-- 二つの量子系の複合系はベクトル空間のテンソル積(全部の...
Σ{i,j} c{i,j} |i>_A ⊗ |j>_B OR |ψ>_A ⊗ |φ>_B
-- |c{i,j}|^2 の確率で観測される
- n量子ビットあるときは,数学的には 2^n 要素のベクトルと...
- 量子計算:状態の初期化し,量子ゲートを次々と適用→測定
-- 巨大な単位複素ベクトルの線形変換に相当
- 代表的な量子アルゴリズム
-- 量子力学のシミュレーション:O(2^n) → 多項式時間
-- nビットの素因数分解 指数時間 → O(n^2 log...)
-- N個のデータの検索時間 O(N) → O(√N)
-- N次元疎行列の計算 O(N…) → O(log N…)
- 量子超越
-- 現状は50量子ビット=2^50qubitは約5PBぐらいに相当
-- Google は古典計算を上回る量子超越を達成したと2019年に...
-- 1999年 1qubit → 2014年 5qubit → 2019年 53qubit → 2021...
-- 冷凍機の大きさ,周辺エレクトロニクスのコンパクト化,低...
- NISQ (noisy intermediate scale quantum):エラー率(0.1...
-- 古典だとエラー率は 10^-17 % → まともに計算するには誤り...
量子アルゴリズム
- 計算量理論の観点
-- 量子計算で解けるクラス BQP:P は含むが NP は含まない,...
- 特徴量変換
-- 高次元の元データを特徴量を量子状態で置き換えて,量子ゲ...
-- 超高次元データは古典では扱えないので研究対象になっている
- 量子カーネル
-- 量子特徴量の内積計算:あるゲート V とその逆 V^+ を適用...
- 量子特徴量でしかできなさそうなタスク
-- ランダムな x に離散対数の値に応じてラベルを付ける ⇔ 古...
量子アルゴリズムによる機械学習の加速
- 量子線形回帰,量子SVM ← QBLAS(線形方程式),QRAM(公立...
- カーネルリッジ回帰 poly(N)→poly(log N)
- 量子線形法的式ソルバ:Σi (A^-1 b)_i |i> を紀伊産する
- QRAM:データ数 N に対する指数可測を得るにはデータ転送が...
-- 重ね合わせ状態を古典の世界に読み出せる → QRAMが実現す...
量子インスパイアアルゴリズム
- 二分木構造をQRAMに用意しておけば,特異値分解・低ランク...
* 転移学習:基礎から最近の展開まで [#pd253d21]
松井 孝太(名大)
- 教師あり学習の期待リスク R(h)=𝔼{𝒳×𝒴}[l(h(x), y)] → 実...
- 転移学習:目標ドメイン 𝒳T×𝒴T と確率分布の対 ← このドメ...
-- 目標ドメインと類似した元ドメイン 𝒳S × 𝒴S と確率分布の...
- 転移学習の基本問題:どの場合に転移するのか,何を転移す...
- 負転移:目標ドメインのみで学習するより,転移した方がリ...
- ドメインが乖離している場合に負転移する
- 同質的なドメインシフト:分布の変化 ⇔ 異質的ドメインシフ...
-- ドメイン汎化:ラベル空間を共有する同質的な場合と,共有...
- 転移仮定
-- 同質的ドメインシフト:データセットシフト(全部違う)共...
--- 不一致度 discrepancy:両ドメインの確率分布間の(擬)...
-- 異質的ドメインシフト:共通空間の潜在空間を想定する
- 何を転移するのか
-- 事例転移:データ集合を変換する
-- 特徴転移:特徴量を変換する
-- パラメータ転移 (fine tuningなど):学習済みの仮説のパラ...
- 同質的なドメインシフト
-- 転移仮定=共変量シフト P(Y|X) は共通で事例転移 → pT(x)...
-- 共変量シフトが転移仮定,特徴転移 → ドメインを識別するd...
-- 同一構造のNNを処理する転移過程で,NNの最終段を再学習す...
-- 因果構造に基づく転移学習:データ生成メカニズムが全ての...
- 教師なしドメイン適応:元ドメインにはラベルがあるが,目...
-- 目標ドメインのリスクの上界:元ドメインのリスク + 入力...
--- 入力分布やラベル関数の不一致を測る尺度の違いでいろい...
深層学習:ドメイン共通の表現学習
- 深層学習:ファインチューニングで学習済みモデルを利用,...
- 不変な表現学習:期待リスクの上界の入力分布の差の項を小...
-- 深層学習で扱う問題は異質的ドメインシフトを扱う→ラベル...
- 自己符号化器:元ドメインと目標ドメインを合わせた入力を...
- 敵対的学習:ドメイン識別器とデータ生成器を使う
- 不変性のみを考慮することの限界:ラベル付け関数の差は考...
- 敵対的学習を使って転移可能な事例を生成する
深層学習:事前学習済みモデルの利用
- dark knowledge:モデルには,ラベルだけでなく,他のラベ...
- ソフトターゲットを使った蒸留
- 蒸留における知識:応答ベース(出力を利用)特徴ベース(...
- 特徴ベースの蒸留:中間層のアーキテクチャが違うので,そ...
- 関係ベースの蒸留:中間層の出力の差を小さくしてゆく
終了行:
* 第24回 情報論的学習理論ワークショップ (IBIS 2021) [#c03...
COLOR(#00AA00){このページはしましまが [[IBIS2021>IBIS#IBI...
#contents
* 11月10日(月) [#w6751e00]
* ソフトウェア検証と機械学習 [#q1a1137d]
オーガナイザ:蓮尾 一郎(NII)
- ソフトウェアの複雑化 → システムの動作保証が難しくなる
- 安全性の形式的検証:全ての入力に対して動作が正しい形式...
- 証明のためにはシステムのモデル化が必要 → 機械学習の導入...
** 論理的推論と統計的推論の融合 [#r644e77d]
[[卜部 夏木(国立情報学研究所)>https://group-mmm.org/~nu...
- ソフト・ICT'システムの信頼性検証:形式検証=あらゆる入...
- 形式検証:システム + 仕様 → システムから仕様が導出でき...
- モデル検証=システムを有限状態のモデルに帰着
-- 有限状態と,システムに対する入力に対する状態遷移で記述
-- 実システムでは状態数は数百万
- 定理証明=仕様が成立することを理論的に説明
-- ランキング関数というものを合成して証明する
- 確率的拡張
-- モデル検証 → 状態遷移が確率的
-- 定理証明 → プログラムに確率的な条件分岐が含まれる
- 形式検証に機械学習を利用する:ランキング関数やループ不...
- 機械学習を形式検証する
-- システムレベルの仕様,入力に対する頑健性
- ランダムテスト=ランダム入力に対する
- サーチベースドテスト=能動的に失敗しそうな入力を探す
-- 仕様をどれくらい満たしているかを定量的な指標で表す拡張...
-- 論理構造:論理構造によっては全体の評価が特定の要素で律...
** 機械学習によるループ不変条件の発見 [#a3dd3d78]
[[関山 太朗(国立情報学研究所・総合研究大学院大学)>https...
- 定理証明:全ての入力に対する検証 ⇔ ソフトウェアテスト:...
- 実世界の検証ソフト:SLAM,Infer,CPAchecker,Astree
- ループ不変量=ループの実行中でもその値が変わらないよう...
- 学習ベース法:learner=不変量の候補を挙げる ⇔ teacher=...
- 学習の入力:正例,反例,制約条件
- 決定木に正例と負例を与えて,学習した木をを論理式に変換
-- プログラム変数間の関係を表す属性 → 難しい… → さらに機...
- 記号処理(=テンプレートベース)を機械学習で補助
-- テンプレートを決めて,そのパラメータを選ぶ方法
-- 強化学習による効率化:行動=テンプレートの生成操作,報...
** 回帰型ニューラルネットワークの圏論的分析 [#k850a29e]
[[勝股 審也(国立情報学研究所)>https://group-mmm.org/~s-...
- 圏論:空間・構造(集合,ベクトル空間,可測空間…)とそれ...
- 圏=対象のクラス,射の集合族,恒等射,合成
-- 対象と射の2種類の集まりがある代数系,いろいろな代数系...
- ある代数系に対応する圏のインスタンス→モナド
-- 確率的プログラム → モナド Prob の利用
- ニューラルネット → 勾配降下法で学習
- RNN のヤコビアンはどうする? → BPTT
-- 展開して計算するが,その正当性は? 実際に何が微分され...
- 遅延フィードバックのあるモデル St を構成
-- St:圏 C に対する遅延フィードバックの追加 → 各時刻ごと...
-- いろいろなモデルの同一性などの形式的検証が可能になる
- 遅延フィードバックのある計算の微分 D* を定義 = C が微...
-- カルテシアン微分圏を利用して証明 → D* が展開して微分す...
* Scaling Optimal Transport for High dimensional Learning...
Gabriel Peyré (CNRS and Ecole Normale Supérieure)
- https://optimaltransport.github.io/
- Monge問題:二組の点間の距離の総和を最小化する点の置換を...
- Kantrovitchの定式化:点→質量,置換→coupling と緩和
-- coupling P=Aのi要素の重みをBのn個にどう分配するか?
- 最適輸送:i∈A→j∈B に分配するときに距離 d(i,j) で加重
-- 線形計画で O(n^3 log(n)^2) → 任意の距離に対する近似手...
-- 特殊な場合:Hugarian / Auction → O(n^3),1次元ではソー...
- エントロピー正則化:coupling P のエントロピー正則項を加...
-- Schrödinger問題:正則化パラメータが増えると均等に輸送...
- Sinkhornアルゴリズム:n×m のPを最適化するかわりに uとv...
-- u と v の交互最適化で,収束性を証明 [Sinkhorn 1964]
- Sinkhornダイバージェンス:エントロピー付き最小化を解い...
- 確率密度分布のあてはめ=KLダイバージェンスを使った最小...
- GAN:距離の学習=discriminator,分布のあてはめ=generat...
* 11月11日(火) [#ja855b3c]
* 新型コロナウイルス感染症のデータサイエンス [#xc940d39]
オーガナイザ:伊藤 公人(北大)
** 集団遺伝学による新型コロナウイルス変異株の流行予測 [#v...
伊藤 公人(北海道大学人獣共通感染症国際共同研究所)
- スライド: https://www.czc.hokudai.ac.jp/bioinform/japa...
- RNAウイルス
-- スパイクたんぱく:抗体がとりつく場所,ウイルス表面
-- ウイルス内のRNAには,自身の情報と,ウイルスのRNA複製に...
-- 宿主の細胞内に,ウイルスはウイルスを複製するRNAと,そ...
- RNAウイルスの生存戦略:遺伝子のコピーミスが多く,子孫ウ...
- 疫学とゲノムのビッグデータ
-- インフルエンザ:毎週の陽性者数(WHO,国),約34万株の塩...
-- COVID-19:毎日の陽性者・死者数,7月で約225万の塩基配列...
- 進化系統樹などの情報は別途解析されて公開されているので...
-- 進化系統樹のリアルタイム可視化 http://nextstrain.org
- 疫学解析(株の流行状況など)と進化生物学解析(株の変異...
- デルタ株:インドとイギリスの感染状況 → 伝播性の定量化,...
- 実効再生産数=一人の感染者が平均何人に感染させているか
-- 世代時間(感染時期の差)を発症間隔(発症した時期の差)...
-- 発症間隔は対数正規分布でモデル化
-- 従来株の実効再生産数を1としたときの,変異株の上乗せ分...
** 行動変容と感染症の再帰的流行の数理モデリング [#zbd0ac3c]
國谷 紀良(神戸大学大学院システム情報学研究科)
- 非公開
** COVID-19の疫学モデル [#w8f75b1c]
西浦 博 京都大学大学院医学研究科
- 非公開
* Some Recent Insights on Transfer and Multitask Learning...
Samory Kpotufe (Columbia University)
- 転移学習:分布 P から得たデータから,分布 Q に従う環境...
-- 両方のデータを使うことで,目標データだけからの誤差より...
- 誤差の上界 → 悲観的な見積もり
-- 元と目標分布の差の距離で抑える [Ben David+]
-- 元と目標の密度比で抑える [Sugiyama+]
- 逆に転移させてみて,転移に非対称性があるなら計量が不適切
- 転移exponent:転移元の誤差を 1/ρ 状して転移先の誤差を抑...
- 同時に分類の難しさも考える:Bernstein条件
* 11月12日(水) [#b3706d4c]
* 因果推論 [#d5ed76d4]
オーガナイザ:清水 昌平(滋賀大)
** On the Causal Foundations of AI [#m805dec7]
Elias Bareinboim (Columbia University)
- [[On Pearl’s Hierarchy and the Foundations of Causal In...
- [[Causal Reinforcement Learning>https://crl.causalai.ne...
- [[Neural Causal Inference>https://causalai.net/r80.pdf]]
- 構造因果モデル:変数間の依存関係と撹乱項で構成される有...
-- 介入:変数の値を強制的に変化させる←do演算子
-- 観察 P(Z, X, Y) ⇔ 介入 P(Z, Y | do(X=Yes))
-- 公理的定義 {Halpern, Galles, Pearl, 1998]
- SCM はPearlの因果階層を含意
- Pearlの因果階層
-- L1:P(y|x) 連関,seeing,MLでは教師あり学習(NN,決定...
-- L2:P(y|do(x),c) 介入,doing,MLでは強化学習(ベイジア...
-- L3:P(y_x | x', y'),想像・回想 (SCM),もしXしていた...
- レベル1で集めたデータで,レベル2の質問に答えられるか?→...
-- XのYへの効果 P(Y|do(X)) は P(Y|X) からは識別不能
-- 全てのPearl階層を単一にまとめることは不可能
- 因果強化学習
-- 一般化方策学習=一般化do演算で環境を観察・介入で獲得
-- いつ・どこで介入すべきか?
-- 反事実データの統合
-- 因果知識の一般化
-- 構造知識を観察・実験データを統合して学習
- 因果深層学習
-- 観察データ:推定した分布は中心極限定理で真の分布に収束
-- 構造的な因果制約はNNでは無理(?)
** 原因の確率-必要性,十分性,必要十分性とその定量的評価-...
黒木 学(横浜国立大学)
- 暴露=1・費暴露=0 & Y:疾患あり=1・なし=0の分割表が与え...
-- 反事実:暴露を受けた事実があり + もし暴露を受けていな...
- 必要性の確率 (PN):PN=P(Y0=0 | X=1, Y=1) ← 過去を振り...
-- 現実:暴露をうけて疾患に + 反事実:暴露を受けなかった...
- 十分性の確率 (PS):PS=P(Y1=1 | X=0, Y=0) ← 未来を
-- 現実:暴露をうけてなくて疾患なし + 反事実:暴露をうけ...
- 必要十分性の確率: P(Y1=1, Y0=0)
-- 反事実:暴露を受けて疾患になる + 反事実:暴露を受けず...
- 無視可能 (Y1,Y0) ⫫ X の場合 → PS や PN は PNSから計算可能
- 単調性 P(Y1=0, Y0=1)=0 → 観察データでPNSが計算可能
- 単調性が成立しないときの限界は計算されている
- 制約なしには推定できない,限界はゆるい → 共変量を使って...
-- 共変量で層別 → 各層で PN, PS, PNSを計算 → 統合
- 観測できない交絡因子に代替変数がある
-- 共変量の空間を,2値の処置と結果変数の値によって四つに...
** “バンドメンバー”としての統計的因果推論を考える [#k5ecf...
林 岳彦(国立環境研究所)
- 因果推論はフロントマンだが,バックのバンドメンバー手法
- 因果概念の軸
-- 類型ベース=因果はパターン(恒常的隣接) ⇔ 影響ベース...
-- 差異形式=因果とは世界の状態の違いを生み出すもの ⇔ 算...
- 潜在帰結モデル:2種類の介入による結果の差で因果効果を表す
- 因果プロセスはよく有向グラフィカルモデルで表現される
-- 処置から結果までに何段階かある場合には,媒介経路を吟味...
- 潜在構造モデル:非常に広いモデルで,潜在帰結モデルや,...
- ニッケルのEPT指数(カゲロウ,カワゲラ,トビケラ数)への...
-- できるだけたくさん共変量を取ってもらった
-- 因果効果のモデルを演繹的に書いて,バックドアを特定 → ...
- EPT指数が広く使われているが,この3種は影響を受けるもの...
- 水田用ネオニコ殺虫剤のアキアカネへの影響
-- 農法の変化といったバックドアのデータがない
-- モデルシミュレーションに基づいて因果効果を推定 → かな...
* 量子計算と機械学習 2021/11/12 13:30–15:30 [#nabe0b6b]
オーガナイザ:津田 宏治(東大)
** 量子機械学習:理論・実践・現状・展望 [#hb3e1b29]
藤井 啓祐 (大阪大学)
量子計算
- 古典ビット:0 と 1 の異なる2状態
- 量子ビット=0と1の二つの重ね合わせ,|ψ>=[α β] の複素ベ...
-- 論理素子を通過するたびに重ね合わせの状態が増加する
-- 論理素子はユニタリ行列にあたり,重ね合わせ状態ベクトル...
- 量子デバイスの進展:2014年は5ビット,現在は72〜53
-- 50量子bit→16Pバイト
- 階層的ニューラルネットとの対応:量子計算には非線形性が...
-- 各ノードの状態→量子状態,線形変換=ユニタリー行列,非...
- ディラック表記:列ベクトル=ケット|v> 双対空間の行ベク...
-- <v|w> は内積,|v><w| は外積
- 密度演算子表記:量子状態 ρ=|ψ><ψ| 量子演算 U ρ U^+ → s...
y=Tr[O U ρ U^+]
量子機械学習
- 変分量子アルゴリズム:ユニタリ行列にパラメータ化→V(Θ)
-- |ψ(Θ)> = V(Θ) |0> とすると L(Θ)=<ψ(Θ)| O |ψ(Θ)> を観...
-- 線形モデルだが指数的に大きな数のパラメータ数を扱える
- カーネル法との関係
-- 変分良しか言い露 V(Θ) U(x) のように与えられている
-- 特徴量特徴量状態:U と 0qビット → 出力は量子特徴量のト...
- 量子の教師あり機械学習が全てカーネル法というわけではない
- V と U は1層だけ → 多重に重ねる → 勾配消失問題
-- 深くなると初期状態からのパラメータ変化は小さい → ニュ...
- 量子タンジェントカーネル
-- 関数を1次近似して,1次の勾配項の内積を考える
** ニューラルネットワーク波動関数を用いた量子化学計算法 [...
柳井 毅(名古屋大学)
- 化学=分子の振るまい → シュレディンガー方程式
-- 方程式をは解けない(電子数に対して指数的に困難に)ので...
- 人工ニューラルネット量子状態法:ニューラルネットに波動...
- 制限ボルツマンマシン:エネルギー最小化を物理的なエネル...
- 量子計算機への実装
-- (ぐはっ)
** 量子アニーリングと機械学習の交差点 [#zc2b3db7]
門脇 正史 (デンソー)
- 量子アニーリング:最適化問題を解ける量子有るゴリ事務
-- 二値変数のコスト関数 H_C = - Σ{i<j} J_ij x_i x_j
-- A(t) コスト関数 + B(t) 横磁場 の形式で,横磁場だけの...
- ブラックボックス最適化:組合せ関数の最適化を扱う
- factorization machine は二次なので量子アニーリングが使...
- ID (整数基底分解(?))=非線形関数の組合せ最適化
-- 最適化の式は分かっているが,ブラックボックス関数とおも...
- 振動に対する耐性:有限要素法で求めた共振周波数(高い方...
* 11月13日(木) [#h3024c9b]
* 因果推論の入門と機械学習 [#t8af27a3]
安井 翔太(サイバーエージェント)
- ある教育方法の効果の検証
-- 受講した人 100人 と,していない人 100人 で収入の平均に...
-- 15万の受講料 → 裕福でないと受講できない → 受講の効果か...
因果推論の考え方
- 因果推論:効果の定義と,効果の推定方法
- 同じものに,ある施策をしたときと,していないときの二つ...
-- potential outcome framework
効果 = Y^(1) - Y^(0)
選択バイアス
- クーポンの効果 → 同時に観測できない(クーポンを配ったら...
- クーポンを配った集団と配っていない集団の平均の差を効果...
-- クーポンをもらった人は買う意向があって,そもそも平均的...
A/Bテスト
- A/Bテスト=RCT(無作為化比較試験)
-- 「無作為に」施策をする集団としない集団に分けて比較する
-- 無作為にすることで,集団の選び方による選択バイアスを除...
実験研究ができない場合
- 条件付き独立の仮定 (CIA; conditional independence assum...
{Y^(0), Y^(1)} ⫫ Z=介入 | X=交絡
-- X で条件付けして比較すれば,選択バイアスがないとする仮定
- 条件が満たされない例
-- 性別だけで条件付けしても,まだ年齢による差が残っている...
回帰分析
- 介入 Z の項を含むXからの回帰式と,含まない回帰式の差が...
傾向スコア
- 傾向スコア=介入が割り振られる確率のこと P(Z=1 | X)
-- 重み付け,マッチングで用いる
- 介入が割り振られる確率で条件付けされれば効果を比較可能
- 逆傾向スコア (IPW)=傾向スコアの逆数で重み付けする
- マッチング:傾向スコアが同じデータでペアを作って差を求...
- 傾向スコアはロジスティック回帰や機械学習で推定する必要
差分の差分法
- クーポン配布を店舗単位で行う → 店舗で客層が違う,個人ご...
- 平均の比較 → 店舗ごと差の影響を無視できない
- 同じ店舗でクーポンの配布前と配布後の変化を比較 → 店舗の...
- 店舗間の差分を施策の前後でそれぞれ計算し,これらの差分...
-- 回帰分析と親和的
- 並行トレンド仮定:介入効果は店舗間で同等
-- 仮説に頼る=定性的な性質が似ている店舗を選ぶ,データに...
- 予測モデルを使って並行トレンドを満たすデータを作る方法...
回帰不連続デザイン
- 去年の購買額が一定以上だったときにクーポンをもらえる → ...
-- 去年の購買額は,今年の購買額に影響することが推測される...
-- クーポンを配布する金額のしきい値の前後を比較すればよい...
- ある金額を超えるとクーポンがもらえることを知っていると...
機械学習との関連
- 機械学習のオフライン予測と実際のKPIが無関係
-- 機械学習は予測値を出すところまでだが,その後の意思決定...
-- off-policy evaluation:傾向スコアなどを使って評価を補正
-- off-policy learning:off-policy評価を最適化する機械学...
- 高次元データでの因果推論
-- 高次元だとどの変数で統制すればよいか分からない,機械学...
-- → double/debiased machine learning
- 因果効果の予測
-- upliftモデリング:介入群と非介入群の予測モデルの差を効...
-- ITE prediction:予測モデルの差で,効果の誤差を考える
-- CATE:generalized random forest,因果効果の推定
- 言語データを用いた因果推論:出力,傾向スコア,言語モデ...
* 最適輸送入門 [#m810ef81]
佐藤 竜馬(京大)
- 最適輸送を使って,確率分布同士を比較できる
-- 生成モデルや予測モデルの獲得には確率分布間の類似性を評...
- 直感的な最適輸送:ある分布の山を移動させて一致させるの...
- KLダイバージェンスは,分布内の各要素ごとに差を求めて分...
-- 要素間の類似性を無視している → 最適輸送では考慮できる
-- サポートが一致している必要 → 最適輸送では問題ない
-- 最適輸送では分布の対応関係を知ることができる
- KL→最適輸送の事例:GANの損失,マルチクラス分類,セグメ...
最適輸送の定義と求め方
- カテゴリ変数の場合
-- 入力:ヒストグラムによる分布と,ビンの間の距離行列
-- 線形計画問題になる
--- 移動距離と,移動させる確率質量の積の総和を最小に
--- 輸送量は非負,あまりと不足が生じない拘束条件
- 点群の場合
-- 入力:点群の対(個数がちがってもより)}点間の距離関数
-- 線形計画
--- 輸送量を距離で重み付けした荷重和の最小化
--- 輸送量は非負,あまりと不足が生じない拘束条件
- 連続分布の場合
-- 入力:密度分布の対,点間の距離関数
-- 輸送コストは,輸送量は連続的な密度関数で表されるので線...
- Wasserstein距離:距離公理を満たす最適輸送の特殊な場合
-- 定義に用いる距離関数が距離の公理を満たせば,最適輸送も...
Sinkhornアルゴリズム
- エントロピー正則化を輸送総コストに加えた目的関数を最適...
-- 双対問題を考えると制約なしの最大化問題にできる
-- 座標向上法で交互最適化すれば解ける
-- Gibbsカーネルを導入すると非常に簡潔な形式になる
Wasserstein GAN
- 連続の場合のWassersteinの計算は大変
-- 二つ連続関数の最適化 → コストが距離の公理を満たすと一...
-- 各点対について制約がある → 最適化する関数の1-Lipschitz...
- 双対問題の直感的理解:移動量を最適化するというより,流...
- 一つの最適化する関数 f をNNで表現する ⇔ Lipschitz連続性...
- Lipschitz性の解消
-- weight clipping:NNの重みが一定以上になったらクリップ...
-- gradient penalty: 勾配が1より離れないようにする罰則項...
* 量子計算・量子機械学習入門 [#h05607b5]
御手洗 光祐(阪大)
量子コンピュータとは
- 古典ビット=いずれか一つの状態しか𝔸割らせない ⇔ 量子ビ...
- 超伝導量子ビット:コンデンサに電子の対の有無で表現 → 電...
-- 切替は連続的なため,電磁波を当てている間は重ね合わせ状...
α,β∈ℂ)になる
- 量子ビットの観測:観測すると |α|^2 の確率で 0 が,|β|^2...
- 量子ビットの数学的表現
-- |0>=[1 0]^T の縦ベクトル,|ψ>=α |0> + β |1> = [α β]^T
--- 0 が出る確率は内積を用いて |<0|ψ>|^2 となる
-- ブロッホ球:量子ビット状態は球面上の点として表せる
- 量子ゲート
-- 1量子ビットゲートは 2×2 のユニタリ行列 U (ノルムの保...
-- 量子ゲートはブロッホ球上の回転操作
- 複数量子ビットの数学的表現
-- 二つの量子系の複合系はベクトル空間のテンソル積(全部の...
Σ{i,j} c{i,j} |i>_A ⊗ |j>_B OR |ψ>_A ⊗ |φ>_B
-- |c{i,j}|^2 の確率で観測される
- n量子ビットあるときは,数学的には 2^n 要素のベクトルと...
- 量子計算:状態の初期化し,量子ゲートを次々と適用→測定
-- 巨大な単位複素ベクトルの線形変換に相当
- 代表的な量子アルゴリズム
-- 量子力学のシミュレーション:O(2^n) → 多項式時間
-- nビットの素因数分解 指数時間 → O(n^2 log...)
-- N個のデータの検索時間 O(N) → O(√N)
-- N次元疎行列の計算 O(N…) → O(log N…)
- 量子超越
-- 現状は50量子ビット=2^50qubitは約5PBぐらいに相当
-- Google は古典計算を上回る量子超越を達成したと2019年に...
-- 1999年 1qubit → 2014年 5qubit → 2019年 53qubit → 2021...
-- 冷凍機の大きさ,周辺エレクトロニクスのコンパクト化,低...
- NISQ (noisy intermediate scale quantum):エラー率(0.1...
-- 古典だとエラー率は 10^-17 % → まともに計算するには誤り...
量子アルゴリズム
- 計算量理論の観点
-- 量子計算で解けるクラス BQP:P は含むが NP は含まない,...
- 特徴量変換
-- 高次元の元データを特徴量を量子状態で置き換えて,量子ゲ...
-- 超高次元データは古典では扱えないので研究対象になっている
- 量子カーネル
-- 量子特徴量の内積計算:あるゲート V とその逆 V^+ を適用...
- 量子特徴量でしかできなさそうなタスク
-- ランダムな x に離散対数の値に応じてラベルを付ける ⇔ 古...
量子アルゴリズムによる機械学習の加速
- 量子線形回帰,量子SVM ← QBLAS(線形方程式),QRAM(公立...
- カーネルリッジ回帰 poly(N)→poly(log N)
- 量子線形法的式ソルバ:Σi (A^-1 b)_i |i> を紀伊産する
- QRAM:データ数 N に対する指数可測を得るにはデータ転送が...
-- 重ね合わせ状態を古典の世界に読み出せる → QRAMが実現す...
量子インスパイアアルゴリズム
- 二分木構造をQRAMに用意しておけば,特異値分解・低ランク...
* 転移学習:基礎から最近の展開まで [#pd253d21]
松井 孝太(名大)
- 教師あり学習の期待リスク R(h)=𝔼{𝒳×𝒴}[l(h(x), y)] → 実...
- 転移学習:目標ドメイン 𝒳T×𝒴T と確率分布の対 ← このドメ...
-- 目標ドメインと類似した元ドメイン 𝒳S × 𝒴S と確率分布の...
- 転移学習の基本問題:どの場合に転移するのか,何を転移す...
- 負転移:目標ドメインのみで学習するより,転移した方がリ...
- ドメインが乖離している場合に負転移する
- 同質的なドメインシフト:分布の変化 ⇔ 異質的ドメインシフ...
-- ドメイン汎化:ラベル空間を共有する同質的な場合と,共有...
- 転移仮定
-- 同質的ドメインシフト:データセットシフト(全部違う)共...
--- 不一致度 discrepancy:両ドメインの確率分布間の(擬)...
-- 異質的ドメインシフト:共通空間の潜在空間を想定する
- 何を転移するのか
-- 事例転移:データ集合を変換する
-- 特徴転移:特徴量を変換する
-- パラメータ転移 (fine tuningなど):学習済みの仮説のパラ...
- 同質的なドメインシフト
-- 転移仮定=共変量シフト P(Y|X) は共通で事例転移 → pT(x)...
-- 共変量シフトが転移仮定,特徴転移 → ドメインを識別するd...
-- 同一構造のNNを処理する転移過程で,NNの最終段を再学習す...
-- 因果構造に基づく転移学習:データ生成メカニズムが全ての...
- 教師なしドメイン適応:元ドメインにはラベルがあるが,目...
-- 目標ドメインのリスクの上界:元ドメインのリスク + 入力...
--- 入力分布やラベル関数の不一致を測る尺度の違いでいろい...
深層学習:ドメイン共通の表現学習
- 深層学習:ファインチューニングで学習済みモデルを利用,...
- 不変な表現学習:期待リスクの上界の入力分布の差の項を小...
-- 深層学習で扱う問題は異質的ドメインシフトを扱う→ラベル...
- 自己符号化器:元ドメインと目標ドメインを合わせた入力を...
- 敵対的学習:ドメイン識別器とデータ生成器を使う
- 不変性のみを考慮することの限界:ラベル付け関数の差は考...
- 敵対的学習を使って転移可能な事例を生成する
深層学習:事前学習済みモデルの利用
- dark knowledge:モデルには,ラベルだけでなく,他のラベ...
- ソフトターゲットを使った蒸留
- 蒸留における知識:応答ベース(出力を利用)特徴ベース(...
- 特徴ベースの蒸留:中間層のアーキテクチャが違うので,そ...
- 関係ベースの蒸留:中間層の出力の差を小さくしてゆく
ページ名: