第24回 情報論的学習理論ワークショップ (IBIS 2021)

このページはしましまIBIS2021 に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.

11月10日(月)

ソフトウェア検証と機械学習

オーガナイザ:蓮尾 一郎(NII)

  • ソフトウェアの複雑化 → システムの動作保証が難しくなる
  • 安全性の形式的検証:全ての入力に対して動作が正しい形式的証明をする
  • 証明のためにはシステムのモデル化が必要 → 機械学習の導入でモデル化が困難に

論理的推論と統計的推論の融合

卜部 夏木(国立情報学研究所)

  • ソフト・ICT'システムの信頼性検証:形式検証=あらゆる入力に対する動作を証明で検証 ⇔ テスト:いろいろな入力を与えてその結果を観察
  • 形式検証:システム + 仕様 → システムから仕様が導出できるかを証明する
  • モデル検証=システムを有限状態のモデルに帰着
    • 有限状態と,システムに対する入力に対する状態遷移で記述
    • 実システムでは状態数は数百万
  • 定理証明=仕様が成立することを理論的に説明
    • ランキング関数というものを合成して証明する
  • 確率的拡張
    • モデル検証 → 状態遷移が確率的
    • 定理証明 → プログラムに確率的な条件分岐が含まれる
  • 形式検証に機械学習を利用する:ランキング関数やループ不変条件を学習する
  • 機械学習を形式検証する
    • システムレベルの仕様,入力に対する頑健性
  • ランダムテスト=ランダム入力に対する
  • サーチベースドテスト=能動的に失敗しそうな入力を探す
    • 仕様をどれくらい満たしているかを定量的な指標で表す拡張→統計的
    • 論理構造:論理構造によっては全体の評価が特定の要素で律される → 論理構造を考慮した入力の探索

機械学習によるループ不変条件の発見

関山 太朗(国立情報学研究所・総合研究大学院大学)

  • 定理証明:全ての入力に対する検証 ⇔ ソフトウェアテスト:与えた入力に対する検証
  • 実世界の検証ソフト:SLAM,Infer,CPAchecker,Astree
  • ループ不変量=ループの実行中でもその値が変わらないような式 → 自動発見
  • 学習ベース法:learner=不変量の候補を挙げる ⇔ teacher=不変量であるかを検証し,ダメなら反例を返す
  • 学習の入力:正例,反例,制約条件
  • 決定木に正例と負例を与えて,学習した木をを論理式に変換
    • プログラム変数間の関係を表す属性 → 難しい… → さらに機械学習を導入
  • 記号処理(=テンプレートベース)を機械学習で補助
    • テンプレートを決めて,そのパラメータを選ぶ方法
    • 強化学習による効率化:行動=テンプレートの生成操作,報酬=不変量の発見時間

回帰型ニューラルネットワークの圏論的分析

勝股 審也(国立情報学研究所)

  • 圏論:空間・構造(集合,ベクトル空間,可測空間…)とそれらの間の写像のための抽象代数
  • 圏=対象のクラス,射の集合族,恒等射,合成
    • 対象と射の2種類の集まりがある代数系,いろいろな代数系を統一的に見れる
  • ある代数系に対応する圏のインスタンス→モナド
    • 確率的プログラム → モナド Prob の利用
  • ニューラルネット → 勾配降下法で学習
  • RNN のヤコビアンはどうする? → BPTT
    • 展開して計算するが,その正当性は? 実際に何が微分されているのか?
  • 遅延フィードバックのあるモデル St を構成
    • St:圏 C に対する遅延フィードバックの追加 → 各時刻ごとの対象を作ってその無限列を導入,その列の要素間の影響で遅延フィードバックを表現
    • いろいろなモデルの同一性などの形式的検証が可能になる
  • 遅延フィードバックのある計算の微分 D* を定義 = C が微分圏なら St(C) も微分圏
    • カルテシアン微分圏を利用して証明 → D* が展開して微分することと一致することを検証

Scaling Optimal Transport for High dimensional Learning

Gabriel Peyré (CNRS and Ecole Normale Supérieure)

  • Monge問題:二組の点間の距離の総和を最小化する点の置換を見つける問題
  • Kantrovitchの定式化:点→質量,置換→coupling と緩和
    • coupling P=Aのi要素の重みをBのn個にどう分配するか?
  • 最適輸送:i∈A→j∈B に分配するときに距離 d(i,j) で加重
    • 線形計画で O(n^3 log(n)^2) → 任意の距離に対する近似手法が必要
    • 特殊な場合:Hugarian / Auction → O(n^3),1次元ではソート O(n log(n)),グラフ上の最小フロー O(n^2 log(n))
  • エントロピー正則化:coupling P のエントロピー正則項を加えた量を最小化する問題
    • Schrödinger問題:正則化パラメータが増えると均等に輸送されるように
  • Sinkhornアルゴリズム:n×m のPを最適化するかわりに uとvの n+m 個のパラメータの最適化
    • u と v の交互最適化で,収束性を証明 [Sinkhorn 1964]

11月11日(火)

新型コロナウイルス感染症のデータサイエンス

オーガナイザ:伊藤 公人(北大)

集団遺伝学による新型コロナウイルス変異株の流行予測

伊藤 公人(北海道大学人獣共通感染症国際共同研究所)

  • RNAウイルス
    • スパイクたんぱく:抗体がとりつく場所,ウイルス表面
    • ウイルス内のRNAには,自身の情報と,ウイルスのRNA複製に必要な情報
    • 宿主の細胞内に,ウイルスはウイルスを複製するRNAと,それを複製するRNAを放出して,宿主に自身を複製させる
  • RNAウイルスの生存戦略:遺伝子のコピーミスが多く,子孫ウイルスに多様で,その中から環境に適応したものが残る
  • 疫学とゲノムのビッグデータ
    • インフルエンザ:毎週の陽性者数(WHO,国),約34万株の塩基配列(GISAID,人以外も含む)
    • COVID-19:毎日の陽性者・死者数,7月で約225万の塩基配列(一つあたり30kB)
  • 進化系統樹などの情報は別途解析されて公開されているので,そうした論文は減った
  • 疫学解析(株の流行状況など)と進化生物学解析(株の変異の系統など)が連携するように
  • デルタ株:インドとイギリスの感染状況 → 伝播性の定量化,日本での予測
  • 実効再生産数=一人の感染者が平均何人に感染させているか
    • 世代時間(感染時期の差)を発症間隔(発症した時期の差)で代替して予測
    • 発症間隔は対数正規分布モデル
    • 従来株の実効再生産数を1としたときの,変異株の上乗せ分をパラメータとしたモデルで,変異株の割合の変化を予測

行動変容と感染症の再帰的流行の数理モデリング

國谷 紀良(神戸大学大学院システム情報学研究科)

  • 非公開

COVID-19の疫学モデル

西浦 博 京都大学大学院医学研究科

  • 非公開

Some Recent Insights on Transfer and Multitask Learning

Samory Kpotufe (Columbia University)

  • 転移学習:分布 P から得たデータから,分布 Q に従う環境で利用できるような仮説 ^h を学習する
    • 両方のデータを使うことで,目標データだけからの誤差より小さな予測をする
  • 誤差の上界 → 悲観的な見積もり
    • 元と目標分布の差の距離で抑える [Ben David+]
    • 元と目標の密度比で抑える [Sugiyama+]
  • 逆に転移させてみて,転移に非対称性があるなら計量が不適切
  • 転移exponent:転移元の誤差を 1/ρ 状して転移先の誤差を抑える → ρで連続的に捉えることができる
  • 同時に分類の難しさも考える:Bernstein条件

11月12日(水)

因果推論

オーガナイザ:清水 昌平(滋賀大)

On the Causal Foundations of AI

Elias Bareinboim (Columbia University)

  • 構造因果モデル:変数間の依存関係と撹乱項で構成される有向グラフィカルモデル
    • 介入:変数の値を強制的に変化させる←do演算子
    • 観察 P(Z, X, Y) ⇔ 介入 P(Z, Y | do(X=Yes))
    • 公理的定義 {Halpern, Galles, Pearl, 1998]
  • SCM はPearlの因果階層を含意
  • Pearlの因果階層
    • L1:P(y|x) 連関,seeing,MLでは教師あり学習(NN,決定木,SVMなど),X に伴うYの信念の変化の観察
    • L2:P(y|do(x),c) 介入,doing,MLでは強化学習(ベイジアンネット,MDPなど),X をするとどうなるか?
    • L3:P(y_x | x', y'),想像・回想 (SCM),もしXしていたらどうなっていたか?
  • レベル1で集めたデータで,レベル2の質問に答えられるか?→一般には不可能
    • XのYへの効果 P(Y|do(X)) は P(Y|X) からは識別不能
    • 全てのPearl階層を単一にまとめることは不可能
  • 因果強化学習
    • 一般化方策学習=一般化do演算で環境を観察・介入で獲得
    • いつ・どこで介入すべきか?
    • 反事実データの統合
    • 因果知識の一般化
    • 構造知識を観察・実験データを統合して学習
  • 因果深層学習
    • 観察データ:推定した分布は中心極限定理で真の分布に収束
    • 構造的な因果制約はNNでは無理(?)

原因の確率-必要性,十分性,必要十分性とその定量的評価-

黒木 学(横浜国立大学)

  • 暴露=1・費暴露=0 & Y:疾患あり=1・なし=0の分割表が与えられる
    • 反事実:暴露を受けた事実があり + もし暴露を受けていなかったら → どうなった?
  • 必要性の確率 (PN):PN=P(Y0=0 | X=1, Y=1) ← 過去を振り返る
    • 現実:暴露をうけて疾患に + 反事実:暴露を受けなかったら疾患にならなかった
  • 十分性の確率 (PS):PS=P(Y1=1 | X=0, Y=0) ← 未来を
    • 現実:暴露をうけてなくて疾患なし + 反事実:暴露をうけて疾患になる
  • 必要十分性の確率: P(Y1=1, Y0=0)
    • 反事実:暴露を受けて疾患になる + 反事実:暴露を受けずに疾患にならない
  • 無視可能 (Y1,Y0) ⫫ X の場合 → PS や PN は PNSから計算可能
  • 単調性 P(Y1=0, Y0=1)=0 → 観察データでPNSが計算可能
  • 単調性が成立しないときの限界は計算されている
  • 制約なしには推定できない,限界はゆるい → 共変量を使ってもっと実用的に
    • 共変量で層別 → 各層で PN, PS, PNSを計算 → 統合
  • 観測できない交絡因子に代替変数がある
    • 共変量の空間を,2値の処置と結果変数の値によって四つに分ける

“バンドメンバー”としての統計的因果推論を考える

林 岳彦(国立環境研究所)

  • 因果推論はフロントマンだが,バックのバンドメンバー手法
  • 因果概念の軸
    • 類型ベース=因果はパターン(恒常的隣接) ⇔ 影響ベース=因果とは作用
    • 差異形式=因果とは世界の状態の違いを生み出すもの ⇔ 算出=プロセス・機構が因果を生む
  • 潜在帰結モデル:2種類の介入による結果の差で因果効果を表す
  • 因果プロセスはよく有向グラフィカルモデルで表現される
    • 処置から結果までに何段階かある場合には,媒介経路を吟味しないと所望の効果を推定できない
  • 潜在構造モデル:非常に広いモデルで,潜在帰結モデルや,第一原理シミュレーションなども包含
  • ニッケルのEPT指数(カゲロウ,カワゲラ,トビケラ数)への影響
    • できるだけたくさん共変量を取ってもらった
    • 因果効果のモデルを演繹的に書いて,バックドアを特定 → 重回帰
  • EPT指数が広く使われているが,この3種は影響を受けるものも違い,重金属の影響指標としては良くないのでは?
  • 水田用ネオニコ殺虫剤のアキアカネへの影響
    • 農法の変化といったバックドアのデータがない
    • モデルシミュレーションに基づいて因果効果を推定 → かならずしも因果推論だけにこだわる必要もない

量子計算と機械学習 2021/11/12 13:30–15:30

オーガナイザ:津田 宏治(東大)

量子機械学習:理論・実践・現状・展望

藤井 啓祐 (大阪大学)

量子計算

  • 古典ビット:0 と 1 の異なる2状態
  • 量子ビット=0と1の二つの重ね合わせ,|ψ>=[α β] の複素ベクトル,P[X=0]=|α|^2
    • 論理素子を通過するたびに重ね合わせの状態が増加する
    • 論理素子はユニタリ行列にあたり,重ね合わせ状態ベクトルの線形モデルで表せる
  • 量子デバイスの進展:2014年は5ビット,現在は72〜53
    • 50量子bit→16Pバイト
  • 階層的ニューラルネットとの対応:量子計算には非線形性がない
    • 各ノードの状態→量子状態,線形変換=ユニタリー行列,非線形変換→なし,出力:関数→演算子の期待値
  • ディラック表記:列ベクトル=ケット|v> 双対空間の行ベクトル=ブラ <v|
    • <v|w> は内積,|v><w| は外積
  • 密度演算子表記:量子状態 ρ=|ψ><ψ| 量子演算 U ρ U^+ → shuturyoku
    y=Tr[O U ρ U^+]

量子機械学習

  • 変分量子アルゴリズム:ユニタリ行列にパラメータ化→V(Θ)
    • |ψ(Θ)> = V(Θ) |0> とすると L(Θ)=<ψ(Θ)| O |ψ(Θ)> を観測できる → パラメータを更新していくことで学習する
    • 線形モデルだが指数的に大きな数のパラメータ数を扱える
  • カーネル法との関係
    • 変分良しか言い露 V(Θ) U(x) のように与えられている
    • 特徴量特徴量状態:U と 0qビット → 出力は量子特徴量のトレース → トレースと内積の関係から内積とみなせてカーネル法が適用できる
  • 量子の教師あり機械学習が全てカーネル法というわけではない
  • V と U は1層だけ → 多重に重ねる → 勾配消失問題
    • 深くなると初期状態からのパラメータ変化は小さい → ニューラルタンジェントカーネルに近い振る舞い
  • 量子タンジェントカーネル
    • 関数を1次近似して,1次の勾配項の内積を考える

ニューラルネットワーク波動関数を用いた量子化学計算法

柳井 毅(名古屋大学)

  • 化学=分子の振るまい → シュレディンガー方程式
    • 方程式をは解けない(電子数に対して指数的に困難に)ので,近似的に解きたい
  • 人工ニューラルネット量子状態法:ニューラルネットに波動関数の情報を学習させる
  • 制限ボルツマンマシン:エネルギー最小化を物理的なエネルギー最小化と対応付けて量子的な定式化
  • 量子計算機への実装
    • (ぐはっ)

量子アニーリングと機械学習の交差点

門脇 正史 (デンソー)


  • 量子アニーリング:最適化問題を解ける量子有るゴリ事務
    • 二値変数のコスト関数 H_C = - Σ{i<j} J_ij x_i x_j
    • A(t) コスト関数 + B(t) 横磁場 の形式で,横磁場だけの状態から初めて重みを変化させてコスト関数の値を求める
  • ブラックボックス最適化:組合せ関数の最適化を扱う
  • factorization machine は二次なので量子アニーリングが使える → 材料探索への適用
  • ID (整数基底分解(?))=非線形関数の組合せ最適化
    • 最適化の式は分かっているが,ブラックボックス関数とおもって量子アニーリングで解く
  • 振動に対する耐性:有限要素法で求めた共振周波数(高い方がいい)をブラックボックス最適化

11月13日(木)

因果推論の入門と機械学習

安井 翔太(サイバーエージェント)

  • ある教育方法の効果の検証
    • 受講した人 100人 と,していない人 100人 で収入の平均に差があれば効果があるといえるか?
    • 15万の受講料 → 裕福でないと受講できない → 受講の効果から親の収入の影響の差を考慮する必要

因果推論の考え方

  • 因果推論:効果の定義と,効果の推定方法
  • 同じものに,ある施策をしたときと,していないときの二つの世界の比較
    • potential outcome framework
      効果 = Y^(1) - Y^(0)

選択バイアス

  • クーポンの効果 → 同時に観測できない(クーポンを配ったら,配っていない場合のデータは得られない) → 効果を計算できない
  • クーポンを配った集団と配っていない集団の平均の差を効果とする
    • クーポンをもらった人は買う意向があって,そもそも平均的に高い可能性 → 集団の選び方の問題=選択バイアス

A/Bテスト

  • A/Bテスト=RCT(無作為化比較試験)
    • 「無作為に」施策をする集団としない集団に分けて比較する
    • 無作為にすることで,集団の選び方による選択バイアスを除去できる

実験研究ができない場合

  • 条件付き独立の仮定 (CIA; conditional independence assumption)
    {Y^(0), Y^(1)} ⫫ Z=介入 | X=交絡
    • X で条件付けして比較すれば,選択バイアスがないとする仮定
  • 条件が満たされない例
    • 性別だけで条件付けしても,まだ年齢による差が残っている場合

回帰分析

  • 介入 Z の項を含むXからの回帰式と,含まない回帰式の差が効果 → Z の係数が効果

傾向スコア

  • 傾向スコア=介入が割り振られる確率のこと P(Z=1 | X)
    • 重み付け,マッチングで用いる
  • 介入が割り振られる確率で条件付けされれば効果を比較可能
  • 逆傾向スコア (IPW)=傾向スコアの逆数で重み付けする
  • マッチング:傾向スコアが同じデータでペアを作って差を求め,その差の平均を計算する
  • 傾向スコアはロジスティック回帰機械学習で推定する必要

差分の差分法

  • クーポン配布を店舗単位で行う → 店舗で客層が違う,個人ごとのデータは入手できない
  • 平均の比較 → 店舗ごと差の影響を無視できない
  • 同じ店舗でクーポンの配布前と配布後の変化を比較 → 店舗の差の影響は受けないが,時間の影響は受ける
  • 店舗間の差分を施策の前後でそれぞれ計算し,これらの差分の施策の前後間の差分を計算して効果とする
  • 並行トレンド仮定:介入効果は店舗間で同等
    • 仮説に頼る=定性的な性質が似ている店舗を選ぶ,データに頼る=過去の傾向が一致する店舗
  • 予測モデルを使って並行トレンドを満たすデータを作る方法が提案されている

回帰不連続デザイン

  • 去年の購買額が一定以上だったときにクーポンをもらえる → クーポンの効果は?
    • 去年の購買額は,今年の購買額に影響することが推測される → 単純な平均では測れない
    • クーポンを配布する金額のしきい値の前後を比較すればよい → 回帰不連続デザイン
  • ある金額を超えるとクーポンがもらえることを知っていると,しきい値より少し下の人が無理に買い足す現象などの影響を受ける

機械学習との関連

  • 機械学習のオフライン予測と実際のKPIが無関係
    • 機械学習は予測値を出すところまでだが,その後の意思決定ルールは反映されない
    • off-policy evaluation:傾向スコアなどを使って評価を補正
    • off-policy learning:off-policy評価を最適化する機械学習手法
  • 高次元データでの因果推論
    • 高次元だとどの変数で統制すればよいか分からない,機械学習の予測の偏りも問題
    • → double/debiased machine learning
  • 因果効果の予測
    • upliftモデリング:介入群と非介入群の予測モデルの差を効果と考え,その効果の大小を論じる
    • ITE prediction:予測モデルの差で,効果の誤差を考える
    • CATE:generalized random forest,因果効果の推定
  • 言語データを用いた因果推論:出力,傾向スコア,言語モデルを同時に推定する

最適輸送入門

佐藤 竜馬(京大)

  • 最適輸送を使って,確率分布同士を比較できる
  • 直感的な最適輸送:ある分布の山を移動させて一致させるのに最小限必要なコスト
  • KLダイバージェンスは,分布内の各要素ごとに差を求めて分布の差を評価
    • 要素間の類似性を無視している → 最適輸送では考慮できる
    • サポートが一致している必要 → 最適輸送では問題ない
    • 最適輸送では分布の対応関係を知ることができる
  • KL→最適輸送の事例:GANの損失,マルチクラス分類,セグメンテーション

最適輸送の定義と求め方

  • カテゴリ変数の場合
    • 入力:ヒストグラムによる分布と,ビンの間の距離行列
    • 線形計画問題になる
      • 移動距離と,移動させる確率質量の積の総和を最小に
      • 輸送量は非負,あまりと不足が生じない拘束条件
  • 点群の場合
    • 入力:点群の対(個数がちがってもより)}点間の距離関数
    • 線形計画
      • 輸送量を距離で重み付けした荷重和の最小化
      • 輸送量は非負,あまりと不足が生じない拘束条件
  • 連続分布の場合
    • 入力:密度分布の対,点間の距離関数
    • 輸送コストは,輸送量は連続的な密度関数で表されるので線形計画では計算できなくなる
  • Wasserstein距離:距離公理を満たす最適輸送の特殊な場合
    • 定義に用いる距離関数が距離の公理を満たせば,最適輸送も距離の公理を満たす

Sinkhornアルゴリズム

Wasserstein GAN

  • 連続の場合のWassersteinの計算は大変
    • 二つ連続関数の最適化 → コストが距離の公理を満たすと一つの連続関数の最適化になる
    • 各点対について制約がある → 最適化する関数の1-Lipschitz性すなわち平滑なものとして置き換える
  • 双対問題の直感的理解:移動量を最適化するというより,流速を決める高さを最適化する
  • 一つの最適化する関数 f をNNで表現する ⇔ Lipschitz連続性の扱いは難しい
  • Lipschitz性の解消
    • weight clipping:NNの重みが一定以上になったらクリップしてしまう
    • gradient penalty: 勾配が1より離れないようにする罰則項を加える

量子計算・量子機械学習入門

御手洗 光祐(阪大)

量子コンピュータとは

  • 古典ビット=いずれか一つの状態しか𝔸割らせない ⇔ 量子ビット=複数の状態の重ね合わせ状態を表せる
  • 超伝導量子ビット:コンデンサに電子の対の有無で表現 → 電子1個で表現,特定の周波数の電磁波を当てると切り替わる(低エネルギー |0> ⇔ 高エネルギー |1>)
    • 切替は連続的なため,電磁波を当てている間は重ね合わせ状態(α |0> + β |1>, α,β∈ℂ)になる
  • 量子ビットの観測:観測すると |α|^2 の確率で 0 が,|β|^2 の確率で 1 が観測される
  • 量子ビットの数学的表現
    • |0>=[1 0]^T の縦ベクトル,|ψ>=α |0> + β |1> = [α β]^T
      • 0 が出る確率は内積を用いて |<0|ψ>|^2 となる
    • ブロッホ球:量子ビット状態は球面上の点として表せる
  • 量子ゲート
    • 1量子ビットゲートは 2×2 のユニタリ行列 U (ノルムの保存の要請から)と表現される
    • 量子ゲートはブロッホ球上の回転操作
  • 複数量子ビットの数学的表現
    • 二つの量子系の複合系はベクトル空間のテンソル積(全部の要素の対の積)になる
      Σ{i,j} c{i,j} |i>_A ⊗ |j>_B OR |ψ>_A ⊗ |φ>_B
    • |c{i,j}|^2 の確率で観測される
  • n量子ビットあるときは,数学的には 2^n 要素のベクトルと等価
  • 量子計算:状態の初期化し,量子ゲートを次々と適用→測定
    • 巨大な単位複素ベクトルの線形変換に相当
  • 代表的な量子アルゴリズム
    • 量子力学のシミュレーション:O(2^n) → 多項式時間
    • nビットの素因数分解 指数時間 → O(n^2 log...)
    • N個のデータの検索時間 O(N) → O(√N)
    • N次元疎行列の計算 O(N…) → O(log N…)
  • 量子超越
    • 現状は50量子ビット=2^50qubitは約5PBぐらいに相当
    • Google は古典計算を上回る量子超越を達成したと2019年に主張 → 比較した古典側の計算がよくないという反論もあり混沌
    • 1999年 1qubit → 2014年 5qubit → 2019年 53qubit → 2021年 56qubit
    • 冷凍機の大きさ,周辺エレクトロニクスのコンパクト化,低消費電力化,配線の問題
  • NISQ (noisy intermediate scale quantum):エラー率(0.1〜0.001%),ゲートは100ぐらいまで
    • 古典だとエラー率は 10^-17 % → まともに計算するには誤り訂正技術の導入が必要 → 多数のqubitで1qubitを表す

量子アルゴリズム

  • 計算量理論の観点
    • 量子計算で解けるクラス BQP:P は含むが NP は含まない,NP と共通のものや,BQPのみの部分もある
  • 特徴量変換
    • 高次元の元データを特徴量を量子状態で置き換えて,量子ゲートで変換
    • 超高次元データは古典では扱えないので研究対象になっている
  • 量子カーネル
    • 量子特徴量の内積計算:あるゲート V とその逆 V^+ を適用して |0>がでる確率で内積が計算できる
  • 量子特徴量でしかできなさそうなタスク
    • ランダムな x に離散対数の値に応じてラベルを付ける ⇔ 古典計算では離散対数の計算は困難

量子アルゴリズムによる機械学習の加速

  • 量子線形回帰,量子SVM ← QBLAS(線形方程式),QRAM(公立的なエンコード)
  • カーネルリッジ回帰 poly(N)→poly(log N)
  • 量子線形法的式ソルバ:Σi (A^-1 b)_i |i> を紀伊産する
  • QRAM:データ数 N に対する指数可測を得るにはデータ転送がlog(N)でできる必要
    • 重ね合わせ状態を古典の世界に読み出せる → QRAMが実現するには数10年かかるのでは?

量子インスパイアアルゴリズム

  • 二分木構造をQRAMに用意しておけば,特異値分解・低ランク近似が量子加速可能 → この2分木構造を使うと古典計算も加速できた

転移学習:基礎から最近の展開まで

松井 孝太(名大)

  • 教師あり学習の期待リスク R(h)=𝔼{𝒳×𝒴}[l(h(x), y)] → 実際はデータによる経験リスクを使う
  • 転移学習:目標ドメイン 𝒳T×𝒴T と確率分布の対 ← このドメインで期待リスク最小化
    • 目標ドメインと類似した元ドメイン 𝒳S × 𝒴S と確率分布の対 ← 十分な量のデータがある
  • 転移学習の基本問題:どの場合に転移するのか,何を転移するのか,どのように転移するのか
  • 負転移:目標ドメインのみで学習するより,転移した方がリスクが大きくなる
  • ドメインが乖離している場合に負転移する
  • 同質的なドメインシフト:分布の変化 ⇔ 異質的ドメインシフト:空間自体が異なる
    • ドメイン汎化:ラベル空間を共有する同質的な場合と,共有しない異質的な場合
  • 転移仮定
    • 同質的ドメインシフト:データセットシフト(全部違う)共変量違う(特徴の分布が違う)など
      • 不一致度 discrepancy:両ドメインの確率分布間の(擬)距離で非類似度を測る
    • 異質的ドメインシフト:共通空間の潜在空間を想定する
  • 何を転移するのか
    • 事例転移:データ集合を変換する
    • 特徴転移:特徴量を変換する
    • パラメータ転移 (fine tuningなど):学習済みの仮説のパラメータを変換
  • 同質的なドメインシフト
    • 転移仮定=共変量シフト P(Y|X) は共通で事例転移 → pT(x) / pS(x) で加重した経験リスクを最小化
    • 共変量シフトが転移仮定,特徴転移 → ドメインを識別するdicriminatorと輸送問題を同時解いて変換
    • 同一構造のNNを処理する転移過程で,NNの最終段を再学習するパラメータ転移
    • 因果構造に基づく転移学習:データ生成メカニズムが全てのドメインで共通という転移仮定
  • 教師なしドメイン適応:元ドメインにはラベルがあるが,目標ドメインにはない
    • 目標ドメインのリスクの上界:元ドメインのリスク + 入力分布の差 + ラベル関数の差
      • 入力分布やラベル関数の不一致を測る尺度の違いでいろいろな理論がある

深層学習:ドメイン共通の表現学習

  • 深層学習:ファインチューニングで学習済みモデルを利用,蒸留によるモデル圧縮
  • 不変な表現学習:期待リスクの上界の入力分布の差の項を小さくする
    • 深層学習で扱う問題は異質的ドメインシフトを扱う→ラベル関数は対象にできない
  • 自己符号化器:元ドメインと目標ドメインを合わせた入力を自己符号化器にいれて,中央のところから共通の表現を取り出す
  • 敵対的学習:ドメイン識別器とデータ生成器を使う
  • 不変性のみを考慮することの限界:ラベル付け関数の差は考慮できない
  • 敵対的学習を使って転移可能な事例を生成する

深層学習:事前学習済みモデルの利用

  • dark knowledge:モデルには,ラベルだけでなく,他のラベルへの鳴りにくさなどの情報も含まれる
  • ソフトターゲットを使った蒸留
  • 蒸留における知識:応答ベース(出力を利用)特徴ベース(中間層を利用),関係ベース(層間の関係や,事例間の関係を利用)
  • 特徴ベースの蒸留:中間層のアーキテクチャが違うので,それを転移させる
  • 関係ベースの蒸留:中間層の出力の差を小さくしてゆく

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-11-13 (土) 17:55:45 (232d)