#author("2022-11-24T11:14:36+00:00","default:ibisforest","ibisforest") * 第25回 情報論的学習理論ワークショップ (IBIS 2022) [#pd59f6a6] COLOR(#00AA00){このページはしましまが [[IBIS2022>IBIS#IBIS2022]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.} #contents * 11月20日(日) [#zd1a2324] * 招待講演1:The Complexity of Fairness in Information Access [#qeb7e143] Michael Ekstrand (Boise State University) - 推薦が公平であるとは - 情報参照システム information access system:大規模な情報を参照できるようにする. - 航空機予約システム:1社だけの路線を,複数航空会社の路線より優先 -- 地域航空会社にとっては不利なシステム - このように,状況の文脈によっていろいろな問題が生じうる - 古典的な公平性:分類問題,決定は独立で個別,一度きりの決定 - ⇔ 情報参照システム:ランキング問題,決定は相互に関連し,複数のステイクホルダーがいいる - ある特定の状況における問題の定義と測定手法 に着目 - 公平性の動向 -- 対象者に対する決定 → 複雑な状況 -- 抽象的な決定 → 特定の問題の解消 - 公平性への対処法は,ある文脈での特定の問題にのみ有効 - 公平性の要素:対象者,単位(グループ,個人),尺度,集約 -- 対象:ステイクホルダー,社会 -- 単位:グループと個人 - 供給者(exposure,頻度や利益)観点 -- 女性作家の本があまり流通しない ← 国会図書館の頻度が反映されていた - 消費者観点:効用,使いやすさ,表示,ステレオタイプ * マルチメディアと機械学習 [#xe1ef166] オーガナイザ:中山 英樹(東京大学) ** 大規模言語モデルによるコード生成とその応用(Code Generation with Large Language Models – Recent Trend and Applications) [#ud7af5f9] Raphael Shu(AWS AI) - 大規模コードモデル:CodeT5, OpenAI Codex, CodeGen → Google PaLM, PaLM-Coder - タスク:生成,自動補完 - 入力:自然言語,出力:コード,評価:ユニットテスト - コーディング補助 coding companion(GitHub copilotなど) - コードデータベースの自然言語検索 - 新規ライブラリに対するzero-shot学習などの課題 ** 深層学習による音声合成の発展とその先 [#a8a00794] 高道慎之介(東京大学) - 音声合成の成果 -- リアルタイム音声変換:ハンター×ハンターのキャラクターの声 -- 50年前の松任谷由実の声 - 音声合成:何かを入れると音声が出る -- テキスト音声合成,歌声変なkℕ,歌声合成,対話音声合成 - テキスト音声合成:音声特徴を経由して音声に変換,速度・計算量・音質の改善をめざす - 短い文については人間並みになったが,1時間とか凪講演では差がある - 視や小説で演出を加える - 文脈によって変わる音律,プロミネンス(強調する語で意味合いが変わる) - 環境を整えていない録音の利用 ** 広告を例とした深層生成モデルの応用と課題 [#b04f74d4] 大谷まゆ(サイバーエージェント) 広告テキスト作成支援 - テキストの自動生成:検索キーワードを入力に取り入れる,過去の配信実績の活用 - 既存の広告文を,より有効な広告文に変換する - マルチモーダル:レイアウトや情報の重要度を考慮 - 事実と異なる内容の生成 → 送料無料 を入れてしまう - 薬機方,景品表示法などに触れないようにする - 広告データは公開が難しいので,再現性や新規参入の困難などの問題 デザイン制作支援 - レイアウト生成:ランディングページの生成,レイアウトの要素の表現形式が難しい - デザインの配色支援 - 評価が難しい:画像処理の指標を利用,一般的なデザインルールの違反率,多様性,人間の評価 - デザイナーと対話的に生成するには? - リスク:既存デザインと近いもの,望ましくないバイアス,実在しない人物の写実的な画像の使用 * 11月22日(火) [#p4e77733] * Responsible AI in Practice: Lessons from Experience at Scale [#tab20382] Luca Belli - 責任あるML:バイアスの有無の基準は様々 - 課題:問題設定,監査⇔プライバシ,予測される乖離,多数の評価尺度,評価尺度の相互変換は困難 - MLを使わない方が問題の解決が容易な場合もある - 自己選択特徴による今日か:国や候補によって変わる - 利用者ではなく内容に基づいて正解ラベルを与えるべき → FPRが高い場合はこの原則に失敗している可能性 - 推薦システムの場合 - アフリカ系人種は人口比率によらず政治的な影響は受けにくいが,ヨーロッパ系人種は人口比が少ないと受けやすい - 標本化の不均衡によって,ランダム推薦も不公平になりうる * 微分方程式等で記述される力学系と機械学習 2022/11/22(火) 10:30–12:30 [#lb17ff76] オーガナイザ:松原 崇(大阪大学) ** 力学系の機械学習における事前知識活用の方法 [#s3bdbf93] 武石 直也(西スイス応用科学大学) - 力学系の機械学習:微分方程式の境界条件学習するものとと関数を学習するものとがある -- 関数を学習させるときに事前知識を反映させたい - 事前知識のMLへの導入:訓練データ,モデル集合,アルゴリズム設計,後の解析 - NNのあてはめで微分方程式をとくとき - 安定性(時間が経てばSに近づく)や不変性(ある状態Sから脱出しない)の保証 - [Manek+ 2019] 学習した関数を修正して安定平衡点をもたせる - 物理の不完全な数理モデルをNNで補完する -- NN部分をうまく正則化しないと,数理モデルが無意味なものになる ** 物理現象の性質を反映させたグラフニューラルネットワークによる偏微分方程式の学習 [#i44bb402] 堀江正信(科学計算総合研究所・筑波大学) - メッシュに区切って,有限要素法のような感じでGNNで微分方程式を解く - 同変性:回転や並行移動などの変更におうじて変化に制約がない ** 幾何学的力学と深層学習の連携による物理現象の構造保存型モデリング [#n93e4130] 谷口 隆晴(神戸大学) - NNで学習したモデルで,物理シミュレーション - 幾何学:許容変換に対する不変性 * 11月23日(水・祝) [#qb60a974] * ベイズ深層学習入門 [#v70888f6] 須山 敦志(アクセンチュア) - ベイズの利点:モデリングの柔軟性,予測の不確実性の表現,定量的なモデル選択,簡潔で一貫した方法論 -- モデリングの柔軟性:制約や仮定の導入,複数情報の統合 -- 予測の不確実性:確信度,パラメータの逐次更新 -- 簡潔で一貫した方法論:ベイズの定理と周辺化のみ,多くの手法はベイズの手法 - ガウス過程回帰:カーネルの選択に応じて様々な関数を学習できる - 近似計算 -- サンプリング:ギブスサンプリング,ハミルトニアンモンテカルロ法 -- 変分推論:事後分布を簡潔な分布の族で置き換える,スタイン変分(粒子を使う) - ベイズ深層学習 -- 大量データ必要→ベイズ推論は有効かも?解釈できない問題には確信度が有用,アーキテクチャの設計に背景知識を導入可能 -- ドロップアウトが行うコスト関数と,変分推論の下界は同じ形をしている -- 確信度を使って能動学習や探索-活用のトレードオフに対応可能 -- VAE:NNの入力変数を潜在変数にしたモデル,事後分布の近似分布もNNを使う -- 世界モデル:自動運転などで使う外部環境のモデル,VAEで圧縮した入力と,RNNで表した記憶のモデルの統合 -- 拡散モデル:多段VAEの,潜在変数が入力特徴数と同じ,推論モデルは学習しない,推論モデルの最終出力が正規分布になるようにする -- 深層学習のガウス過程解釈:NNの学習は事実上逆行列計算になり,解析的な分析が可能 -- 尤度関数を使わない変分推論 - 一段解法=u_nからu{n+1}を計算,多段解法=u1…u_n から u{n+1}を求める - Euler法:微分を,微小時間の差を使って近似する -- 積分計算→多段になるとRunge-Kutta法 - p次解法は次の精度を達成 ‖u(h) - u1‖ = O(h^{p+1}) -- 刻み幅を変えても,この収束の傾きは変わらない - * 常微分方程式の数値解析とデータサイエンス [#aa9d11b3] 宮武 勇登(大阪大学 サイバーメディアセンター) - https://slides.com/yutomiyatake/deck - 常微分方程式 d u(t) / dt = f(u(t)) u(0)=u0∈ℛ^d -- 離散変数法:離散的な時刻での近似値を求める * Federated Learningにおける典型的な課題と最近の展開 [#o9290cfd] 米谷 竜(OMRON SINIC X) - 連合学習の定義 [Kairouz+ 2021]:ローカルデータを保持する多数のクライアント,中央サーバとやりとりしつつ大域モデルを学習,データそのものはサーバに共有しない -- ※ 心理学では associated learning の訳語 -- coross-device連合学習:クライアントは100億ぐらいのモバイル・IoTデバイス,クライアントが保持するデータは不均一,通信がボトルネックに -- cross-silo連合学習:工場や病院など数百のクライアント,サーバが配布するデータは均一,クライアントのデータを参照可能,通信・計算の両方ともボトルネックになりうる - 課題:不均一データからの学習,通信容量,プライバシの確保,蒸留の方法,さまざまなタスクの連合学習化 - 不均一データからの学習 -- ラベル,関数,特徴量,データ量の不均一 -- FedProx,Scaffold,FedNovaなどが著名,クライアントでの更新はあまりまとめてやってはいけない - 個人化連合学習:各クライアントの特性を反映したモデル -- FedPer=ベースと個人をend-to-end,FedRep=ベースと個人を交互に,後者がわずかによい -- ベースモデルが効いているのかは分からない - クライアントは状態なし→Adamなどの適応的最適化が使えない→Matched Averaging - 通信容量 -- 重みを2値化して送っても,元の値を不偏推定できる -- クライアント選択における偏りの定量化で,効率的なクライアントを選ぶ - セキュリティ・プライバシー -- クライアントごとの更新情報には,ある程度元データの情報が含まれる -- 集約統計量のみを秘密計算で確保,差分プライバシの導入 - 蒸留ベースの連合学習 -- クライアントで獲得したモデルの予測モデルの出力から,大域的なモデルを学習する -- クライアントごとに使うモデルを変えることができる -- FedKD,FedGEN * 汎化誤差解析から始める統計的学習理論入門 [#e6d88ece] 宮口 航平(IBM 東京基礎研究所) - 学習理論:どんな条件下で何ができて何ができないのかを明らかに,上界や下界を狭めてゆく - 最適モデルのリスク=R(f**),標本からの推定モデルのリスク=R(f_n) の差や,その収束の差 - あらゆる仮説を考えるのは no-free-lunch定理により無意味になる - R(f_n) - R(f**) =[R(f_n) - R(f*)] + [R(f*) - R(f**)] -- 前者は推定誤差,後者は近似誤差,ここでは推定誤差を扱う,近似誤差の評価にはf**について仮定が必要 - 経験リスク最小化 (ERM):データごとのリスクの平均である経験リスクを最小化 - argmin を代わりの上界で抑える 2 sup{f∈ℱ} |Δn(f)|,Δn=R(f_n) - R(f*) → 一様収束誤差 - 一様収束誤差→nに応じて発生する |Δn(f)| は確率過程なので,この過程の上界を求める -- 上界は,K個の独立な変数の最大値になる→各変数の裾の長さに仮定をいれる,σ^2劣ガウスが使われる -- 結局 O_P( √[ ln |ℱ| / n] )がという形に - 1ステップ離散化:リプシッツ連続性から,仮説集合がd次元仮説集合だったら e^-d 個で被覆できて O_P( √[ d ln n / n] ) - カバーを段階的に細かくするチェイニングという技術でぐっと減る -- d次元有界集合だったら,追加の仮定なしに O_P( d / n ) になってしまう - ラッデマッハ複雑度:仮説集合の複雑度 → 一様収束誤差を化不足亡く,システィマティックに評価できる - 一様収束では,仮説集合で一様に推定仮説があると思ってるが,実際は最適仮説 f* に近いところの方が多く集まるのでは? - ドロップアウトとか,あえてノイズを加える(ERMでない) -- 推定量も確率変数になる → PAC-Bayes:事後分布のリスクと~O_P( √[ KL(事後分布‖事前分布) / n] - パラメータが多くて過学習してもよい -- 深層学習は一様収束しないのに汎化性能がよい benign overfitting -- 推定量が,仮説に近づく滑らかな成分と,ノイズに引きずられても期待リスクの意味で無害な項に分けられるときには大丈夫 → 具体的にこれを生じさせる条件はまだ謎