#author("2025-11-14T08:53:11+00:00","default:ibisforest","ibisforest") #author("2025-11-15T07:55:11+00:00","default:ibisforest","ibisforest") * 第28回 情報論的学習理論ワークショップ (IBIS 2025) [#p10d4e63] COLOR(#00AA00){このページはしましまが [[IBIS2025>IBIS#IBIS2025]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.} - 日程:2025-11-12 〜 2023-11-15 - ホームページ: http://ibisml.org/ibis2025/ - 会場: 那覇文化芸術劇場なはーと & オンライン #contents * 11月12日(水) [#b667eff6] * 企画セッション1:データ化のフロンティア [#rb55f8b8] オーガナイザー:手嶋毅志 (株式会社リクルート) ** Accessibility Datasets in AI Development [#kfdea8c5] 神窪 利絵 (University of Maryland, College Park) - データスチュワードシップ:データを収集するにあたって,それをどう集めて,使うかについて倫理面などから考える - アクセシビリティデータ集合:ディスクレシア,視覚障害,発話障害といった各種の障害がある方のデータ - 190件のアクセシビリティデータ集合 -- 自閉症,認知,波多津,健康,聴覚,言語,運動,発話,視覚 -- 聴覚,認知のデータは比較的揃っているが他は少ない,特に視覚は需要があるが揃っていない -- 収集されているデータは,男性や若年層に偏っている - データの収集や利用への同意 -- インターフェースが同意に影響する.メールでの同意は少ないが,対面は多い -- データが収集されるのはもはや止められないという諦念 -- 自身で決めたいという人の他に,家族などに相談したいという人も ** AIoT行動変容支援におけるデータ化の現在地と展望 [#gbb2d1ba] 中村 優吾 (九州大学 大学院 システム情報科学研究院) - Mark Weiser "The Computer for the 21st Century" Scientific American (1991) の水準はスマホなどの普及で達成された -- 健康など,ウェルビーイングに - 質的データ化=体験を捉える,量的データ化=介入の効果を測る ← ここでは後者 - Waistonベルト:胴囲と歩行情報がとれる - eat2pic:食べ方や食べるもののバランスを動画で分析 -- 食べ物に偏りがあると,壁に掛かっている絵の彩りが変わって知らせる - SenStick-Eye:ハシ,フォーク,ハブラシなどについたカメラやモーションセンサー - Kaolid:味覚の体験を変えるデバイス,おかゆのスプーンに香りをつけると感じる味が変わる -- 味は,味覚だけで単純には決まらず,食感などの触覚や,匂いといった臭覚も影響しており,分析が進んでいない - スマホの過度な利用の悪影響についてのエビデンス不足 -- ロード時間を変えるとか,画面のグレイスケール化などの介入といった,インターフェースの変化による効果 -- 長時間利用者は 46% と変化した人がおおきい,西欧・アジアは効果大⇔アフリカ効果小 - LLMの利用が広がり,質的研究への量的研究への転移に期待 ** 生活セントリックデザインのためのデータ利活用の課題 [#w3d288e5] 西田 佳史 (東京科学大学) - 予防措置を全てやっている人は,確率の積なので,どうしてもごくわずかになってしまう -- + 知っていてもやらない人が多い - エクイティ,デザイン思考,生活機能も出る,コミュニティ研究アプローチ → 全部次元を足す作業 -- 見えない次元があり,それを見るとより広い対応が可能に - リスクは,誤使用・不注意・知識不足の問題として片付けられる現状 → 事故を減らすという問題の解決には至らない - 高齢者の転倒リスク → ちゃんと椅子以外に座らないようにという介入をしても,通常の行動なので実際には無意味 - 高齢者行動ライブラリ= https://www.behavior-library-meti.com/behaviorLib/ - 身体保持性に着目した壁の飾りやソファ → データを取得 -- 前傾してから立つと安全に立てるが,前傾を怖がる人が多く安心感がない → 新たに考慮すべき観点 - ヘルスモニタリングにおける課題 → カメラなどの敷設は嫌われたが,事件などが生じて変化がみられた → 安全に対して払う代償 -- サービスの質⇔情報の提供量 → サービスの質によって情報の提供はより増える,AIなどの自動処理は敷居が低い -- 転倒リスク情報という,多くの人が危険を認知している問題では,情報の提供は増える - 天気予報は,予測情報を提供することで,多くの人の行動変容に成功している -- よい予測情報を提供して,安全になる行動変容に繋げる Vitaidian Computing - +あんしんマーク:不注意の影響 ** パネル [#heb984c1] - データを提供したいという度合い -- 神=モデルを作るのに実際に必要なデータと,当事者が提供したい情報との乖離 --- 視覚障害者が提供する画像はブレがないような画像だが,見ているあらゆるデータがないと有用なデータにはならない -- 中:実際に提供しているデータの方が,提供の意思を聞いたときより幅広いというギャップ -- 西:映り込みによる生成AIで置き換えるという新たな方向性が出てきた,同意の問題は自分にどれだけ返ってくるかを知らせる - 人からデータをとる際の環境 -- 企業⇔研究者,実験室⇔実生活 -- 西:実験室データはどうしても,実環境で動かない -- 神:企業とアカデミアの懸念は,調査主体とかで変わり,影響する要因が非常に多い -- 中:企業連携とかの環境では,実際のサービスは企業側が開発・運営 - データ利用の同意の取り方 -- 実際には同意文書とか読まれていない -- 中: -- 西:お金の話があまりされてない.補償とか経済原理を足した方がいいのでは? -- 神:データドネーション,インターフェースの影響は大きい * Multiagent Online Learning [#xe63d28e] Nicolò Cesa-Bianchi (Università degli Studi di Milano / Politecnico di Milano, Italy) - マルチエージェント学習:ロボット,モバイルセンサー,分散学習システム,代理人エージェント -- 環境だけでなく,他のエージェントからの入力もある -- ここでは,エージェント間の接続関係は静的であると仮定 - 単一タスクのマルチエージェント → 誤りはエージェント間の結合数に応じて増加 - マルチタスクマルチエージェント → グラフ構造やエージェント間のバリアンスも影響 - あるノードの挙動は,そのグラフ上の近傍の情報から予測 → オンライン予測する -- 累積損失の最小化: - シングルタスク=そのタスクの累積損失 ← リグレット≦√{α T} - マルチタスク=エージェントの起動は無作為,損失は総和,勾配も共通のものを用いる,ネットワークの構成は無視 - シングルタスク:エージェントの起動順序が決まっているとスター状に集まっているエージェントのリグレットは線形を超えてしまう(?) - マルチタスクのリグレット:理想状態は,各エージェントごとに最良のモデルを全てのエージェントについての総和 → 大域的に最適な値というわけではない -- 上界=√{1 + (N-1) σ^2} √T ← σ^2 は最良局所モデルの分散 --- MT-OGDアルゴリズムで達成 -- 結合が同等でなく,重みがあるとき → MTCO2OL アルゴリズム,上界には各ノードの近傍中の最大重みの,全ノードの総和が係数としてリグレットに掛かる * 11月13日(木) [#u1453ad1] * 企画セッション2:AI×形式手法と数学 [#u41e7d05] オーガナイザー:園田 翔 (理化学研究所・サイバーエージェント),熊谷 亘 (OMRON SINIC X) ** 定理証明系による数学の形式化 [#h8e6325c] 水野勇磨 (University College Cork) - LLMは解かれた問題は解けるが真正性の保証はない → 定理証明系 - LEAN:定理証明系の一つ,対話的 - Mathlib 2017 数学ライブラリ,Liquid Tensor Experiment 2020〜2022 最先端の数学を定式化,Polynomial Freiman-Ruzsa Conjecture (2023) Tao の証明の直後に定式化された,Fermat' s Last Theorem (2024) 定式化を試みるプロジェクト - elaborator:人間 → 内部形式,型理論チェック → カーネルで解く - 型理論:expression, Type rule(a:A),definitional euqality (A ≡ B) - universe:集合の集合,prop=命題の集合,Type_l 全部の集合 - dependent function type:4種類の公理で関数を定める,dependent function type,dependent function,function application,β-reduction - inductive type:関数を含む数学のいろいろな要素を定義する道具立て∋数学的帰納法など,群といった代数系の定義ができる ** 範疇文法と論理:理論と応用 [#oa92900a] 谷中瞳 (東京大学・理化学研究所) - 著書:ことばの意味を計算するしくみ - フレゲ 合成性の原理 principle of compositionality → 文の解釈は構造で決まる - 自然言語推論 (natural language inference) → 自然言語で表された命題の含意関係を調べる問題 - 組合せ範疇文法 combinatory categorical grammer (CCG):自然言語推論を行う定理証明系 -- 語彙化文法 lexicalized grammar の一種 - 証明木の構成規則:function application rule, function composition rule - Lambek Calculus:文の構造は証明木の構造で表される - 実際の解釈: word → syntactic category 語のカテゴリの指定→ semantic representation 論理式に変換 → 論理式を定理証明系い入れる - 意味解析:型付きλ計算で行う - 定理証明系では,animal⊃cat のような外部知識を事前知識として蓄えておく必要 - 自然言語処理:分散表現 ⇔ CCG:文法 ** 証明論による自然言語の意味の理論 [#d4bf9da6] 戸次大介 (お茶の水女子大学) - スライド https://github.com/DaisukeBekki/lightblue/ - takeaway=自然言語には含意関係以外もあるが,それを伝えたい - John fixed Mary's car と John didn't fix Mary's car はメアリーが車を持っていることを前提としている → presupposition という,肯定形でも非定型でも同じ命題が出てくるので含意関係ではなくなる - presupposition projection=暗黙の命題が出てくる状況のこと → メアリーが車を持っている関係は,非定型,modal(確かさ),疑問文などにしても出てくる -- presupposition trigger = presupposition を生じる原因 - Martin-Löf intuitionistic theory - 依存型 -- Πタイプ=fibered function:値域が集合の族になっている関数 -- Σタイプ=fibered function の積集合が値域になっている - dependent type semantics (DTS) ← 戸次さんの研究 ** Formal Reasoning Meets LLMs: Toward AI for Mathematics and Verification [#e90730d4] Kaiyu Yang (Meta Fundamental AI Research) - AI4Math LLMで数学問題を扱うベンチマーク - 数学を扱うLLM:基盤数学モデル→精密調整→ツールと統合 -- データ不足,検証可能性の問題 - Isabelle, coq, Lean などの定理証明系を活用する -- 非形式的な数学を形式化していく - https://leandojo.org/ - 証明木の生成をLLMにさせて,網羅的な探索を回避する -- 簡単な問題で訓練してから,難しい問題にするカリキュラム学習 * AI-Powered Next-Generation Communication and Applications [#l244d913] Kaoru Ota (Tohoku University / Muroran Institute of Technology) - モバイル通信:2030年に6G,1Tbps -- 通信可能域の拡大,信頼性・セキュリティ,エネルギー効率,自律・高度制御 - 4G → 5G → 6G:周波数帯域が高周波に → 距離が届かない - 緊急時の通信:ドローンがアンテナを担う -- semantic communication:通信内容に合わせる → 文字,画像,音声などで通信の方法を最適化 -- ドローンの位置制御 * 11月14日(金) [#lc69fc43] * 企画セッション3:アルゴリズム・データ構造と機械学習 [#ubda68bd] オーガナイザー:坂上 晋作 (サイバーエージェント・NII・理研AIP) ** 離散凸解析に基づく予測付き離散最適化手法 [#p8dd5bfd] 大城 泰平 (北海道大学・理化学研究所) - 予測付きアルゴリズム:入力と共に出力の予測が与えられる → 予測を活用して性能向上 -- 予測が外れていたときでも,おおきくは性能悪化しない -- まとめサイト https://algorithms-with-predictions.github.io/ - 重み付き二部マッチング,k-means,最短経路問題,最大流問題,ソート,離散凸関数最小化 - 重み付き二部マッチング=最適輸送 -- シンクホーンのような近似解ではない厳密解を求めたい -- 予測=最大重みマッチング → 頂点を交換して重みが増える対(交互閉路)があるかを探索し,あったら交換 → 最適性の証明がある -- 双対問題の最小化問題は予測が使い易い → ハンガリアン法 - 凸解析=実数関数が凸 → 効率的に最適化できる - 離散凸関数=実数の凸関数の定義域が離散になってる -- 離散等近凸性=M凸関数 と 離散中点凸性=L凸関数 がある ← 定義域が1なら同じだが,2次元以上では定義がことなる -- どちらも局所最適性が大域最適性と同値になるが,局所近傍の定義はM凸とL凸で異なる - 離散最急降下法 → 局所最適が大域最適なので,勾配降下で大域最適が求められる -- 離散では,初期点から近い最適解に最短経路でたどり着く -- ハンガリアン法はL凸関数にタイルする離散最急降下方法となっていることが示せる --- その他の問題もL凸やM凸関数での離散最急降下法になっていることが示せる ** モデルベース × データドリブン ― Plug-and-Playアルゴリズムの展開 [#h1cf4f1c] 小野 峻佑 (東京科学大学 情報理工学院) - 信号処理=サンプリング(計測)と再構成(復元)の学問 -- 圧縮センシングなどの理論面からの研究に加えて,実際に事前知識の活用や妥当性の担保といった実務上の要請もある - 観測信号 v = Φ u0 + n,u0=所望の信号,n=加法的ノイズ - モデルベース=最適化に基づく,正則化項+データ項の最適化 -- 事前知識を人手でモデル化,微分不可能な目的関数になりやすい,妥当性・信頼性は高い - データドリブン=観測値と真値が得られたら,その関数関係を帰納的に獲得しておく -- ハードな制約は難しい,学習データが必要,人手でモデル化する必要がない,真正性の保証 - Plug-and-Play アルゴリズム:計測モデルはモデルベース,事前知識はデータドリブンで組み合わせる -- 計測モデルの正則化項をデータから学習させる -- 近接分離アルゴリズム=近接写像 (proximity operator) という操作が大事 - ノイズ除去をMAP推定している → 事前分布がノイズ除去器 → ノイズ除去器を近接𝒸写像に置き換え -- 安定して収束する条件も求められている -- ゼロ点包含問題の解ではあるが何らかの最適化問題を解いている訳ではない ← ノイズモデルの族はノイズの分布を含んでいるとは限らない ** 学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析 [#k4c5ab51] 松井 勇佑 (東京大学 大学院情報理工学系研究科) - 機械学習を,いろいろなアルゴリズムの部品に適用 → 学習型データ構造(Tim Kraska が提案,J. Dean とか Ed Chiとかも名前が入ってる) - 一次元インデックス=1次元リストの中にクエリで聞かれたものが入っているか? -- ソートされてれば早い,そうでなければ2分木 → データ分布を無視しているのでこれを機械学習で獲得すればいいのでは? -- ソートした数値の増加の具合を表す実数関数があれば探しやすい --- RMI=最初の方法,ALEX=データの更新が可能,PGM-index=理論もOkで実用的にも速い - 多次元インデックス=kdツリーでやるような問題 -- Flood=ある次元に着目して1元リストをいっぱい作る方針,どの軸でどのように分割するかをデータ駆動にしてある --- FlexFlood=Floodでデータ更新を可能に - ブルームフィルタ=集合を近似的に保持する確率型のデータ構造,高メモリ効率,所属判定が高速 -- Bビットアレイで最初は0,要素は[1,B]の値へのハッシュを複数準備 -- 要素が入ってきたら,全てのハッシュ関数の行き先を1にする. -- クエリ要素の全てのハッシュに0のものがあれば確実に入っていない,すべて1だったらおそらくはいっていない - 学習型ブルームフィルタ,ハッシュ関数を集合に含まれるかどうかの学習問題にする -- Sandwitched Learned BF 入力側にも普通のBFを足す - 近似最近傍探索 -- 画像とか検索を探す → まだあまり機械学習が使われていない - 機械学習をアルゴリズムのどこにいれるか? → フィルタの前におく,フィルタに組み込む,超パラメータ設定に組み込む * 招待講演3:Improved Efficiency & Reasoning for Vision-Language Models [#ucfccb74] Yu-Chiang Frank Wang (National Taiwan University / NVIDIA) Physical AI - シナリオ → 汎用お手伝いロボット,指示を理解し,環境などの制約を考慮 - NLP/CV:専門モデル→汎用モデル の流れがあったが,専用モデルへに戻っている → 同様の - Vision Language Action; VLA:視覚と自然言語指示→行動 のプランニング - 汎用ロボットのデータ階層:実データ⊃人工データ⊃Webなど他のデータ - NVIDIA osmos:自動システム開発用のライブラリ - LLMでは言葉の世界なので実際の行動は反映さていない -- 視覚的なフィードバックを用いたVLA 基盤モデルの高速化 - EoRA:モデルの圧縮 - VLsI:VLMの蒸留,モデル間のトークンの対応関係を考慮 視覚言語モデル - Visual-Language NL Explanation=CoT付きの画像に対するQA → RAPPEER - データの問題:データの権利上の問題,プライバシ,不法コンテンツ,倫理・安全性 -- knowledge editing / unlearning - VideoMerge:主体と行動の具体的な画像・動画を入力すると,主体が行動している動画を生成できる * 招待講演4:Machine Learning for the next chapter in Cosmology [#k3112d15] Leander Thiele (Kavli IPMU) - 宇宙論での機械学習の利用 - 宇宙のシミュレーションモデル,精度と回数にはトレードオフの関係 - 重力以外で宇宙全体の挙動に影響 → ダークエネルギーやダークマター 現在の標準モデルの結果 - 量子ゆらぎ → 熱い密な初期の宇宙は量子ゆらぎえみたされていた → Inflationが起きるまで続いた → このときのゆらぎが宇宙背景放射に残っている -- 宇宙背景放射と弱い重力レンズ効果は一致するはず - ホットスポット??の拡散の波の様子が現在の宇宙モデルでは説明できていない - 宇宙膨張の加速:ダークエネルギーが関わっている??,赤方偏移で測る - 現在多数の観測機器が稼働し,そのデータを解析するモデルの整備が進められている - 今までは観測量の要約統計量だけを考えていた → 初期の揺らぎ × 線形モデル + ノイズ の線形モデルによる詳細な分析 -- 畳み込みネットでこのような詳細を分析した - 推定の尤度関数で,ガウス分布を仮定していたが,NNへの置き換えを行った -- https://fair-universe.lbl.gov * 企画セッション4:時系列データ解析と基盤モデル [#z17527f7] オーガナイザー:勝木 孝行 (IBM東京基礎研究所) ** 時系列ビッグデータのためのリアルタイム解析:基礎研究と社会実装 [#md488387] 松原靖子 (大阪大学) - 時系列のデータマイニング,実社会の問題を解く - 動作の時系列データから,動作の特徴点を教師なしで検出する - 非線形の時系列モデル - 大規模テンソルデータ → 低次元射影で有用な情報を取り出す - 実時間の予兆分析 - 小規模なEdgeデバイス用の学習アルゴリズム -- 計算能力や記憶容量の制限,デバイスの経年変化への対応 ** 超軽量アーキテクチャで切り拓く時系列基盤モデル [#jc6defc0] 坂井 智哉 (IBM東京基礎研究所) - https://github.com/ibm-granite-community/granite-timeseries-cookbook - 時系列基盤モデル (TSFM) → 例示なし学習が可能に,精密調整で精度向上,最終層の再学習でタスクを変更可能 - 歴史 -- Informer, Autoformer といったなどのトランスフォーマの派生 -- 懐疑的・反証期:既存モデルでトランスフォーマを超える vs それをさらに超えるNNモデル がでてきた -- 確立期:基盤モデルの整備と,評価データの整備 - 必要な予測長をまとめて予測する -- 反復予測=予測した内容を系列に加えて,さらにその先を予測 -- 直接予測=直接的にまとめた予測する - パッチ化=時系列を文字買いパッチに分割して,パッチごとに時系列を扱う,トークン数を減らして計算コスト削減 - TSMixer=データの行はパッチ内,列はパッチ間の情報があるので,データを交互に転置して処理することでパッチ内外の情報をまとめて扱える - トランスフォーマの課題=長い文脈長に弱い,注意機構の計算量 - 時系列基盤モデル -- TinyTimeMixer:1Mパラメータ,モデルも公開している -- TSMixer をパッチを適応化した改良版モデル=TTMバックボーン --- パッチの結合や再分割などを自動的に行う ** 宇宙機の開発・運用の変革に向けた機械学習研究の展望 [#ke5e90d3] 尾亦 範泰 (宇宙航空研究開発機構, JAXA) - MMX:火星からのサンプルリターン - 所属は研究開発部門→縁の下,第3研究ユニット(Jedi)→シミュレーションとか情報系 -- ロケット発射時の音響シミュレーション,音波で搭載衛星が破損しないように -人工衛星のヘルスマネジメント=FDIRという自律監視システムでは不十分で,人力監視が行われている -- FDIRはセンサー値のしきい値検知だけ -- 衛星から送られ来る時系列データ(=テレメトリ)は千や万の時系列があるが人間の目視では無理 - テレメトリをガウス過程回帰で予測して上下限の範囲にあるかどうかをチェック -- 放射線でパルス的なノイズが出るが,分位点をしきい値につかっていると,実用的には大丈夫 -- コマンドで衛星の状態を変えるときがあるが,そのときはモデルも手作業で変えないといけない - 宇宙推進系=姿勢制御,着陸,ドッキングに使う.ミッションクリティカル. -- 電磁弁で酸化剤を調整して推力を調整 -- 実際にふかしてみるテストは貴重な燃料を使わなければならない -- 配管内の圧力応答で予測する → 気泡が入っているかがまずい → シミュレータの結果を予測するようなモデルを学習 - 観測における時間ボトルネック=災害時・敵対的行動では分析時間が重要 -- 衛星の通信帯域は限られている → 衛星内で取捨選択 → 衛星の計算能力が限られていた → ハードの改良 → 結果待ち * 11月14日(金) [#e5801e81] * チュートリアル1:深層基盤モデルのための強化学習:驚きから理論に基づく納得へ [#v7ed10ec] 和地 瞭良 (LINEヤフー株式会社) - 著書『強化学習から信頼できる決定へ』 - 強化学習=目的指向型の学習や意思決定を理解し自動化するための計算論的アプローチである → することは「意思決定」 - 強化学習を使う = 強化学習の枠組みで問題を捉える + 強化学習の手法で解く - 強化学習の枠組み -- 和地さんは 報酬関数 が重要との立場 - 深層学習では,事後学習かテスト時推論のときに用いられ,事前学習では使わない -- 事前学習済みの基盤モデル → 表現を獲得 -- 強化学習による基盤モデルの改良 → 入出力関係を改善=推論能力の向上や人間の価値観などの最終的なKPIとの整合性 - 事後学習でのRLの利用:Reverse KLダイバージェンス付きの最大報酬 -- 本当のKPIの最適化に,Reverse KLダイバージェンスで元の報酬関数から離れすぎないような制約 - この式は解析的にとける Wang+ ICLR (2024) π*(y | x) = 1/Z(x) π_ref(y | x) exp[ r*(x, y) / β ) -- 意見集約観点から解釈が可能 --- 深層学習を使うということは,このような枠組みを採用したということ - 強化学習が活躍し始めたのは? -- よく使われているアルゴリズムは PPO Schulman 2017 であり,アルゴリズム的なブレイクスルーがあったわけではない -- π_ref(y | x) の質が上がって使えるようになった - ここまでは,文脈付きバンディットとしての解釈 -- フルの強化学習のような状態の状態遷移への拡張 -- Token-level MDPでも同様,文脈付きバンディットのような報酬の更新ができる - 報酬関数は実際には真値はもとめられない → 人間のフィードバックによる報酬 ∨ 検証可能な報酬 - 人間のフィードバック RLHF=reinforcement learning from human feedback -- ここでは人間のフィードバック全体ではなく,ChatGPT で使われた狭義のRLHF -- 人間の主観へのアライメント - 人間の主観を報酬にする -- 選好データ=一対比較データ → Bradley-Terryモデルを使うとロジスティック回帰として解ける -- RLHF では,PPOで解いているが,別の機械学習アルゴリズムを使っても解ける - DPO (direct preference optimization) -- RLHF=報酬モデルの学習+RLアルゴリズム だったが,DPOでは教師あり学習で解く --- DPO では選好データを使っているおかげで,分配関数を消せるため計算できる -- KPIが複数の場合へのDPOへの拡張 → 観点ごとにフィードバックがある枠組み --- 各KPIごとのDPO + KPI間のDPOで解ける - 検証可能な報酬 (verifiable reward) -- 第1原理計算とか形式的手法などで正しいフィードバック得られるが,時間がかかったりする -- PPO は今でも使われているが,LLM では合わない場合も → ホライズンが長い,報酬は疎,NNの計算量が大 -- actor-critic は信用割当 (credit assignment) が可能というメリット -- LLMでは信用割当が難しく,critic の分散が大きい → Group Relative Policy Optimization=PPOからpolicyモデルのみを残して,valueモデルを削除 - RLHF や RLVR をどう組み合わせるかが,実用的には重要 - RLVRは何を達成しているのか? → 二つの仮説が対立している -- Sharpening=基盤モデルが解ける問題の正解を強化する Yue+ 2025 ← 反論 Liu+ ProRL -- discovery=基盤モデルが解けない問題を解けるように -- discovery ができると性能は急速に上がる → discovery を可能にする枠組みが研究されている - テスト時推論での強化学習 -- Best-of-N ではリグレットを使った解析で,よい階への収束が示せる -- 推論時スケーリング:学習より推論に計算した方が性能がいい - 深層基盤モデル×強化学習の課題 -- 報酬ハッキング=敵対的に報酬を利用して意図しない行動を起こす → 検証も難しい --- 冗長バイアス=LLMで長い文が生成されてしまう ← 長い方が利用者が好む内容が含まれやすい --- コーディングのバグ=人間が見つけにくいバグは報酬がない ← 人間が見つけにくいバグが入ったコードが出やすい -- より制御されていない環境での動作:エージェント推薦とか -- 安全性 ← 実運用での安全性 -- 理論的考察 ← 特殊な場合の現象と,一般的な現象かがわからない - TRL https://github.com/huggingface/trl などを使うと実装は簡単 * チュートリアル2:拡散モデルのこれまでとこれから [#nae8d657] 石井 雅人 (Sony Research Inc.) - nnablaデープラーニングチャネル https://www.youtube.com/@nnabla - MMAudio 動画にあった音を付ける - 拡散モデルという生成モデル:三つの側面 → 逆拡散過程,スコアベース生成,微分方程式の初期値設定 - 生成モデル:潜在変数をモデルに通すと画像が生成される -- 全体を生成するのは大変 → 拡散モデルはあるノイズに応じて分割する -- 拡散モデルは最終段階から逆に拡散させることで学習を容易に - 逆拡散過程:denoising diffusion probabilistic model -- 拡散過程:t-1 の点を,ガウスノイズの分だけずらして t の値にする -- 動かす量が小さければ逆向きの変換もガウス分布になるので計算が簡単 - 生成データの分布 pθ(x) をデータの分布 p_data(x) に近づける → pθの負の対数尤度の p_data(x) についての期待値の最小化 → 上界を最小化 -- 計算していくと,逆過程の平均は最小二乗で計算 -- ノイズの幅はモデルから予測(?)して画像を少しずつ復元 - 逆拡散過程は低周波成分から順番に生成される → 特定のデータに類似したデータの生成 -- 条件付き画像:参照画像に適当なノイズを加える → 逆生成過程を適用 - スコアベース生成 noise-conditional score network -- スコア=対数密度の勾配,勾配にしたことで,密度の正規化定数は消える -- ランジュバン動的システム=MCMCの一種 x_t+1 = x_t + δ {スコア(x_t)} + √{2 δ} ε -- データがないところのスコアの推定が問題 → ノイズを加えて分布を平滑化して学習しやすく -- スコア ∇log(x_i|x0) の2乗誤差を最小化して学習 → 正解のスコアは x0 からのノイズの量と等しくなるので,その推定値に合わせていけばよい - スコアを制御すると,生成時に生成されるものを変化させられる -- 条件あり生成に必要なスコア=条件 y の下でのスコアで計算できる ∇_x log p_t(x | y)=∇log p_t(y | x) + ∇log p_t(x) -- classifier free guidance - 微分方程式の初期値問題 -- 時間を連続にすると,標準ウィナー過程に → その初期値が生成したい画像 dx = -1/2 β(t) x dt + √(β(t) dw -- 連続時間の逆過程 dx = -β(t) [ -1/2 x + ∇log p_t(x) ] dt + √(β(t) dw --- スコアは学習済みの拡散から推定できる -- 逆過程と周辺分布が同じ過程は他にもあって,生成する意味では佐羽内 dx = -β(t) [ -1/2 x + ∇log p_t(x) ] dt --- 確率的に振る舞う項を落としても大丈夫 → 確定的な挙動の常微分方程式になる -- 拡散過程だと時刻の幅一つ分に依存して誤差が決まるが,常微分方程式なら複数時刻をつかった数値解法で精度を向上できる -- DPM-Solver:常微分方程式系の解法,2次近似 -- スコアではなくフローを合わせる方法もある - 拡散モデルのこれから -- サンプリングの高速化 --- 傾きを推定しているので,時間幅が広がるとと性能が下がる → consistency model(終点を直接予測),フローマップモデル(適当な時刻での値を予測) -- 離散データへの適用:テキストとか --- ガウスノイズが使えない → 一定確率でマスクトークンになる,他のトークンになる -- 推論時スケーリング -- アライメント・アンラーニング - 推薦書 -- the Principles of Diffusion Models from Origins to Advances, Chieh-Hsin Lai 他 -- コンピュータヴィジョン 一人称ビジョン拡散モデル * チュートリアル3:AIに関する著作権の基本と、AI研究者が注意すべき問題、今後の課題 [#t78e0c32] 柿沼太一 (STORIA法律事務所) - プレイヤー:開発者,サービス提供者,利用者 - フェーズ:開発・学習段階と生成・利用段階で法的には議論が分けられている - サービスの提供形式:クラウド,ローカル - AI著作権:文化庁「AIと著作権…」,内閣府知財戦略推進事務局「中間とりまとめ」,経産省・総務省「AI事業者ガイドライン」 学習済みモデル生成のための既存著作物の利用 - 著作物の例外規定:30条以降10個以上が列挙 -- モデル学習=30条4第2号 - 学習で使えない状況 -- 学習の目的による制限:表現出力目的=学習データと同一のものが頻発,作風出力目的=作風自体は表現ではなくアイデアとみなされるので著作権法の保護対象ではないが,どこまでが作風かはあいまい 海賊版などの権利侵害複製物 - あとから海賊版とか → 適法にアクセスしたというのが海外の判例,日本は知ってやるのはダメだが,後から分かった場合は再学習まではしなくてよい(適法とは明確には書いてない) 学習禁止が付されている著作物 - 著作権侵害にはあたらない,学習禁止と記されているだけでは契約にはならないが,契約書などを交わしている場合ではダメ robots.txtなどで禁止されているとき - 欧州などではダメ - 日本でも無視すべきではないというのが通説(?) - スニペットなどを対象とした47条は適用されない - コピーコントロールを破るのはダメ,別途保護条項がある データ集合の公開 - 学習のために使う限りは適法 - 表現として使うために公開するのは違法 学習済みモデルの公開 - そもそも複製ではない - 元データが復元できるような,意図的な仕組みがあるとダメ RAGのための既存著作物の収集・蓄積 - 類似は出してはいけない RAGで類似物生成 - 類似物を作るのはダメ アメリカの訴訟 - アンソロピック訴訟:フェアユースだが,海賊版はダメ -- 正規に買って電子化したものはOK -- AIの出力が,創作的表現と似ている訳ではないのでフェアユースが認められた -- 和解基金を拠出し,金銭補償で決着 - メタ訴訟 -- 元が海賊版 -- 海賊版かどうかは問わずに,娯楽や教育のために読まれることとは違うとした -- 市場に与える影響は大きいと判断, -- フェアユースを肯定 日本の訴訟 - 読売新聞社 vs perplexity -- 21億円の賠償 -- 朝日新聞,日経新聞が続く -- 記事に類似した回答を送信したことは著作権侵害 --- RAGとして収集することはいいが,類似物生成が問題 -- 広告収入を減らす営業権侵害 準拠法の問題 - 著作利用者の国籍が日本なら日本の法律が適用される -- 複製をどこでやるのかが問題 -- 海外サーバのときは,はっきりしない,両説あり 使うときに気を付けること - ライセンス -- ライセンスは許す行為と義務が記されている -- CCライセンス(画像とか),ODCライセンス(データベース)OSSライセンス(ソフト) -- 研究成果公開のライセンス設定,元のデータのライセンスを遵守 --- データ集合:ODCライセンスが望ましい,モデル:OSSライセンス,学習済みパラメータ * チュートリアル4:AI研究を支える計算基盤 [#vcc2705a] 菱沼 利彰 (SB Intuitions株式会社) - https://x.com/Hishinuma_t - Googleなどははトップ500には入っていない → 密結合マシンでする行列演算とかはやっていない - 数千GPUだと人間が管理するのは難しい -- 1万を超えるのは最低限で,5万GPUでないと世界レベルの勝負はできない - ML/AI に,HPCは心血を注いでいる → ソフト・ハードが変化が早く使う方も大変になってる 計算機の基礎 - 動作周波数は90年代に上げても性能は上がらなくなった - 性能向上:コアを増やす,演算器を増やす=データのロードもあるのでむやみに増やしてもダメ,復号命令(FMA)=複数の演算をまとめて行う,SIMD=1命令で配列要素などの計算ができる -- 2010〜2017年のIntel:simdやFMAを毎年2倍増やす力技 - GPU:コアは多数(streaming multi-core 内で同じ演算,A100だと108個) - コア数,FMA,演算器は勝手にソフトとハードがやってくれる → SIMDの管理が大変 - SIMDはレジスタに対して沢山データを入れて,複数データに対する特殊命令を出す -- 低精度にすると,メモリに沢山データが入って早い -- 精度が混ざっていると速度が上がらない問題がある - OpenBLAS:アーキテクチャの細かな違いに対して細かな対応が必要 - AI時代が来たことによる計算機の影響 -- ムーアの法則は業界の目標のようなもの -- AI時代でテンソルだけの専用になってきた,TPU:低精度ユニットとメモリが増えた → FLOPSの単位がおかしくなってきた --- 行列計算をする限りは,ソフトの開発は楽になった -- GPUのメモリが必要 → 電力消費が増える → 水冷 - ASIC/カスタムチップ:Googleは行列専用マシンを構築した -- AWS=Inferntia/Trainium,Meta=MTIA,MS=Maia - 各社のGPU -- GPU (NVIDIA)=CUDAコア数は増えてるが,Tensorコア数は増減がある -- GPU (AMD)=コア数重視 - Pipeline Parallelism → GPU間のデータの移動が必要 -- GPU間の接続でCPUを介さずにCPUのバスで転送=GPUDirect -- GPU間専用バス=二つのGPU間のNVLink(PCIe は遅い)NVSwitch=多対多のGPU間 -- InfiniBand=内部バスを外部に延長する複数ラック間の通信 -- NVIDIA SHARP=スイッチを通るときに計算する