#author("2023-06-09T06:29:42+00:00","default:ibisforest","ibisforest") #author("2023-06-11T02:39:48+00:00","default:ibisforest","ibisforest") * 人工知能学会第37回全国大会 [#v4aeb556] - このページはしましまが[[人工知能学会全国大会2023>人工知能学会全国大会#JSAI2023]]に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください. - ホームページ: http://ai-gakkai.or.jp/jsai2023/ - 日時:2023年6月6日(火)〜 6月9日(金) - 会場:[[熊本城ホール>https://www.kumamoto-jo-hall.jp/]] + オンライン #contents * 6月6日(火)1日目 [#zcc3daaa] * 機械に(人間の)知能を与えるというのはどういうことなのか [#zcf65ad5] 津本 周作1, 2 (1. 島根大学) - 参考文献:連合野ハンドブック,前頭葉のしくみ - 高次の意識をもった動物にとって,過去は「想起」によって,未来は「想像」によって構築される頭の中の産物 - 主張 -- 過去脳・現在脳の機能はある程度,計算機の上に実現できている -- 未来脳の機能はまだ不十分:手続き記憶の記憶,手続きの実行への価値判断 --- 辺縁系・小脳にもある強化学習や教師あり学習を,実際に記憶に定着定着させることと,その記憶を想起する機能の実現 - 神経系の研究:動物実験,画像検査,神経内科 -- DTI(拡張テンソルイメージング)=神経繊維束が分かるようになった - 視覚:where経路=頭頂連合野,方向・位置,what経路=上側頭溝,形・色 → 深層学習でもモデル化している -- V2(線を認識)→ 文字全般に読めなくなる,頭頂連合野 → 漢字だけ読めなくなる -- where経路に障害 → 服の着方は分かるが,行動としては着れなくなる - 言語処理:視覚同様に複数の経路が存在している - 未来脳:前頭葉 -- 前頭葉の障害→物事や行動を計画し,順序だてて行えなくなる→前頭側頭型認知症 (FTD) -- 時刻表的行動:ある時間に何か行動しなければならないと強く思う - 前頭前野:執行機能=自動的過程と制御過程,習慣を上書きする行動,制御的過程を自動過程に -- 階層的な記憶の形式=前の上位のものほど恣意的で抽象的 - 内側前頭前野=デフォルトモードネットワーク - 腹内側前頭前野 - 眼窩部前頭前野=主観的価値の形成と自己を巡る価値の記憶,報酬に基づく価値判断 - 脳内の予測誤差モデル=大脳皮質⇔扁桃体=脅威予測,基底核=報酬予測,小脳 -- ドーパミン・アドレナリンが関係して強化学習の機能を実現 - 海馬=手続き記憶(スキーマ)の学習と記憶 - 前頭葉の機能の機能実現には多数の連携機能が必要であるが,学習の機能が巧妙に埋め込まれている - 論理的思考=論理的思考のみが欠落するような症状がないため,解明が進んでいない * アートにおいても敗北しつつある人間〜人の美意識もAIにハックされるのか?〜 [#z5ed5a6e] 中川 裕志、武田 英明、大屋 雄裕、高橋 未玲 ** 描くのどの部分が創造的なのか? [#e40025ea] 荒牧 英治 - 描画のテクニックはいかに機械的に描くかを追求してきた → その延長が画像生成 -- 写実はモデルを見て描く,想像で描くな - 人間が描く意味は → そうすることが好きである ** 人の美意識もAIにハックされるのか? [#aad5cd96] 中ザワ ヒデキ - 人工知能美学芸術研究会,NPO法人AI愛護団体 - プロンプトによる自動生成 → 19世紀の写真機と同じ衝撃か? - 写真 -- 肖像画家を駆逐・写真家の登場 → 実用 -- 抽象美術の誕生 → 純粋な芸術 - 生成AI -- クライアントの依頼によるイラストは代替 -- 新たな芸術の誕生,コンセプチュアル・アート(コンセプトアートとは違うもの) - この先,美意識と自意識のあるAIの登場したら -- このときは芸術の終焉 -- 自らの価値関数と,生成作品に著作権を認める状況 - LaMDA騒動:LLMに意識があるように見える -- 中動態=受動態と能動態の中間状態 → 集合的に動かされる ** コンテンツ産業で活用あれる生成系AIの事例とビジネスの展望 [#l2da048b] 高橋 ミレイ - ゲーム産業の生成AIツール:2Dが図,3Dアートワーク,アニメーション,レベルデザイン・ワールド -- Robloxのクリエータツール,ユーザが作ったゲームの収益化プラットフォーム → 参入障壁の低下 -- Musiioのメタデータ自動割当AI → 音楽のジャンルやムード -- Endel 睡眠用や集中を高めるなどの目的に応じた音楽の生成 ** 法・哲学の観点から [#qcdb0883] 大屋雄裕 - 因果関係は検証可能だが,正当化は検証できない -- なぜアート → 自己首長による価値基準を,社会に受容させないといけない -- 法もその正当性を受容させる点ではアート - 例示と反復で価値判断を習得させてきた → 結果だけで価値判断を習得できるか? - 著作権法 -- 著作権法は表現のみで,アイデアは保護しない -- 表現者以外に関係者がいる場合 → 代表に権利を認めて,あとの分配は代表者に任せる ** 画像生成AI,Midjourneyを使ってみて [#gf078a49] 中川 裕志 - Midjourney には得意不得意がある -- 「くたびれた初老のおじさん」はなかなか書けない -- 白い背景で左上隅から右下隅に1本の線を引く といった記述的なものはできない - 拡散モデルは,元画像にノイズをのせる → 元画像がないとできない -- 著作権法30条4における享受性(作品としてみるもの,背後に写りこんだりは享受性がない)の解釈 ** 画像生成AIと社会とのかかわり [#ce7283df] 武田さん - AIに対する恐怖:AI人類脅威論,AI革命による社会秩序の変化,AI偽実の害毒 - 自動運転で運転手の失業は話題にならない ⇔ 文書の自動化は話題になる → なぜ - ラッダイト運動,赤旗法 → 出現した技術は必ず使われる - 人が絵を描く理由:表現の発露,良いさくひんを作る,報酬・名声,コミュニケーション,自らの技術向上 - 生成AIの社会での課題:学習データの権利,データ選択の創造性,入力の偽実,出力データの権利・ビジネス,モデルの権利・ビジネス ** 討論 [#c4dab5bf] - これを芸術と認めなければこの先,残れないと思わせる -- 第2次世界大戦前はアメリカはヨーロッパの芸術ほど認められていなかった → 社会などいろいろな価値に影響するものがある → AIの生成するものにも同様のことが起きうる - NPC同士の会話で自己学習 → そのうち何らかの価値観が生じるか → 価値観の定義はなく,結局は相互承認 * 生成AIに関しての特別企画「日本は生成AIを起爆剤にできるのか?」 [#le607f3d] - https://www.youtube.com/live/0HVrF2j7ILA?feature=share - 生成AIの技術革新の貢献は? - ChatGPT を追い越した生成AIとは? - 高度生成AIを作ってどうなるか? ** 栗原さん [#j5580392] - 創造支援,効率化ツール,大規模生成AIをインフラに - シンボル記述からプロンプトへの変換して制御しやすく,エージェントインタラクションからの大規模モデル - 知能の担い手をAIに ** 医療における可能性 [#j5833707] 津本さん - 多くのマルチモーダルな医療情報を統合処理できる→文書作成,医療情報の要約 - モデルを使った推論機構 - 簡単な事例でのAI対処 ** 松尾さん [#f3c69b20] - AI戦略会議:2回の会合でまとめを作った - 社会的リスクへの対応,LLMへの計算資源提供,LLMの活用 - LLMはマルチモーダル情報を扱うように,行動を陽にモデル化,ネット上の情報を使い切って学習データの飽和 - 現状はキラーアプリではない→10兆円事業への貢献,みんなで使って工夫する ** ロボットの観点から [#m0dc10a2] 稲邑 哲也さん - PaLM-E:映像と言語からのプランニング,RT-1:映像・言語からプランニングし信号生成まで - RobotCup@Home:GPTの利用で急速に向上,Human Navigationタスクは容易に解決 - Worldモデル=モデルベース強化学習で使う - 課題:データの構築コスト,ロボットの形状にモデルが依存してしまう, ** 相澤さん [#n7249e79] - 半年で,NLP研究がビッグサイエンスに変化した - 再現性ではなく社会環境下での動作重視,観測できない理想状態に対するバイアス - GPT4は日本の医師国家試験に合格レベル(レベル自体に驚きはない)→ 日本語は人間が見ても分からないトークンとして入力されるが,正しい結果が出てくる理由 - 喫緊の課題に取り組む,人間の認知機構の解明,中身を解析できるようにする環境整備 ** 計算社会科学的視点 [#wc80b1e2] 鳥海さん - 生成AIは,情報の活用の効率化→言語の壁がなくなる - 生成AIは要素技術→システム化,社会システムの中で動作するように - 人間の意思決定支援,自分より賢いシステムによる価値観の変化 -- 将棋AI:すごい手を思いつく天才→AIの手を間違えない天才 ** 人類との共生を自ずと目指す超知的デジタル生命体をつくり出す [#q7f42fd3] 山川さん - 万人の幸福と人類の存続の間のトレードオフの緩和をAIが行う - AI Alignment:AIのリスクを軽減する取り組み - 計画的な超知能の解放 * 6月7日(水)2日目 [#z9cca9dc] * 人工知能とトラスト [#o295149c] 福島 俊一、上村 健、相澤 彰子、有村 博紀 ** デジタル社会における新たなトラスト形成 [#ua658ec5] 福島さん - トラスト=リスクがある中で,相手が期待を裏切らない - 論点:出力の信頼性,ブラックボックス,人間とAIの関係 - トラストのモデル -- trustee の特性を観測して truster は trustworthiness を判断 -- 社会受容など最後は主観的なものになる - トラストの3側面:対象真正性=本人か?,内容真正性=内容が正しいか?,振る舞い予想・対応可能性=反応が予想どおりか? ** インフォデミックを克服するソーシャル情報基盤技術 [#h0405b2f] 越前さん - 画像・動画生成の精度が向上している - インフォデミック=社会に恐怖や混乱を引き起こす不確かな情報の氾濫 -- メディアクローン,プロパガンダ,敵対的サンプル - 脅威への対処と,合意形成支援 - 課題:符号化ノイズ対処,新たな生成手法,ファクトチェック ** 納得感のある人間-AI協調意思決定を目指す信頼インタラクションデザインの基盤構築と社会浸透 [#se801b0b] 山田さん - AIも間違う → 精度向上,間違いの説明,○間違いを前提とした利用法の確立 - 信頼校正AIを使った人間-AIの協調意思決定 ** 脳情報に基づいたAIの信頼性評価技術の開発 [#b81cfe12] 西田 知史 - AI生成物の魅力度が,実在か生成物かの教示で変わる → 先入観の影響,脳領域の観測 - 脳応用AI → NNによる脳活動の予測を通してから意味情報を予測 → 一種の脳シミュレータ - 脳融合の利点:予測精度が向上する場合がある,個人差の反映 ** AI 応用システムのトラスト関するに社会調査 [#u2b7c9e7] 中川さん - 専門家と一般でのトラストの度合いを分けて調査 - 医療診断チャット,診断・手術真,AIトリアージ,政策決定支援,裁判支援,再犯予測 - 再犯予測:政策関係の専門家は政府や地方自治体職員 -- 専門家は実際に判事などの立場で,一般人には被告人の立場で -- 専門家の方が好意的,個人とってよい決定をするなら良い,社会の利益になるなら使ってよいと考えるのは専門家の方が好意的 - 全般的に専門家の方が内容を知っていることが好意的な原因とすれば,積極的な社会への説明は有効だろう ** 情報社会における社会的側面からのトラスト形成 [#k0d6d6f8] 湯淺 墾道 - インターネットによるトラストの喪失 - サイバーセキュリティ法制度 -- 日本は,プライバシ,知的財産,重要インフラを重視,ディスインフォーメションなどはない - 政治・選挙の例:国家のナラティブへの介入,偽情報⇔知る権利,政治的意思形成:民主主義の否定を禁止⇔大衆の排除 - 輸出規制は,個人情報やデータ規制 -- 日本は DFFT という自由流通と経済安全保障でねじれている - 日本の法律の制定にあたっては,委員会の8割は法学者が占めて,それ以外の技術面などの知見が反映されえいない * 中央銀行や金融業での人工知能,機械学習の活用 [#p763f9d7] 副島 豊1 (1. 日本銀行金融研究所 → SBI金融研究所) - AI/MLによる変化 -- 銀行機能は必要だが,銀行は消えてなくなる,1994年,ビル・ゲイツ -- Software is eating the world,マーク・アンドリーセン -- 銀行は銀行でなくなる,副島さん,2017年 -- Central Banking as a service, 黒田総裁,2021年 → 銀行が提供したAPIを利用したアプリ (BaaS, embedded finance) - 金融ビジネスモデルの変化:売買や事務などオペレーションの自動化,ビジネスモデルの変化 -- IT技術を知らないとビジネスを創出できない - 高粒度データ(個票データなど),高頻度データ(ミリ秒単位)→ データと共に利用される手法も拡大 - 日本銀行でのオルタナティブデータへのAI/MLの適用 -- データ分析は2000年ごろから,高頻度・高粒度データは2010年あたりから -- 実体経済調査:センチメント,ナウキャスト(確定値の予測) -- 市場調査 - 日銀でのAIの初期,1996年に3層NNによる分析を行ったが,注目されなかった - 位置情報データ:コロナ以降に,娯楽施設利用状況などの調査,経済指標のナウキャスト - テキスト分析:単語の共起,景気動向調査からの物価予測,有価証券報告書からの将来業績の見込み予測,景気判断の極性分析,日経の記事からBERTによる因果関係のナラティブの形成分析 - ネットワーク分析:国債レポ市場,店舗の立地戦略を営業基盤と競合度で分析 - リアルワールドにいかに肉薄できるか?→モデルの妥当性,経済学や金融理論の再構築 - エージェント間の相互作用によるリスク(フラッシュクラッシュ),複数市場間にまたがるエージェント,システム間の相互作用 - 課題:現状の把握 + 対策をどうするか:ネットワーク分析,シミュレーション,エージェント・シミュレーション,ストレスシナリオ - 金融業でのAI/MLの活用 -- 金融理論や解析手法の応用:パターン認識が確率過程モデルからMLに - 自律エージェントのモデル化:ヤッコーにならないために,観察事実とのすりあわせ - 人工市場:JGB先物市場の注文突き合わせルール変更に伴う混乱→シミュレーションによる検証 - イギリスの民間での利用 -- MLは実用化され,ノンバンクの与信判断では必須 -- 顧客サービス,リスク管理,コンプライアンス -- 開発の内製化が進んでいる,決済サービス企業で顕著 -- 分野:与信,保険プライシングと引受,データマネジメント,詐欺対応,マネロン他作,売買取引,顧客確認 - 新結合(シュムペーター) -- 決済プラットフォーム + 決済を使うサービス,マネーを価値を運ぶものから情報を運ぶものへ -- ネオバンクの戦略:オープンAPI,個人データの収集とマネタイズ - 日本の金融機関の活動『金融AI成功パターン』 - DXの推進 -- 開発内製化のスキルセット:金融業務の現場知,システム構築スキル,データ分析スキル -- 課題:効率と公正のトレードオフ,プライバシー * コンピュータサイエンス・人工知能分野における多様性・公平性・包摂性 [#cce6a532] 高野 雅典 ** 特定非営利法人Waffle [#c77caa51] 斎藤明日美(Waffle) - 教育と政策提言,科学技術の発展に「女性の存在が」抜け落ちている - 女性理系は,学年を進むごとに減っている -- ポジティブな認知を与える → 大学から大学院のようなステップで居場所を作る - アメリカの事例:EECS,Grace Hopper Celebration,入門授業の多様化 ** D&I at Mercari [#s8d36b34] Juan D. Garcia - メルカリ,2018に Diversity & Inclusion の重要性 -- IT業界では男性が労働市場で優位,Inclusionの促進(言語学習,無意識バイアス研修) - D&Iの目的:あらゆる価値の循環と可能性を広げるというミッション実現のため -- UXの向上 + 社員のポテンシャルの発揮 - 当事者を巻き込む:経営陣と社員が行う定例会議 - 結果の平等ではなく,機会の平等を達成する施策 -- 候補者プールは目標を定める,社外で育成プログラム * 6月8日(木)3日目 [#k575a809] * 解釈可能な機械学習 〜 説明は人のためか? [#z26e783b] 吉川 友也 解釈可能性の必要性 - 機械学習に説明性を求める原則が定められている -- 特徴の影響の説明をここに - 局所説明=ある予測結果の説明,大域説明=モデルの説明 - 事故説明=モデル自身が説明機能,事後説明=後付けで別のものが説明 - 因子型=特徴による説明,事例型説明=類似した事例による説明,知識型説明=外部知識を利用,反事実型説明=もし○○だったら結果が変わった - 因子型の局所説明:表形式データの特徴,画像データの領域,テキストデータの単語 - 説明の役割:信用の獲得,高リスクな意思決定の補助,モデルのデバッグ,不公平性への対処 事後説明機の例 - 事後説明機 (post-hocc explainer)=学習済みの予測に後から特徴の貢献度を提示 -- モデルからどのような情報が得られるか? 結果のみ,内部状態の観測,パラメータの勾配 - 長所=予測モデルをそのまま利用可能 ⇔ 短所=計算量が大きい - 摂動に基づく方法 -- LIME (local interpretable mdoel-agnostic explanations) -- 入力特徴の一部を無作為に摂動 → 出力の変動を観測 → どの特徴を変更したかを変動量で重み付けした線形回帰で求め,その回帰係数を特徴の影響力とする - 勾配に基づく方法 → -- integrated grad -- 入出力の関係から勾配を計算→変動が細かすぎてよく分からない -- 線分上の勾配の積分値を使う - クラス活性化マップに基づく方法 → 領域ごとにまとまっている -- CAM (class activation mapping) -- global average pooling (CAP)=CNNの畳み込み出力を全体の平均をとるプーリング → そのあと全結合で予測 -- 画素の貢献度がプーリング出力を重みとする荷重和で荒らせる(?) - GradCAM:内部の勾配を計算することで,CAP出力を観測できる - オクルージョンに基づく方法 -- 画像の一部をマスクして,出力の変化を観測 → 出力の変化で加重したマスクで画素の影響力が分かる - 注意機構に基づく方法:attention roll-out - 速さ:LIME, integrated grad < オクルージョン < GradCAM - 説明の定量評価:利用者行動の受動的観測,タスクを設定した被験者実験,オフラインテスト - faithfulness / fidelity=予測モデルの説明が忠実か,stability=近傍事例に対する安定性,consistency=同じ入力に同じ説明になるか,compactness/sparseness=説明の簡潔性≒貢献度の非零成分の少なさ - 自己説明可能な予測モデル -- 予測モデル自身が特徴の貢献度を予測できる ⇔ 精度低下の懸念 - self-explaining NN (SENN) -- 埋め込みを計算するコンセプト変換器と,埋め込みの各次元の関連度を求める関連度変換器を備える → 埋め込みを関連度で加重した和で予測し,関連度が説明になる - 説明による正則化付き予測モデル最適化 - explanation-based optimization (ExpO) -- 入力 x の近傍点から計算する貢献度も正確に計算できるように,同時に貢献度計算器も - 上記の手法は,手法自体は説明の忠実性に注力しているので,人が登場しない → human-centered XAI - 説明の教師データ -- 説明が貢献しているかを人間が判断して教師データとして与える - 説明の教師データの貢献度になりやすい正則化項として与える - 不要特徴をマスクした出力とそうでない出力が一致するようにする - パラメータ化説明期 -- 訓練事例全体を反映した貢献度予測器を別途加える(?) - AIに説明して,モデルの改善を目指す -- パラメータ化説明期の不一致を減らすように蒸留する - 説明の悪用 -- model inversion attack:説明を利用して元画像を復元する -- inversion-resistant explanations:復元を妨害するように説明に摂動を加える - n-context learning -- プロンプト(少数の回答例やヒント)に対するLLM出力の改善(?) - 説明の注意点 -- 説明が予測モデルの挙動を反映しているわけではない -- 説明が人間にとって分かりやすいとは限らない -- 予測モデルの性能を低下させる場合がある -- 悪意ある利用も可能である * 理化学研究所 革新知能統合センターの取り組み [#nb19d2b6] 杉山 将 - 外乱の存在下で信頼できる機械学習 -- 教師情報が不十分,雑音,バイアス - 不十分な教師情報 → 弱教師あり学習 -- 正とラベルなし,正例に信頼度がある,ラベルの比率情報,事例間の類似情報 - 正とラベルなし分類の音響信号強調 -- 対になっていない雑音あり信号と雑音を利用する - ラベル雑音の補正 -- ラベルの遷移行列を,人の認知バイアスを活用して推定 - 転移学習に利用する密度比の推定 - 学習の最適化の途中での,学習規準の適応的更新 - 日本独自の生成モデル:日本の事情の反映,内部の解明 - AI研究:日本は世界と違って,AI自体ではなく,AIを使ったことが重視されてしまう * [3L5-GS-11] AIと社会 [#i6870d15] ** [3L5-GS-11-01] Explainable SayCan 大規模言語モデルを用いたサービスロボットの説明性 [#z148a6fb] 〇日紫喜 祐也1、長井 隆行1,2 (1. 大阪大学、2. 電気通信大学) - 言語モデルを使った指示に対するロボットの行動理由の説明 - 選択肢の曖昧さ,自身の観測情報,実行可能な行動を内部状態に基づいて説明する ** [3L5-GS-11-02] 説明可能性がエントリーシート選考におけるAIへの信頼に与える影響 [#dcc04317] 吉野 綾華1、行武 香音1、村澤 莉依1、松田 夕季1、〇中島 一実1、奥畑 大和1 (1. 同志社大学) - エントリーシート審査にAIが利用されているが,アルゴリズムに対する不信感 (algorithm aversion) が生じている - 判断基準の悦明をするかどうかでRCTした聞き取り調査 → 有意差はなかった ** [3L5-GS-11-03] 文章分類モデルの不確実性に基づく人間によるデバッグ手法の提案 [#kb84dd6b] 〇太田 真人1、ファイサル ハディプトラ1 (1. 株式会社 電通国際情報サービス) - レビュー文の極性を,精度改善をドメイン専門家ができるように - 予測の不確実性が高い分類境界面の事例を人間に修正依頼 - 100文書→500文書に拡張,データ数が増えると効果が見られなかった ** [3L5-GS-11-04] 極値理論を用いた顕著な畳み込みフィルターの発見 [#z9e94934] 〇王 朔1、佐藤 一誠1 (1. 東京大学大学院情報理工学系研究科) - CNNのどのフィルタが誤分類に寄与するかを調査する既存手法 -- 勾配が大きいとパラメータが悪そうという仮定 - スコアの正規化を異常値検出手法で行う -- Pickands-Balkema-de Hannの定理:裾の部分の割合の分布の近似定理 ** [3L5-GS-11-05] 形式的公平性規準間の不可能性に関する考察 [#h2f08219] 〇神嶌 敏弘1 (1. 産業技術総合研究所) - 見つかった規準の今後の発展の可能性 -- 残っているのはやはり実用的には意味の薄そうなものばかりだった * 6月9日(金)4日目 [#hf1834a0] * 拡散モデルによる画像生成の基礎と最新研究動向 [#pf53d07e] 石井 雅人,早川 顕生 - 拡散モデル -- text-to-image で活用(DALL-E2, Stable Diffusion) -- 画像ぼけの推定と除去,言語指示によるNeRF - 生成モデル:現実は複雑な分布だけど,サンプリングするには簡単な分布の方がよい - 拡散モデル:簡単にサンプリングできるノイズを,元画像に段階的に加える -- 逐次的にノイズを加える→時刻の概念=拡散過程 という確率過程になる -- 微少なノイズをDNNで逐次的に逆変換すれば,完全に無作為な画像から元画像が生成される - 長所:最適化が単純,多様な対象 ⇔ 欠点:遅い - denosing diffusion probabilistic models -- 拡散過程,逆拡散過程,モデルの学習方法 - 拡散過程:ε=ガウスノイズ xt = √(1 - βt) x{t-1} + √βt ε -- ガウスノイズなので,何度ガウスノイズをのせても,ガウス分布でノイズは表せる → √αt で強さを表す - 逆生成過程 -- 逆方向も,加えるノイズが十分に小さければやはりガウス分布になる → 平均と分散を計算すればよい - 学習:分布のズレを最小に → ズレをKLダイバージェンスで測って変分ベイズ -- 上界=ほぼ0の項 ー 初期値(第3項に含めて近似)+ KL距離がガウス分布間の距離になるので単純な二乗の式にできる → 最小自乗法で計算できる - U-net:階層的に違う解像度で生成モデルがある.一番下だけマルチヘッドの注意機構 - 逆拡散過程で end-to-end になっておらず,微少な差異の積み重ねの推定になっている - 拡散モデル=ある形式の微分方程式の初期値問題を解いていることと等価 dx = - 1 / 2 β(t) x dt +√β(t) dw -- 右辺第1項=時間が経つと減衰,右辺第2項=標準ウィナー過程 - データ生成のために解くべき微分方程式の初期値問題 dx = ー β(t) [ 1/2 + ∇x log qt(x) ] dt + √β(t) dw -- スコア関数 ∇x log qt(x) -- この方程式の特殊な場合が最小二乗法による推定と一致する - 確率微分方程式だが,ノイズ部分を除いて常微分方程式として解いても,周辺分布は一致する - オイラー法で解けるが,時刻の刻み Δt を大きくして高速化しようとすると,ある点で急速に性能低下 → 拡散モデルに特化した数値解法 - PLMS (PNDM):複数時刻の量を統合することで4次近似を実現 - 条件なしの生成 ε(x, t) =ー√{1 - ~αt} ∇x log qt(x) - 条件付きの生成 ε(x, t) =ー√{1 - ~αt} ∇x log qt(x | y) ∇x log qt(x | y) ∝ ∇x log qt(y | x) + ∇x log qt(x) -- log qt(y | x) はクラス分類器といえるので,クラス分類器を獲得すればよい - classifier-free guidance という方法なら,別途分類器がいらなくなる - 画像の拡散モデル:画素空間と潜在空間とがある - text-to-imageの分類:言語モデルを使う,共通の潜在空間を使う - Imagen:T5-XXL言語モデルを利用 - latent diffusionモデル:潜在空間での拡散モデル - eDiff-I:複数のテキスト情報で条件付け - UniDiffuser:画像とテキストの同時分布を学習 - SDEdit:ラフ画からの精細画像の生成 - ControlNet:ポーズ情報を条件にできる,条件と画像のペアが準備すると色々な条件に対応 - textual inversion:特定の対象を表す語を生成(?) - UniTune:特定の構図を保つ - 動画生成の方針 -- 複数のコマを画像の同時分布とみなす → データの取得が容易 -- 既知のフレームを条件として次のコマを生成 → 時間的な一貫性を保てる - 画像から動画へのモデル構造の拡張 -- 正直に3次元化すると計算量が大きい → 2次元画像に時間方向だけ処理を変える - Imagen Video:Imagen の拡張 - Magic Video:コマを個別に潜在空間に写してから拡散モデル - Align Your Latents:Magic videoの改良版 - MM-Difusion:動画→音声,音声→動画 - 3D生成:他の3Dモデルを更新,3D表現を生成 - DreamFusion:スコアの蒸留による学習 - 3DiM:撮影位置の違う画像とアングル情報から,そのアングルのモデル - Shape・E:精度を犠牲にした高速化 * 人工知能と虚構の科学 [#i0820fe2] オーガナイザ:大澤 博隆、難波 優輝、清河 幸子、西中 美和、宮本 道人 ** 概要説明 [#y93ea211] 大澤 博隆 - 動機:創作が生じている過程,AIの手助け,創作の社会への応用 - フィクションは社会のサポートになっている - H.G.ウェルズはNatureの編集にも関わる - SFはエンタメで未来予測ではない → 極端な未来予測は,広く読まれる物語にならない - AI×SFプロジェクト:想像力のアップデート - AI生成の物語:星新一賞,人狼知能 ** 人間の発想プロセスの特徴と創作における困難 [#lc7fd176] 清河 幸子 - 文章の産出モデル (Flower & Hayes, 1981) -- プランニング(組織化,目標の設定,アイデアの生成),文章化,見直し推敲 - プランニングのアイデアの生成への長期記憶の関わり -- 長期記憶の中でも,宣言的(⇔非宣言的)で,意味的(⇔エピソード的)記憶 -- 活性化拡散理論 (collins & loftus 1975) → 意味ネットの中で,何か注目した情報と関連のある情報を芋づる式にたどるモデル - アイデアの生成モデル -- 行列モデル (Brown+ 1998):入力されたトピックのカテゴリから,別のカテゴリが生じる確率遷移行列によるモデル -- SIAM (Nijstad+ 2006):手がかり→イメージ→アイデア の系列的生成 - これらのモデル:問題 に近いもの,互いに似たものからアイデアは生成される -- 今までに見たこともないものは生成されにくい ** 影響力の分散による発想支援 [#hbcbf8b4] 西中 美和 - グループワークによる発想 - SFプロトタイピング:SFはまるっきりフィクションではなく,現実との交わりがある -- 現実への適用に感情が関係することが分かった - 優れたSF:新たな現実の規範を定義できる - シェアード・リーダーシップ:創発的なチームの特性,分散した影響力 → よい結果に繋がる要因 -- リーダー型の人数を変更した被験者実験→被験者実験でリーダー一人では話がまとまらなかった,リーダー型が複数いる場合は役割分担が生じた - 分人概念(武田,2019)個人は複数の分人の重なり ** 作家の立場 [#n3189a2c] - 安野 貴博:作品『純粋人間芸術』『シークレットプロンプト』 -- ChatGPT=欧米リベラルの価値観,怒らない.人が繋がると見たくない情報も入る→ 人間が安らげる価値観にとらわれている空間をAIが作り出す -- 言語モデルは,全般的に言葉の表現力は弱いが,情景描写は優れている -- 人間の情報の流通にAIは影響を与える - 斧田 小夜:各モデルの不確実性作品『飲○止渇』『たべかたがきたない』『オルフェウスの子どもたち』 -- システムの癌化というテーマを考えた -- ソフトの進化にハードが追いついていないと考えている - 創作のためには,タネになるものを拡散させるものの方が役立つのでは? -- 収束させるのも,拡散させるのも使い道がある ** AIこそがSF格差を解消する [#lccb04e4] 宮本 道人 - クリエイター・クリエイター・クリエイター ≦ SFプロトタイピングで作った作品 - SF思考:未来のSFプロトタイピングをして,そこからSFバックキャスティングで現在にするべきことを考えることのループ - 職業消滅時代のサバイバル術ワークショップの例 -- ビジョンを適応的に変えられることがリーダーの資質に -- 希望している職種がなくなった → 夢っぽく考えている職業 → グループの人が考えている職業と共同で働く → 30年後の自己紹介 - 実直に良いものを作っているだけではSFに負ける ** サイエンスコミュニケーション [#l1d43e6f] 宮田 龍 - Neu World:SFをコミュニケーションに利用する -- 研究者のSFの共創 → 作品公開 → 作品を活用した対話共創 - コミュニケーションを促進させるツール & 社会自体のデザイン