人工知能学会 第64回 人工知能基本問題研究会 (SIG-FPAI)†
このページはしましまがIBIS2006に参加してとったメモです.
私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.
鈴木譲(大阪大学)
I(X,Z,Y) は Z が与えられたときに,X と Y は独立.
それぞれ,どのようなモデルが表現できて,どのようなものが表現できるのか.
マルコフネット†
X と Y の間に Z 中のノードが必ずある.
X,Y は Z でブロックされる <X|Z|Y>
X,Y,Z∈V の要素を確率変数に対応付け
I(X,Z,Y) ⇒ <X|Z|Y> ... D-map
<X|Z|Y> ⇒ I(X,Z,Y) ... I-map
I-map + D-map = Perfect-map
一個削ると I-map でなくなる極小 I-map がマルコフネット.
ブロックは,依存性の→が X→{z∈Z}→Y,X←{z∈Z}→Y,X→{z¬∈Z}←Y
I(F1,{M1,M2},F2) & I(M1,{F1,F2},M2) のパターンはマルコフネットはOKだが,有向非循環グラフにできないので,ベイジアンネットは無理
木構造の場合†
ベイジアンネットはノード数に比例する時間で計算できる.
クリーク(完全部分グラフ)をノードとするジャンクションツリーに変換して効率的に計算
chordalなマルコフネット:たかだか3角形のループしかできない†
ジャンクションツリーの生成が容易で,比較的計算は容易.
このchordalであることが,マルコフとベイジアンの両方で表現できる必要十分条件.
因果的差分検出手法の振舞いの検証†
村上知子 (株式会社東芝)
差分の分析†
データ集合 A と B の差分
- 複数の対象間の差分:地域別の商品売り上げ
- 時間的変化によって生じる差分:トレンドの変化
手法: クロス集計,χ2乗検定,相関ルール
因果的差分:差分が生じた原因を調べる
Causal Difference Detection using Bayesian Networks (CDDBN)†
専門家がグラフを定義→パラメター学習によりベイジアンネットを生成→パラメータの比較で因果的差分を検出
- 原因生起確率の差分,因果関係の差分 の二つの差分を考える.
- 情報量規準に基づく検出
複写機の障害診断における確率推論アルゴリズムの実験評価†
山田紀一、足立康二(富士ゼロックス)、本村陽一(産総研)
障害診断モデルの構築
- 画質トラブルを,黒点や黒スジのような11のタイプ別に,方向や大きさなどの特徴を分類
- 故障診断箇所ノードを画質トラブルノードにリンク
- 親ノードが増えるときはサブカテゴリを作る
- 故障診断箇所への,内部状態からのリンクを生成
- CPT はデータから特定.
内部状態とトラブルの症状から,交換する部分(故障診断箇所)を特定する.
ジャンクションツリーより,LoopBP は同等の予測精度で,メモリや計算量のメリット.
白鳥成彦、奥出直人(慶應義塾大学 政策・メディア研究科)
麻酔情報の提供によって手術をサポート:事前のwarining,emergencyの検出,代替案の提案
- 麻酔には多くの専門が関与する多次元処理が必要.(麻酔専門内でも複数のスタッフが関与)
- 麻酔は,時間・状況に大きく依存する動的特性 (分単位で対応すべき条件と,15分単位で対応すべき条件など時間的な粒度の差がある)
- 患者や他のスタッフの要因や,計測機器のノイズによる不確実性を扱う
- 時間幅が一定のベイジアンネットでは時間幅が一定だと表現効率が悪い
- 個人のモデルをより柔軟に表現できるべき
階層的ベイジアンネットでモデル化
細分化によって,適切な粒度でのモデリングが可能.
ベイズネット分類器による重要文書推定における構造学習の効果†
磯崎隆司(富士ゼロックス(株)研究本部)
半教師ありの学習をするベイジアンネット.
- 利用者のプロファイル,行動をそれぞれ違ったノードで表し,さらに潜在クラスノードを導入
- 単純ベイズ
- tree argumented 単純ベイズ (TAN): 単純ベイズの属性ノード間にツリー型の依存性を導入
- 修正TAN:ツリー(単一MST) ではなく複数のMSTを許す緩和
携帯電話ユーザのための映画嗜好モデル構築と映画推薦システム†
小野智弘(株式会社KDDI研究所)、黒川茂莉(慶應義塾大学)、本村陽一、麻生英樹(産総研)
個人化 + 状況依存性 + 即時性を考慮した映画の推薦 → 複数の要因を考慮するためにベイジアンネットを導入
- 構造の決定:おおまかには与える.データを使って精錬
- 各ノードの内容
- 利用者のデモグラフィックやライフスタイルの特徴や映画の視聴に対する態度
- 推薦される映画の特徴:紹介文から抽出したものと,アンケートによる印象属性
- ノードをクラスタリングしてまとめ,Bayonetで構造推定
田中隆博、金子泰敏、末吉英範、瀧川孝幸(株式会社 野村総合研究所)、本村 陽一(産総研)
デモグラフィックな特徴に加え,心理的なサイコグラフィックな要因を考慮する.
- 主観的判断を考慮するサイコグラフィックの導入背景:ライフイベントへの依存や価格の変動への依存
顧客分析の問題
- データ数などデータサンプリングの問題→1万人の大規模調査
- モデルの表現が現場には複雑すぎ,データの欠損などへの対応→ ベイジアンネットによるモデル化
保険型,貯蓄型,投資型に分けて,定性的な考察に基づきネットワークを構築.
パネル「因果モデリングへの期待」†
司会:本村陽一氏 パネリスト:植野先生(電通大)、黒木先生(阪大)、鈴木先生(阪大)
因果モデル構築のためのソフトウェア「Bayesian Discovery」の紹介(植野先生)†
- ハイパーパラメータにより利用者の事前知識を表現し,因果発見に反映させる.
- 重要な変数発見こそ重要ではないか? 変数集合の発見を中心に考える.
「因果の発見と検証に関して」(黒木先生)†
- 因果情報は物理的なモデルが分かっていれば検出可能
- causal diagram: 変数の依存性を矢印で表したグラフ.依存変数+誤差項で次の変数値が決まる.誤差項は全て独立と仮定.単によくフィットするだけでなく,このグラフが物理的な生成モデルとなっていることが重要.
- intervention:特定の変数を外的に操作できる関数と置き換える操作.interventionされた変数は確定的になり,その変数の他の変数への依存性はは無視される.
- X3 にintervention したときのX4への因果的効果(causal effect)はX1,X2による周辺化で検出する
- 因果的効果と条件付分布:X にinterventionしたときのYへの因果的効果
- Z→Y→X&Z→X では一致,Y←Z→X や Y←Z→X&X→Y では不一致
- 不一致になる基準=バックドア基準:X と Y を結ぶ道への矢線のある道(バックドアパス)の全てにおいて,合流点でないZの要素が存在
- FrontDoor 基準:(Z,Y),(X,Z)のそれぞれに対し,Xと空集合がバックドア基準を満たすようなZの要素が存在.→
フロントドア基準を満たす Z の観測値だけ調べればXからYへの因果的効果が計算できる
- joint intervention:複数の変数に同時にintervention,結合因果効果も同様に定義
- admissible condition: 因果ダイヤグラムで Xi+1...Xn に配布矢線を取り除いたグラフにおいて,(???)
- 拡張front door基準:因果ダイヤグラムで Xi+1...Xn に配布矢線を取り除いたグラフにおいて,(Xi,Y) について{Zi...Zn}がフロントドア基準を満たす
招待講演:情報統計力学の深化と展開〜情報学でも“More is different”!〜†
樺島祥介先生(東京工業大学)
モノの科学(情報科学)とコトの科学(自然科学)†
- 熱力学: 熱機関の最大効率は?
- マクロな経験則(永久機関の否定)がスタート点
- 熱効率が最大なのは「可逆過程」のとき→これを特徴付ける状態量が「エントロピー」∫dQ/T
- 統計力学
- ミクロな気体の性質からマクロな気体の性質を導く → ミクロな構成要素からマクロな構成要素を説明
- 気体分子の法則:エネルギー関数を与える
- 絶対温度 T のマクロ熱平衡状態における微視的(ミクロな)状態の出現確率が,エネルギーを引数とするBoltzmann分布で表される.
- すると,熱力学の F=U - TS (F:自由エネルギー, U:内部エネルギー,T:温度,S:エントロピー) と形式的に一致した式が導ける → 対応する S の部分 (-KΣP(S) lnP(S)) をエントロピーと呼ぼう
- 情報理論
- 一意に復号可能な符号で平均符号長を考えるとその上限は,熱力学のエントロピーと同じ形式の式が出てくる.→ この上限もエントロピーと呼ぼう.
More is differnt (P.W.AndersonのScience(1972)の論文) という視点†
- 自然の階層性 素粒子→原子→分子→細胞→器官→生物→
- 下位階層を支配する法則が明らかになっても,上位階層の集合体の振る舞いが説明できるわけではない
ーーー 予言力の高い法則は階層ごとに異なる.下位→上位を導く研究も基礎研究
- モノの科学には「量が増えれば(階層があがれば)質が変わる」という漠然としたコンセンサス → こうした感覚を情報科学にも取り入れる
例:磁石のモデル
- イジングスピン Si=±1 で表す.これらのインタラクション 伏見-テンパリーモデル ( H(S)=-J/N Σ Si Sj ).
- これは,磁石になるか?→対称性により磁石にはならない
- ここで more is different.大量に集めると磁石になる.
- 少数の自由度では:確率的(ボルツマン分布) ⇔ 大自由度極限では:決定論的 (自由エネルギー)
- 予期しない現象の創発 [ 対称性の破れ → 不連続性が生じる ]
- 少数のマクロ変数にカンする自己無撞着法廷手引き帰着される
情報学における more is different†
- CDMAマルチユーザ復調問題:複数の端末と一つのアンテナの通信
- 端末は,自身の乱数で復調してアンテナへ.
→アンテナでは複数の信号+ノイズを受信.
- 復調問題:利用者の乱数と受信系列から,各利用者の元の信号を復元する
ビット列なので,線形方程式では解けず,離散最適化になりNP困難
- そこで,個々のビットはベイズ的に推定する.確率的な基礎法則
- more is different になって,100個ぐらい集めると,決定論的に復号ができる.
オーガナイズド・セッション「確率モデルと集団最適化」†
赤穂昭太郎(産総研)
- 複雑な関数 (探索範囲が広く,局所解は多い,関数形は未知) の最適化.→ 基本的にはランダム探索
- ボルツマン分布:pT(x)=1/ZT exp(-f(x)/T) を使って,ちょっと賢いランダムサンプリング
- 正規化定数の ZT の計算は大変 → サンプリングは無理? → MCMCを利用
- MCMC: 候補を確率的に生成 & 確率的な採択
- 全体の分布は不要で局所的に計算可能.収束性の保証 ⇔ MCMCは遅い
- 測度面の工夫:提案分布,温度パラメータの工夫,集団の利用
提案分布での工夫†
- 探索の広さ (exploration) ⇔ 採択率を上げたい (exploitation)
- 温度パラメータの工夫
- 温度は対数的に下げると理論的にはよいが,それでは遅い
- 集団の利用
- MCMC の集団拡張→一般化:マルチテンパリング法
- マルチテンパリング法:違う温度で複数のMCMCを実行 & 個体の交換
- 共通部分が多い
- 重点サンプリング:目的 p とは違う分布 r でサンプリングすると w(x)=p(x)/r(x) の重み付平均がp(x) の期待値になる
- 再サンプリング:w(x)に従って再サンプリングすると,p(x)の期待値が計算できる.
- 選択:p(x)に従ってサンプリング
- 突然変異:q(x'x)で個体を移動
- 交差:(?)
- 学習による構造獲得:
- pT(x) は全体のモデル化 (平均場近似)
- pT(x) の値が大きいところのモデル化 (EDA):最適解がありそうな部分でのサンプリングが重視される
関連研究†
「確率的学習と進化論的手法の統合」†
伊庭斉志(東大)
GAの構成要素:集団による多様性維持,選択,交差と突然変異にようる遺伝子の置き換え
GAの長所・短所
- 長所:並列化,事前知識が不要
- 短所:変数間のinteractionを考えられない←交差,突然変異
- GA: 交差や突然変異 → EDA: 確率分布の推定と再サンプリング
- アルゴリズム(UMDA):分布に従ってサンプルを生成→目的関数を考慮してサンプリング→分布の再推定
確率分布のモデルと更新規則の違いでいろいろな種類:UMDA, PBIL (Population Based Incremental Learning), コンパクトGA
EDP†
GA→EDA から GP→EDP
- プログラム木を表す
- PIPE: プログラム木の各ノードの要素を独立に決める
- 独立に決めるとまともなプログラムにならないことが多いので,部分的な依存性を考慮する方法がいくつも
- 確率文法を用いてプログラムを生成:GMPE
オーガナイズド・セッション「自然言語とゲノム言語への統計的アプローチ」†
「ゲノム言語と確率モデル」†
浅井潔(東大)
- 自然言語: 構文解析は,背景や文脈が明確でないと実行できない
- ゲノム言語: コドンからアミノ酸への変換は分かっているが,プロモータやexon/intronが分からないので,解釈は難しい.
ゲノムの構造:promoter→TSS→start codon→{exon→5'splice site→5'splice site→intron}*→stop codon→poly site
- ほぼ自然言語解析と似ている:ただし,1文字違うと全く異なるタンパク質ができるので,精度への要求が違う.
その後は:mRNA→タンパク質の一次構造→立体構造→転写を制御
- ncRNA (non-coding RNA) タンパク質に翻訳されないが,他のmRNA→タンパク質への翻訳の制御に関与する.近年分かった.このため,翻訳の過程は非常に動的であることがわかった.
「RNA配列解析のためのカーネル関数の設計と応用」†
榊原康文(慶大)
DNA配列をベクトルに†
非コードRNA: 98%が非コードRNA.RNAi(RNA干渉)による発現制御,選択的スプライシング,RNAネットワーク
→ シグナルが弱く,部位の特定が難しい.
進化すると,転写されない領域(人:55%),転写されるが翻訳されない領域の割合(ヒト:43%)が増える
非コードRNAは2次構造を持つ→この2次構造を導く配列を手がかりに非コードRNAを探す.
この2次構造パターンはどうやって見つけるか?→こうした非数値的なデータを特徴ベクトルに変換.
- カウントベクトル:配列中の塩基/アミノ酸の出現度数を表す.塩基なら4次元,アミノ酸なら20次元.→ 並び替えは考慮できない.
- k-スペクトラムベクトル: 2-スペクトラム なら連続した2文字ごとの度数を数える.
- 部分配列ベクトル: 連続していない一定長の部分配列の出現度数を数える.
→ベクトルの次元数が,文字数に対して指数的に増加してしまう.
→高次元を効率的に計算するため,カーネルの導入.ベクトルを明示的に求めるより内積を効率的に計算.
ステムベクトル:アミノ酸列が折れ曲がった突起状の構造をステムという.これには,塩基の相補対(AT)(TA)(GC)(CG)が重要なので,このステムの候補の数を数える.
必ずしも連続していない候補の列を数える:長さ2の例 (A-(A-T)-T),(A-(T-A)-T)....(G-(G-c)-C) の16次元ベクトル.
ステムカーネル:全ての長さのステムベクトルの内積を計算.配列の長さに関して帰納的に計算し,動的計画法で効率的に計算.
マイナーな改良
- gap重み λの導入.ギャップ長 i について λ^i のペナルティ
- 深い入れ子構造は重要視
- ステムの先端部になるループの下限Lの導入.これが短すぎると物理的に曲がり切れない
- 突然変異に対して,構造が頑健になるようなスコアの導入
- ホモロジーの高い配列の分類問題:文字列カーネルと比較するとちょっと良かった.
- リモートホモログ検索:ncRNAには類似したfamilyがある.そのfamilyのfamilyであるsuperfamilyを探す.クエリRNAに対して同じsuperfamilyのRNAを探すのがリモートホモログ.
「非整列RNA配列群からの頻出ステムパターンのマイニング」†
浜田道昭(みずほ情総研) 津田宏治(Max Planck Institute) 工藤拓(グーグル) 金大真(産総研) 浅井潔(東大)
問題設定
- 入力:アラインメントや2次構造が未知のRNA配列群
- 出力:2次構造モチーフ(頻出パターン)
2次構造パターン:ステムのパターン
モデル
- RNA配列群:ステムグラフ+ラベルtaxonomy
- 2次構造パターン:ステムパターン
- ステムグラフ:ステムをノードとするグラフ
- ステム間関係:parallel(並列),nested(同じステムにループが途中にもある),pseudo knot (互い違い)
→これらの関係がある場合にノード間にラベル付の辺を生成
- 2次構造は未知:どうしよう?
→base pairing probability matrix 任意の塩基のペアについて塩基対へのなりやすさの確率を表したもの.
→塩基対になりやすい高確率な部分をステム候補とする
→ステムの代わりにステム候補をノードとしたグラフにする.ただし,同時に成立しないステム候補の間には辺を生成しない.すると,可能な2次構造はクリークになる.
- ラベルtaxonomy
- ステムパターン
- 2次構造を,ノードのステムをラベルタクソノミのラベル付けし,ステム間関係もラベル付けした,クリークのステムグラフ
目標:支持度がminsupport以上でと,ノードのコストの総和がmaxcostのステムパターンを列挙する.
グラフマイニングのgSpanアルゴリズムが基本:深さ優先探索.DFSコードによるパターンの管理 (IBIS2005の猪口のグラフマイニングのチュートリアルを参照)
- さらなる探索空間の制限:DFSコードの拡張の制限,自明な非最小DFSコード,コストによる枝狩り
- すでに論文で報告されている共通モチーフを見つけることに成功
「Knowledge discovery and hypothesis generation from biomedical texts」†
小池麻子(日立)
要求
- MEDLINEに登録された文献が多すぎて,目的の論文を検索できない.
- 文献からの自動知識抽出.
- 文献の断片的な知識から仮説生成や知識発見.分野が細分化されているので,知識の結合が難しい.(概念間のオントロジーが必要).
タンパク質/遺伝子名認識
- その難しさ
- 同義語が多い:あとになって同じものと分かる場合がある
- 複数の遺伝子が同一の省略名をもつ
- 他の一般の語彙と同じ綴りのものがある.
- 綴りにばらつきがある
- などなど
- 遺伝子名の収集:標準tagger + 人手ルール + 接尾辞などを利用した機械学習
機能用語の開発:Gene Ontoroly (GO) を基盤に
- GO termと共起性の高い語を関連語
- GO termと同じ文脈のものを抽出
- (?)
- 遺伝子/タンパク質名の曖昧性の除去
Open Discovery: 発表されている文献の関係を組み合わせて発見を
知識発見の難しさ
- 概念の関連付けをするには語彙やクラスの統一が必要
- 概念間をいろいろな類似度で関連付け.よい類似度について比較調査.
特別講演:「脳情報復号化によるブレイン−マシン・インターフェース」†
神谷之康(ATR脳情報研究所)
脳から心を読むにはどうすればよいのか
符号化・復号化:perception, 認知,行動 ←→ 脳活動=code
- こう見なすことで,mind-readingを考える
fMRIによるニューロイメージング
- 生きたヒトの脳全を体非侵襲的(電極とかを脳にささない)な観測
- 解像度は数mmオーダなので,単一の神経細胞の活動は計測できない.脳のだいたいの活動部位が分かる程度.
知覚内容のデコーディング
- 脳の信号を観察して,何を知覚しているかどうかを求める.
古典的コーディング解析 http://viperlib.york.ac.uk/
- 線の傾きそれぞれに応じて反応する視覚細胞があることを見つけた -- Hubel&Wiesel
fMRI画像で観測すると,fMRI画像の画素一つに複数のコラム(特定の傾きに応答する神経細胞の集まり)が含まれてしまう.
アンサンブル特徴選択性
- いくつかの画素を集めたとき,それらの集団的な活動から知覚をデコード.
- 複数の入力画素の輝度から,各傾きに応じて反応する識別器(SVMを利用)を作り,最大の反応を示す識別器の傾きを採用.
- 8種類の傾きを見せた反応の脳信号から,傾きを検出できた.
- 数ヶ月の時間がたってもデコードはできた.
- 視覚野には低次〜高次のものがある:最初に信号がくる視覚1次野での信号の判別結果が最も良かった.
- 傾きの判別について,画像そのものは線形分離できないが,脳の信号は線形分離可能→脳内では非線形な特徴抽出が行われている.
fMRIの画素が対応する部位を脳の表面にマップする → ヒトによって発現部位が違う.他人の脳で訓練した識別器は使えない.
右斜めと左斜め縞が重なった画像を見せ,どちらかの縞を意識してもらう.→ 脳の反応からは,高次の意識が反映されて,意識した方の縞に対する反応が見られる.
運動方向の選択性と,傾きの選択性を比べると,1次→4次の視覚野で,運動は反応が向上するが,傾きは低下する.
- 印象主義と超現実主義の絵画を判別させる:75%ぐらいの正解率でデコードできる.
- グー・チョキ・パーの判別:90%以上の正解率.運動野の反応が顕著.
- 発生内容のコーディング:運動野は子音に,小脳は母音に反応.組み合わせると80%ほどの正解率.
変分ベイズを用いた画素選択:デコードに利用する画素(特徴)の選択.
脳のデコーディング
- オンラインで解析 → brain machine interface:脳から直接,機会を制御
- オフライン →マーケティング,人材評価
BMI (brain machine interface)
- 外界に信号を送るにあたっての壁である「身体」を超える
- 侵襲型:Cyberkinetics by Schwartz
- 神経細胞から精度の高い信号
- 感染などのリスク,限局される(狭い)記録部位
- 非侵襲型
- 感染などの危険なし
- 精度が低い.神経活動の変化から血流の変化までのタイムラグ.
- conventional neural modeling: 刺激 S から予測応答 ^r
- neural decoding:応答から刺激を予測
→ 予測刺激から刺激を生成するループなどを使った実験へ発展