しましま/DMSM001
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* 第1回データマイニングと統計数理研究会 (2006.7.11開催 @ ...
このページはしましまが人工知能学会 [[第1回データマイニン...
*「知識基盤形成のための大規模半構造データからの超高速パタ...
有村 博紀(北海道大学大学院情報科学研究科)
''半構造データ (semi-structured data;SSD)'':大規模,ヘテ...
- 高速で頑健なSSD用のマイニング:既存手法は直接的にはSSD...
- efficient(多項式時間で計算)や頑健(仮説への多少のずれはOK)
→ 実用的には効率も頑健性も不十分なレベル
- ABC*DEF のような,gapを含むパターンへのマッチを考える.
- impurity関数(エントロピーやGini)を考えて,正例と負例の...
- suffix arrayを利用したヒューリスティックなアルゴリズム
- グラフや木への拡張
*「統計的因果推論と因果探索」 [#n3474614]
狩野 裕、宮村 理(大阪大学大学院基礎工学研究科)
-[[発表資料>http://www.sigmath.es.osaka-u.ac.jp/%7Ekano/r...
** 無作為化実験 [#me19d358]
- 例:「喫煙 ⇒ 肺ガン」
-- 動物実験:強制喫煙群と喫煙なし群をつくる→後に肺ガンに...
-- 2群への割り当てをランダムにすることで,過去の履歴を確...
- 人間では倫理的に問題→観察研究たよらなくてはならない
** 観察(or 相関的)研究 [#p90027cf]
- 観察研究の方法
-- 喫煙群と非喫煙群にわけるが,割り当ては受動的.
-問題点
-- 未観測の状況が生じる
-- サンプルセレクション
-- 測定誤差
** 第3変数とその役割 [#sb6b1458]
- X→Y の関係以外の第3の変数
-交絡変数(二つの枝がでる),合流点(二つの枝が入る),中間点...
** 因果探索 [#sd13d38e]
-可能な因果のモデルを,指標(統計量)で比較して,良いものを...
-同値(統計量が同じ)になるモデルが出てしまう
-統計的問題(サンプルの問題や測定誤差)
-変数には何を用いるべきか
-アルゴリズム上の問題(線形・非線型など)
** 因果の方向を決める [#t7319214]
- 第3変数との関わりで決める
-- 自然に決まる場合と,能動的に研究者が選ぶ(操作変数(inst...
-- 線形モデル+非正規誤差 / 非線形モデル + 正規誤差
- 相関係数では因果の方向は決まらない
- 同値モデルの問題から考えると…~
X→Y と Y→X が同じ統計量
- 第3変数 Z の導入
-Z→X&Y→X と Z→X→Y を考えて,それぞれの因果の相関を見るこ...
** 因果解析とblind source separation(BSS) [#c66969d6]
-x=B e: 未観測の誤差 e だが,独立性の仮定をおいてBを推定...
-ICAと使うか,高次モーメントを使う方法
-XからYを導くモデルと,YからXを導くモデルを二つ作り,それ...
-うまく分解されたら独立なので,独立でない方の因果関係があ...
** 非線形モデル + 正規誤差 [#kd1e1ee4]
X1=β X2 + γ X2^2 + e1 VS X2=β X1 + γ X1^2 + e2
- 正規に近い方のモデルを良しとする(前者が良ければ X2→X1)
** 交絡変数 [#q8102305]
- 交絡変数:原因と因果の両方の原因になる第3変数
- 交絡変数の問題点
-- 因果によって相関が生じるのではなく,交絡変数によって相...
-- 交絡変数の入れ方によって,結論が変わったりする
-- 個体内変動と個体間変動:
勉強時間と成績に正相関があるとき→成績悪&時間短の個体と成...
** サンプルセレクション [#kec07809]
-標本がランダムサンプルではない:Yが非ランダムとXが非ラン...
-対象群を分ける基準によって結果が変わったりする
** 因果分析には相関を使うべきか,偏相関を使うか? [#heb8e...
- 昔は偏相関は値が小さすぎて使いにくいと言われていた
- どの変数で条件付けするかを考えることができる
- DAG (有向非循環グラフ)
-- グラフと条件付独立性が対応がつくように同時分布を定義す...
(機械学習でいうところのグラフィカルモデル)
-有向分離
--d-separation:XとYを結ぶ各パスにおいて次のどちらかが成立
+++ 合流点があるとき……
+++ (かけなかった)
-DAGの制約:偏相関は存在しない→ancentral graph;AG (一部...
-AG
--辺がない場合:条件付独立になる.DAGのよい性質を引き継ぐ
--変数のどんな部分集合も条件付独立にはならない場合が生じ...
-AGにおける代数的制約 (bi-partial covariance)(わかんなか...
bi-partial covariance=0 ⇔ AGで条件付独立
*「教師あり順序付けのための次元縮約」 [#k4a2724b]
神嶌 敏弘、赤穂 昭太郎(産業技術総合研究所)
質疑応答
- 正準相関分析との関連は?~
サンプル順序が同じ対象で構成されていないので,そのあたり...
*「大規模な半教師付学習に対する最適化アプローチ」 [#eb637...
矢島 安敏(東京工業大学)
-線形関数で判別する問題を凸2次問題として定式化→カーネルを...
-One-class SVM:クラスと原点を分離するような分離平面を求...
-グラフのカーネルを使って準教師あり学習をする.
--辺は類似性を表す.ここではk近隣との間の辺は bij=1 とす...
--その隣接行列からグラフのカーネル (commute timeカーネル...
--しかし!カーネルの計算には逆行列計算が必要だが,大規模...
--うまく変数を変換すると,非負条件のみの凸二次計画問題→im...
*「シーケンスを節点とする木構造データマイニングのための半...
佐藤 一誠、中川 裕志(東京大学)
-木構造を行きがけ順にノードを並べて,シーケンシャルマイニ...
-constraint based prefix span:頻度以外にも,ギャップ長な...
-設定数が多い場合にも対応可能
*「ARXモデルの次数探索決定方法の検討」 [#xe960435]
深田 健太、鷲尾 隆(大阪大学産業科学研究所)
- 外部入力付自己回帰モデル(ARX):その自身の過去の時系列と...
- 従来手法:変数選択はAICを利用→測定誤差のためAICが最小値...
- ΔAIC* は,パラメータを一つ減らしたモデルとのAICの差を考...
単純化によって,少なくとも誤差オーダーを超えて大きく精度...
*「遺伝子相互作用を理解するためにMicroArrayデータからDAG...
ターミエ アレックサンドル(1)、玉田 嘉紀(1)、井元 清哉(2)...
頻出な木を見つけることで,高速にDAGパターンを発見.
*「テキストマイニング技術の応用によるメタデータ自動獲得機...
嶋津 恵子(1)、齋藤 功(1)、有澤 達也(1)、吉永 早織(2)、古...
- 大学の部を横断したマルチメディアCMS:http://context.dmc...
- 個々にデジタル化された内容にはメタデータが付与されてい...
- 付与するメタデータのカテゴリには,5W1Hとコスト を用いた...
*「再生核ヒルベルト空間と統計的学習」 [#obc6efcd]
福水 健次(統計数理研究所)
** カーネル法 [#s381ffcb]
- 線形分離できないデータを,高次元に射影して線形分離可能...
- 高次元に射影するための道具:正定値カーネル
- 集合Ω上の正定値カーネル→Ω上の関数からなるヒルベルト空間...
++ k(・,x)∈Hk,
++ 有原和 f=Σci k(・,x) の形の源はHkで稠密
++ 再生性 f(x)=<f,k(・,x)> ∀f∈Hk x∈Ω,関数の値が内積で与...
+高次元に変換する関数をΦとすると <Φ(x),Φ(y)>=k(x,y) と内...
*** 例:カーネルPCA [#p6fd8066]
- 線形だと max Var[ a^T X] → 非線形 max Var[ f(X) ]
→ f を再生核ヒルベルト空間から探すと再生性を使って:max V...
*** 高次元に写すのにカーネルを使う利点 [#i4197f70]
- カーネルによる非線形化は多くの場合 データで張られている...
- 条件が整えば,連続で微分可能
- 関数の値が定まる
- 内積の計算が容易
- 基底を考えるより,計算が楽
- 次元数が多くてもOK (データが多いと困る)
- 非ベクトルデータ (グラフ,ツリー,ヒストグラム) でもOK
** 独立性や条件付独立性とRKHS [#h442e1f7]
-確率変数の独立:特性関数が結合の場合が,周辺の場合の積で...
-XとYが独立:E_EX[f(X) g(Y)] = EX[f(X)] EY[g(Y)] という...
--定理[Bach&Jordan 2002]:ガウスカーネルを使うと独立性を...
-条件付独立の場合に拡張
-- 通常のガウスの場合 Var[a^T Y|X]=a^T [V_YY - V_YX V_XX^...
-- カーネル化は自然にできる.このあたりが[福水ら2004]の定理
- 応用:回帰問題における次元削減
*「ノンパラメトリックベイズ理論とそのデータマイニングへの...
上田 修功(NTTコミュニケーション科学基礎研究所)
- 統計的学習:データの生成モデルを作る
- モデル構造・事前分布の設定問題→同時に解決:ノンパラメト...
- ベイズ的アプローチ:予測を分布として求める ∫ p(x|θ) p(θ...
-- 非ベイズ:パラメータは一つで,そこからデータを作っている
-- ベイズ:パラメータはいくつも分布の形存在し,それらがそ...
- パラメータ
-- パラメトリックベイズ:共役分布に限られる
-- ノンパラメトリックベイズ:Dirichlet事前分布はよりデー...
** Dirichlet分布:Dir(π1...πK; α0 φ1 ... α0 φK) [#a0f3598d]
-- 期待値:E{πl}=α0 φl / [Σj α0 φj ]
-- 事後分布の共役性:多変量分布の事前分布がDirchlet分布に...
-- 事後予測分布:N個のシンボルが与えられたときに次のシン...
** Dirichlet過程:Dirichlet分布を無限の要素がある場合に拡...
分割G=P(A1)...P(AK)が生じる確率がDir(G; α0 G0(A1)....G0(...
-Dirichelt過程の性質
-- 期待値 E{G}=G0
-- 共役性:
--事後予測分布:[α0/α0+N] G0 + [1/α0/α0+N] Σ δ_θi:第1項...
- Dirichlet分布とは,分割が明示的には与えられていない点が...
-Chinese Restaurant Process (CRP)
-- k個テーブルに客が座っている状態.次の客は,k個のテーブ...
- DPの構成定理
-- G〜DP(α,G0)は,θ〜G0及びπk≧0,Σk^∞ πk=1 を用いて,以...
G(θ)=Σk^∞ (かけなかった)
-- stick breaking:
- de Finettiの表現定理
** 関係のマイニング(Infinite Relational Model) [#w0fa7fe3]
-- 二つのサンプル集合の各要素の間の関係を行列で表し,それ...
-- 各ブロックの関係を表す0/1が,パラメータθに従うベルヌー...
おすすめチュートリアル:[[Dirichlet processes, Chinese re...
終了行:
* 第1回データマイニングと統計数理研究会 (2006.7.11開催 @ ...
このページはしましまが人工知能学会 [[第1回データマイニン...
*「知識基盤形成のための大規模半構造データからの超高速パタ...
有村 博紀(北海道大学大学院情報科学研究科)
''半構造データ (semi-structured data;SSD)'':大規模,ヘテ...
- 高速で頑健なSSD用のマイニング:既存手法は直接的にはSSD...
- efficient(多項式時間で計算)や頑健(仮説への多少のずれはOK)
→ 実用的には効率も頑健性も不十分なレベル
- ABC*DEF のような,gapを含むパターンへのマッチを考える.
- impurity関数(エントロピーやGini)を考えて,正例と負例の...
- suffix arrayを利用したヒューリスティックなアルゴリズム
- グラフや木への拡張
*「統計的因果推論と因果探索」 [#n3474614]
狩野 裕、宮村 理(大阪大学大学院基礎工学研究科)
-[[発表資料>http://www.sigmath.es.osaka-u.ac.jp/%7Ekano/r...
** 無作為化実験 [#me19d358]
- 例:「喫煙 ⇒ 肺ガン」
-- 動物実験:強制喫煙群と喫煙なし群をつくる→後に肺ガンに...
-- 2群への割り当てをランダムにすることで,過去の履歴を確...
- 人間では倫理的に問題→観察研究たよらなくてはならない
** 観察(or 相関的)研究 [#p90027cf]
- 観察研究の方法
-- 喫煙群と非喫煙群にわけるが,割り当ては受動的.
-問題点
-- 未観測の状況が生じる
-- サンプルセレクション
-- 測定誤差
** 第3変数とその役割 [#sb6b1458]
- X→Y の関係以外の第3の変数
-交絡変数(二つの枝がでる),合流点(二つの枝が入る),中間点...
** 因果探索 [#sd13d38e]
-可能な因果のモデルを,指標(統計量)で比較して,良いものを...
-同値(統計量が同じ)になるモデルが出てしまう
-統計的問題(サンプルの問題や測定誤差)
-変数には何を用いるべきか
-アルゴリズム上の問題(線形・非線型など)
** 因果の方向を決める [#t7319214]
- 第3変数との関わりで決める
-- 自然に決まる場合と,能動的に研究者が選ぶ(操作変数(inst...
-- 線形モデル+非正規誤差 / 非線形モデル + 正規誤差
- 相関係数では因果の方向は決まらない
- 同値モデルの問題から考えると…~
X→Y と Y→X が同じ統計量
- 第3変数 Z の導入
-Z→X&Y→X と Z→X→Y を考えて,それぞれの因果の相関を見るこ...
** 因果解析とblind source separation(BSS) [#c66969d6]
-x=B e: 未観測の誤差 e だが,独立性の仮定をおいてBを推定...
-ICAと使うか,高次モーメントを使う方法
-XからYを導くモデルと,YからXを導くモデルを二つ作り,それ...
-うまく分解されたら独立なので,独立でない方の因果関係があ...
** 非線形モデル + 正規誤差 [#kd1e1ee4]
X1=β X2 + γ X2^2 + e1 VS X2=β X1 + γ X1^2 + e2
- 正規に近い方のモデルを良しとする(前者が良ければ X2→X1)
** 交絡変数 [#q8102305]
- 交絡変数:原因と因果の両方の原因になる第3変数
- 交絡変数の問題点
-- 因果によって相関が生じるのではなく,交絡変数によって相...
-- 交絡変数の入れ方によって,結論が変わったりする
-- 個体内変動と個体間変動:
勉強時間と成績に正相関があるとき→成績悪&時間短の個体と成...
** サンプルセレクション [#kec07809]
-標本がランダムサンプルではない:Yが非ランダムとXが非ラン...
-対象群を分ける基準によって結果が変わったりする
** 因果分析には相関を使うべきか,偏相関を使うか? [#heb8e...
- 昔は偏相関は値が小さすぎて使いにくいと言われていた
- どの変数で条件付けするかを考えることができる
- DAG (有向非循環グラフ)
-- グラフと条件付独立性が対応がつくように同時分布を定義す...
(機械学習でいうところのグラフィカルモデル)
-有向分離
--d-separation:XとYを結ぶ各パスにおいて次のどちらかが成立
+++ 合流点があるとき……
+++ (かけなかった)
-DAGの制約:偏相関は存在しない→ancentral graph;AG (一部...
-AG
--辺がない場合:条件付独立になる.DAGのよい性質を引き継ぐ
--変数のどんな部分集合も条件付独立にはならない場合が生じ...
-AGにおける代数的制約 (bi-partial covariance)(わかんなか...
bi-partial covariance=0 ⇔ AGで条件付独立
*「教師あり順序付けのための次元縮約」 [#k4a2724b]
神嶌 敏弘、赤穂 昭太郎(産業技術総合研究所)
質疑応答
- 正準相関分析との関連は?~
サンプル順序が同じ対象で構成されていないので,そのあたり...
*「大規模な半教師付学習に対する最適化アプローチ」 [#eb637...
矢島 安敏(東京工業大学)
-線形関数で判別する問題を凸2次問題として定式化→カーネルを...
-One-class SVM:クラスと原点を分離するような分離平面を求...
-グラフのカーネルを使って準教師あり学習をする.
--辺は類似性を表す.ここではk近隣との間の辺は bij=1 とす...
--その隣接行列からグラフのカーネル (commute timeカーネル...
--しかし!カーネルの計算には逆行列計算が必要だが,大規模...
--うまく変数を変換すると,非負条件のみの凸二次計画問題→im...
*「シーケンスを節点とする木構造データマイニングのための半...
佐藤 一誠、中川 裕志(東京大学)
-木構造を行きがけ順にノードを並べて,シーケンシャルマイニ...
-constraint based prefix span:頻度以外にも,ギャップ長な...
-設定数が多い場合にも対応可能
*「ARXモデルの次数探索決定方法の検討」 [#xe960435]
深田 健太、鷲尾 隆(大阪大学産業科学研究所)
- 外部入力付自己回帰モデル(ARX):その自身の過去の時系列と...
- 従来手法:変数選択はAICを利用→測定誤差のためAICが最小値...
- ΔAIC* は,パラメータを一つ減らしたモデルとのAICの差を考...
単純化によって,少なくとも誤差オーダーを超えて大きく精度...
*「遺伝子相互作用を理解するためにMicroArrayデータからDAG...
ターミエ アレックサンドル(1)、玉田 嘉紀(1)、井元 清哉(2)...
頻出な木を見つけることで,高速にDAGパターンを発見.
*「テキストマイニング技術の応用によるメタデータ自動獲得機...
嶋津 恵子(1)、齋藤 功(1)、有澤 達也(1)、吉永 早織(2)、古...
- 大学の部を横断したマルチメディアCMS:http://context.dmc...
- 個々にデジタル化された内容にはメタデータが付与されてい...
- 付与するメタデータのカテゴリには,5W1Hとコスト を用いた...
*「再生核ヒルベルト空間と統計的学習」 [#obc6efcd]
福水 健次(統計数理研究所)
** カーネル法 [#s381ffcb]
- 線形分離できないデータを,高次元に射影して線形分離可能...
- 高次元に射影するための道具:正定値カーネル
- 集合Ω上の正定値カーネル→Ω上の関数からなるヒルベルト空間...
++ k(・,x)∈Hk,
++ 有原和 f=Σci k(・,x) の形の源はHkで稠密
++ 再生性 f(x)=<f,k(・,x)> ∀f∈Hk x∈Ω,関数の値が内積で与...
+高次元に変換する関数をΦとすると <Φ(x),Φ(y)>=k(x,y) と内...
*** 例:カーネルPCA [#p6fd8066]
- 線形だと max Var[ a^T X] → 非線形 max Var[ f(X) ]
→ f を再生核ヒルベルト空間から探すと再生性を使って:max V...
*** 高次元に写すのにカーネルを使う利点 [#i4197f70]
- カーネルによる非線形化は多くの場合 データで張られている...
- 条件が整えば,連続で微分可能
- 関数の値が定まる
- 内積の計算が容易
- 基底を考えるより,計算が楽
- 次元数が多くてもOK (データが多いと困る)
- 非ベクトルデータ (グラフ,ツリー,ヒストグラム) でもOK
** 独立性や条件付独立性とRKHS [#h442e1f7]
-確率変数の独立:特性関数が結合の場合が,周辺の場合の積で...
-XとYが独立:E_EX[f(X) g(Y)] = EX[f(X)] EY[g(Y)] という...
--定理[Bach&Jordan 2002]:ガウスカーネルを使うと独立性を...
-条件付独立の場合に拡張
-- 通常のガウスの場合 Var[a^T Y|X]=a^T [V_YY - V_YX V_XX^...
-- カーネル化は自然にできる.このあたりが[福水ら2004]の定理
- 応用:回帰問題における次元削減
*「ノンパラメトリックベイズ理論とそのデータマイニングへの...
上田 修功(NTTコミュニケーション科学基礎研究所)
- 統計的学習:データの生成モデルを作る
- モデル構造・事前分布の設定問題→同時に解決:ノンパラメト...
- ベイズ的アプローチ:予測を分布として求める ∫ p(x|θ) p(θ...
-- 非ベイズ:パラメータは一つで,そこからデータを作っている
-- ベイズ:パラメータはいくつも分布の形存在し,それらがそ...
- パラメータ
-- パラメトリックベイズ:共役分布に限られる
-- ノンパラメトリックベイズ:Dirichlet事前分布はよりデー...
** Dirichlet分布:Dir(π1...πK; α0 φ1 ... α0 φK) [#a0f3598d]
-- 期待値:E{πl}=α0 φl / [Σj α0 φj ]
-- 事後分布の共役性:多変量分布の事前分布がDirchlet分布に...
-- 事後予測分布:N個のシンボルが与えられたときに次のシン...
** Dirichlet過程:Dirichlet分布を無限の要素がある場合に拡...
分割G=P(A1)...P(AK)が生じる確率がDir(G; α0 G0(A1)....G0(...
-Dirichelt過程の性質
-- 期待値 E{G}=G0
-- 共役性:
--事後予測分布:[α0/α0+N] G0 + [1/α0/α0+N] Σ δ_θi:第1項...
- Dirichlet分布とは,分割が明示的には与えられていない点が...
-Chinese Restaurant Process (CRP)
-- k個テーブルに客が座っている状態.次の客は,k個のテーブ...
- DPの構成定理
-- G〜DP(α,G0)は,θ〜G0及びπk≧0,Σk^∞ πk=1 を用いて,以...
G(θ)=Σk^∞ (かけなかった)
-- stick breaking:
- de Finettiの表現定理
** 関係のマイニング(Infinite Relational Model) [#w0fa7fe3]
-- 二つのサンプル集合の各要素の間の関係を行列で表し,それ...
-- 各ブロックの関係を表す0/1が,パラメータθに従うベルヌー...
おすすめチュートリアル:[[Dirichlet processes, Chinese re...
ページ名: