しましま/IBIS2015
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* 第18回 情報論的学習理論ワークショップ (IBIS2015) [#cf24...
COLOR(#00AA00){このページはしましまが [[IBIS2015>IBIS#IBI...
#contents
* 11月25日 (水) :ワークショップ 第1日 [#y504fc80]
* オープニング [#r67504b0]
佐久間 淳 (筑波大)
- IBISの役割:理論的基盤と社会応用の両面から先導 → 「この...
- ポスター発表件数 135 (うち学生発表 70)
- 参加登録者数 約350 + 当日参加
* 企画セッション1:学習理論 [#kc2f0bbd]
** 大規模機械学習のための事例と特徴のセーフスクリーニング...
竹内 一郎(名工大)
- スパースモデリング:線形モデルの重みパラメータやカーネ...
-- lasso:L1正則化項を用いる
-- SVM:損失関数にヒンジ損失関数を利用した場合
- スパース学習の計算コスト
-- 学習後の最適解において,どのパラメータが 0 になるか分...
- スクリーニング:学習前にどうにか 0 になりそうなパラメー...
-- ヒューリスティクス:0 になりそうなもの推測して取り除き...
-- 安全スクリーニング:0 になることが保証されている
SVMの安全事例スクリーニング
- SVMのマージンの上下界を求める
-- 真の解を含む球を見つければ,その両端が上界・下界になる...
高次交互作用モデルの安全事例スクリーニング
-lassoの安全特徴スクリーニング
-- lassoの双対問題を考える → 双対問題での最適解を含む領域...
- z1 〜 z1 z2 〜 z1 z2 z3 といった交互作用項が増えていく...
安全スクリーニング技術の応用
- 感度分析
-- 分類についても,最適パラメータを含む球だけ分かれば,パ...
-- 事例を追加しながら学習するとき,追加前の最適パラメータ...
- モデル選択:精度保証付きの交差確認による正則化パラメー...
** Fast Computation of Wasserstein Distances and Applicat...
Marco Cuturi(京大)
- 最適輸送 → 確率分布を比較する距離に使える
-- 最適輸送:Wasserstein距離 (数学系の呼び名) / earth mov...
- 確率分布 pθ → pθ' に,「確率」を最小距離で最小の量だけ...
-- 三つ以上になっても同様に,三つの分布からの最適輸送を考...
- 経験的な距離
-- 確率分布をヒストグラムのように離散化して,そのビンの中...
-- O( n^3 log(n) ) と計算できる.解は一意ではない.
- 正則化最適輸送
-- エントロピーによる正則化による緩和問題 → 交互最適化を...
-- ルジャンドル変換による双対問題
- 変分Wasseerstein問題
-- k-means はデータ点から,k個の中心を持つ混合分布までの ...
-- 2個の場合は線形計画問題として定式化できる
- 正則化最適輸送:KL距離最小化の射影を繰り返す問題とみな...
- 画像への応用:立体モデルの中間的な状態を作れる → モーフ...
** 非スパース性と高次元データの分類 [#a71da814]
青嶋 誠(筑波大)
- 数理統計学での判別分析:高次元でスパース性を利用し実質...
- 非スパース性:共分散行列の固有値や,平均・分散の差が発...
- 以下,2クラス分類で,クラスごとの共分散が等しいとの仮定...
- ガウスの場合で,共分散が等しい場合は,ベイズ誤差の限界...
-- 単純に実行しようとすると共分散行列の逆行列が高次元空間...
-- 小さな固有値を捨てる → スパース性を仮定している方法
- ある条件の下で分類基準を提案 → 完全な分類ができる
* 招待講演1:Data analytics in industrial research: a per...
安倍 直樹(IBMワトソン研)
- 確率的木文法を用いたタンパク質の二次構造予測(with 馬見...
- 2項関係(推薦の利用者-アイテムみたいな)のオンライン学...
- Tax Collector Optimizer (TACOS)
-- 税金の徴収プロセスを再構築する → 作り込んだモデルでは...
-- 実際のプロセスでは,状態数は100〜200の実数ベクトルで表...
-- 2010年からニューヨーク州に導入し,8.22% の増収.半分ほ...
-- 強制的な手段での徴収の割合をも減らした
- Smarter Planet
-- 二酸化炭素と気候変動の関連をグレンジャー因果モデルで分...
-- 過去の y で回帰したときとより,因子 x も加えたときに,...
-- 同じ手法を,遺伝子の時系列的因果効果やTwitterのインフ...
- Smarter Agriculture
-- 人口増加比率に穀物の生産が追随していない
-- 耕作地の特徴量と,穀物の遺伝情報ととを考慮することで,...
-- 実験農場から自動でデータを集めてくる飛行型・走行型のド...
- メッセージ
-- 長期的なビジョンを持ちつつ,柔軟であれ
--- 長期戦略は重要だが,ボトムアップにやっていってそのう...
-- 研究者としては10年単位ぐらいで考えよう
* 招待講演2:Modeling-based dataset retrieval [#j3343d0d]
Samuel Kaski (Aalto University)
- http://research.ics.aalto.fi/pml
- 遺伝子データは2012年で200TBに届きそうな勢い
- 以前の生物学では論文をたくさん読んで,現状の実験を過去...
- 内容ベース検索
-- 各アイテム x についてモデル Mx を作り,クエリ p(q | Mx...
-- x のデータが少ないので,共通モデル M と潜在変数 z を用...
-- クエリはランキング学習のような比較にしている
- クエリが集合になっている場合:白血病の女性など → 考え方...
- 全モデルの学習
-- マルチタスク学習をする → 大規模過ぎる・個別のデータに...
-- 基底になる分布を導入し,その混合モデルにモデルを制限す...
* 企画セッション2:博士課程学生招待講演 [#x514fbe7]
** 整数格子点上の劣モジュラ被覆に対する高速アルゴリズム(...
相馬 輔(東大)
- 整数格子点上の関数
-- 集合だと集合に入れるかどうかの2値しか扱えない → 整数格...
-- 小さい方の格子点に何かを追加したときの関数の増加分が小...
- 欲張り法:増分 / コスト が最大の追加分を加える → 1歩ず...
- 提案手法:二分探索できるような,新たな評価関数を提案
** 能動学習による多関係データセットの構築(WWW2015採択論...
梶野 洸 (東大)
- 多関係データの能動学習
- 多関係データ:センマンティックWebの三つ組のような感じの...
- アノテーションの数を減らしたいので,能動学習によって,...
* 11月26日 (木) :ワークショップ 第2日 [#wf4ce14f]
* 企画セッション3:データ駆動型科学 [#b0b87d77]
- データ分析を科学発見に活かす.
** マテリアルズインフォマティクスの現状と将来展望 [#rb391...
田中 功(京大)
- 専門は材料工学で,情報系の利用についてどのようなことを...
- マテリアルズインフォマティクス:材料科学の人が頭の中で...
-- 米:オバマ大統領の Materials Genome Initiative で 製造...
-- 欧:Novel Materials Discovery,Materials' Revolution
-- 日本は世界の動向から2〜3年は出遅れ,新学術領域『ナノ構...
- マテリアルズインフォマティクス
-- 材料科学:特性(合成実験の結果でたもの)→ 解析(解析実...
-- プロセス探索,構造探索,物理法則探索,材料探索 などを...
-- 4原子で10億ぐらいの組合せがあるが,実質 5.5K種の化合物...
-- 第1原理計算に基づくシミュレーション:結晶が主.単位セ...
-- アメリカの計算結果の公開データベース https://materials...
- 研究目標:熱伝導 (W/m K):今は 0.6 ぐらいだが,0.1 ぐら...
-- 熱は格子の振動 → 振動が調和してないと衝突しして,振動...
- 計算時間がかかるのでスクリーニング(過去の計算結果から...
-- 予測に使う記述子(物理量)は簡単に計算できるものしか使...
-- スクリーニングのスコア順と第1原理計算の順位が一致する...
** 創薬分野における機械学習応用と情報科学への期待 [#la9b9...
奥野 恭史(京大)
- 製薬:1品目つくるのに1000億,10年かかる
-- 新しい薬品が作りにくくなり,開発費がかかる → 無駄な実...
- 創薬プロセス:活性化合物 が 疾患の原因 となる標的タンパ...
-- 活性化合物 10^60 種,標的タンパク:10^3,結合情報:5×1...
- 相互作用の予測
-- 記述子:炭素の数とか,分子量とか1000種ぐらい → 既知の...
-- 相互作用があったものは論文になっているが,なかったもの...
- 400万件ほどの事例があるが,12万件ぐらいのデータしか現状...
-- Intel China と共同でCPUに最適化した Theano で GPGPU よ...
-- SVM の 91.4% → 50万件で 92.9% → 4Mデータ + 8.8日 98.1%
- 次世代インシリコ創薬:既存の化合物について調べるのでは...
-- 化合物をブロックに分解して,その組合せを調べる → 10^21...
-- ランダム生成から始めて,計算した活性スコアを高くするよ...
-- 5%ぐらいしかヒット率が60%〜70%に上がった
- 構造に基づく分子シミュレーション → 計算結果に基づくデー...
** 産業連関分析が環境・資源政策に果たす役割 [#w555d3c3]
加河 茂美(九大)
- 気候変動に関するパネル IPCC:温室効果ガス問題,特に二酸...
-- 日本では,排出量は 2009 年のリーマンショックで大きく減...
- 排出責任の考え方:消費者責任原則 ⇔ 生産者責任原則(材料...
- ライフサイクル分析:一つのものを作るときに,原料の採掘...
-- 現実にはたどりきるのは難しい → 推計の部分が生じるが統...
- 産業連関表:上流 i → 下流 j にどのくらいの部品が流れた...
-- ある製品を作るのに関係の強いグループを見つけることがで...
- 排出移転問題:消費者が使っている排出量を他国で生産
-- 日本の生産品を排出制限義務のない国で作る場合:生産者責...
-- 世界多地域産業連関表:多国間にわたる貿易を含んだ産業連...
* 招待講演3:理論研究とアルゴリズム・機械学習・AI [#hfa3c...
河原林 健一(国立情報学研究所)
- 専門領域
-- Theory World:チューリング賞を多く出している.米とイス...
-- グラフの着色問題: n^0.2049 (2013) → n^0.1999 (2013) ...
-- グラフカット: O(m log^3 n) 確率的 → O(m log^5 n) 確定的
-- この分野は,講演を頼まれると,すごく専門的な話題か,ご...
- プロ野球日程をグラフ理論で計算した
-- 某球団のオーナーに反対されて採用されなかったが,そのこ...
- ERATOのプロジェクト:2〜3年に一度に情報系から選ばれて,...
- ビッグデータ・AI時代の理論研究
-- コンピュータの性能よりデータの増加が大きいので,理論・...
-- 巨大IT企業は強力な理論研究グループをもつ → 外に出てる...
-- 3〜5割はインド人:数学 + プログラミング ができる → 基...
- スーパーエリート:数学・プログラミング・問題解決 みんな...
-- シリコンバレーからスーパーエリートに 研究課題,データ...
-- 日本このスーパーエリートの育成に立ち後れている
- 理論研究者の活躍
-- Akamai を企業したのは数学者
-- Kleinberg など機械学習分野で活躍
-- NIPS / ICML の15%は理論研究者が入っている
- 理論研究者が参加するメリット
-- 最適化問題を解ける
-- 実問題から生じた抽象問題を効率的に解ける近似問題に変換...
-- 理論のみの貢献なので,主著者にならない
- 理論研究者が参加するメリット
-- 実装とかしたくない.数学の道具を使える.自身の研究を広...
- CS のトップ会議の俯瞰:アルゴリズム・理論の人は,他の分...
- AI系の日本のトップ会議でのvisibility:応用も理論も 2〜3...
- ERATO を始めるにあたって:トップ会議に論文を出せるスー...
-- 博士課程でトップ会議に 3〜5 本あることがあたりまえにし...
-- 組合せ最適化の若手は強い + プログラミングコンテストな...
-- 研究室には多様な分野の人を集めた.トップコーダーなどの...
-- 若い人が入ってこないところはダメ.35歳までに活躍できな...
成果
- 理論的にはたいしたことはないが,うまく組み合わせること...
-- シリコンバレーであるような「研究課題」の供給エコシステム
- ネットワークの構造利用 → PageRank の計算を高速化
-- LU分解 ⇔ 反復法:どちらが早いかをネットワークの構造で...
-- LU分解などはランダムグラフであるほどおそい
-- 反復法はランダムグラフが早く,木構造などは苦手
-- コアの部分はランダム構造なので反復法を,それ以外はLU分...
- 13〜15:トップ会議に全体で70本,STOC/FOCS/SODAといった...
- 日本のvisibilityはちょっとだけ 0.5% ぐらいは貢献
-- 理論ベースの研究が世界のトップへの近道
-- アルゴリズムの理解・最適化の理解 ← トップコーダーの本...
- 改善点:リジェクト理由
-- 現実的な動機が不明(うちは弱い)現状のトップ研究との比...
-- 現実的な動機のある問題を企業から得たい.ML/AI の研究者...
-- 大学院生・PDが主導.理論ベースアプローチ(どう役立つか...
産業界へのお願い → シリコンバレーであるようなエコシステム...
- 企業の中で社内戦略ということで消さないで,問題を投げて...
- 10個に1個ぐらいは面白いのでやらせて欲しい
* 11月27日 (金) :ワークショップ 第3日 [#k5229f82]
* 企画セッション4:機械学習と組合せ最適化 [#k3acd4f2]
** グラフカット:2次劣モジュラ関数最小化でどこまでやれる...
石川 博(早大)
- 2値ノイズの除去:隣接する画素について,同じ輝度の画素は...
-- 隣接する画素の間に辺を作り,元の画像とあまり変化しない...
-- これを一般に,前者を単一画素に依存する項 g と,後者を...
- グラフの最小切断:辺を切断してグラフを分離する.各辺の...
- グラフの最小切断はエネルギー最小化と対応する
-- 画素の他に,s と t のノードを作り,s から各画素,各画...
-- 辺の重みは画素間に辺を作り,その辺の h を考えればよい
- 辺の重みについて制約を加えるとエネルギー関数に劣モジュ...
-- 2値画素:劣モなら大域最適だが,一般には部分会
-- 多値画素:画素のラベルに順序があれば劣モで大域最適,一...
-- 劣モでなくても,一部の画素は最適解の一部と分かる部分解
-- 逆の値を持つ画素に対応するノードを導入したグラフを考える
- 多値で画素ラベルに順序:順序で隣接する画素間にも辺を考...
- 多値一般での近似:各点ごとに今のままか,ある値αに変える...
-- 任意の提案ラベル付けに変えるかどうかを選ぶ融合移動 → ...
- 画素の四つ組みの項 k を考える(3階のエネルギー)
-- 追加の仮想的な画素を導入することで1階のエネルギーに変...
** 劣モジュラ関数最大化とその機械学習への応用 [#h2cbcf53]
垣村 尚徳(東大)
- http://submodularity.org/ :劣モのソルバーポータル
- 膨大な離散データを効率的に捉える:文章要約問題,センサ...
- 広告の予算配分:複数の広告メディアがあり,各消費者ごと...
- 広告を見る人数の最大化:各メディア1回まで,合計 k 回広...
-- 最大被覆問題:消費者が視聴している2部グラフについての...
- 貪欲法:一番視ている人が多いメディアを選び,そのメディ...
-- 実用的には最適値に非常に近い ← 劣モなので最適値に対す...
- 劣モ視点の最大被覆問題.max f(X) s.t. |X|≦k
-- 単調性:広告メディアを増やすと消費者数は単調非減少
-- 劣モ:限界効用逓減性 → 関数の集合 X⊆Y なら f(X+e) - f(...
-- 単調で劣モな関数の最大化は最適解の (1 - 1/e)≒0.632 倍...
- source-side モデル
-- メディアごとにある確率で消費者に影響.複数回の広告が可...
-- 総広告回数と各メディアごとの広告回数に制限
-- 部分列挙 + 貪欲法で (1 - 1/e) 近似解を達成
-- source-side モデルの劣モとしての解釈 → 整数格子上に拡...
- target-side モデル
-- 影響されるまでの影響力のしきい値を各消費者に設定.各メ...
-- しきい値が全て 1 なら最大被覆だが,一般には劣モではない
-- しきい値が一様ランダムなら貪欲法がよいが,それ以外では...
** 劣モジュラ関数による構造と学習の橋渡し:構造正則化,確...
河原 吉伸(阪大)
- 集合関数 = {0,1}^d 上の実数値関数
- MRF の MAP推定 → エネルギー関数の最小化問題
-- 一般にはNP困難.1階MRFの辺の重みに制限があれば劣モ.
- 構造化正則化項:グラフ構造や階層構造の制約を加える → グ...
-- 劣モジュラ関数の連続緩和になっている
- 例
-- 一般化結合:グラフの辺が近くなるように
-- グループ lasso:グループ単位で 0 になる → 被覆関数の緩和
-- グラフのスケールフリー正則化
- 劣モで考えると汎用的な枠組みでの議論ができる
-- 近接演算子 (proximity operator) の反復計算に帰着できる
--- ロヴァース拡張で表される → 最小ノルム点アルゴリズム
--- 一般のLpノルムの場合など
* 11月28日 (土) :チュートリアル [#o49f30f4]
* 確率的最適化から始める機械学習入門 [#q57b03dd]
鈴木 大慈
- 機械学習:Field of study that gives computers the abili...
- 教師学習:入力と教師ラベルの組 → 未観測の入力に対するラ...
- 教師なし学習:ラベルなしの入力 → 似たもの同士をまとめる...
- 特徴抽出:画像などの対象を何らかの方法で数値ベクトルに...
-- 数値ベクトルに変換してしまえば汎用的な手法を適用できる
- 般化誤差を最小化したいが,代わりに経験誤差を最小化する
- 損失関数:二乗損失,τ分位点損失,ε感度損失 -- 回帰
- 過学習 → 避けるために正則化・ベイズ推定
- 汎化誤差の漸近論:データ数 n→∞ 真と経験分布差KLダイバー...
-- 次元数を p とすると o(p / n) → 次元数 p が大きいと誤差...
- AIC の最小化は L0 ノルムのペナルティを付けた最適化問題 ...
-- lasso:L1ノルムを用いて凸緩和 → 最適化が簡単になる
-- スパース性の恩恵:実質的次元数を d とするとパラメータ...
- グループ正則化:特徴のグループ(重複を許す)グループご...
- トレースノルム正則化:特異値の和=特異値のL1正則化 → 特...
- 凸集合:集合内の任意の2点を結ぶ線分上の点が全て集合内に...
- 凸関数:関数上の2点を結ぶ線分上の点は,全て関数値以上で...
- L1のような不連続関数で使える勾配 → 劣勾配:部分不可能な...
- 平滑性:勾配の変化がリンプシッツ連続(2点を射影してもノ...
- 強凸性:最小点がある
- 近接勾配法:f(x) + ψ(x) の最小化で,勾配を計算するとき ...
確率的最適化:大規模データを扱うために用いられることが多い
- 分類:バッチ型(訓練データはまとめて与えられ何度でも使...
- オンラインが多手法:x_t ← x_t - g_t (g_t はデータ一つを...
-- 勾配の大きさの期待値の上界 G と初期値と最適解の差の上...
- 確率的双対平均化法 (SDA):過去の劣勾配の平均を用いる
- 確率的最適化は O(log(n)) だけ勾配法より速い
- バッチ型の確率的最適化
-- データは固定で,1回の更新で1データのみを利用
- 確率的分散縮小勾配法 (SAG):十分に近い参照点の勾配を使...
* 劣モジュラ最適化に基づく特徴選択と構造正則化入門 [#b228...
河原 吉伸
- 劣モジュラ構造を用いて,組合せ的な L0 正則化とデータ構...
- d個要素の集合 V のべき集合: 2^V は {0, 1}^d のd次元の...
- 集合関数:単調性=大きな集合の方が大きな値をとる.対称...
-- 特徴選択は,集合関数を経験誤差とし,それを最大化する特...
- 劣モジュラ性:F(S) + F(T) ≧ F(S∪T) + F(S∩T),∀S,T ⊆ V
- べき集合は格子点で表されるので,集合関数は格子点上に実...
-- ロヴァース(Lovász)拡張:この関数を格子点以外の値で補完...
-- 逓減性:F(S + i) - F(S) ≧ F(T + i) - F(T),S⊆T⊆V, i∈V\T
-- 劣モジュラ関数の例:被覆関数,エントロピー,カット関数
-- 最適化:最小化→厳密なアルゴリズム,最大化→精度保証付き...
特徴選択と劣モジュラ
- 特徴選択:非0要素の数がk個以下での誤差関数の最小化
-- 特徴に対し,誤差関数小さくなると大きくなる集合関数を定...
-- たかだかk個の変数を使う → 集合の大きさの制約下での劣モ...
- 貪欲法:(1 - 1/e)近似
-- 空集合から始めて,関数値を最大にする要素を追加するステ...
劣モジュラ関数を用いた構造正則化
- 劣モジュラ関数最小化: O(|V|^5 M + |V|^6) … M の評価関...
-- 対称性があると O(|V|^3),グラフ表現可能な関数はさらに...
- 構造のある制約問題:グラフ構造,階層構造,グループ構造
-- 画像の背景抽出:近傍などがまとめて変化を受ける構造を組...
- 結合正則化 (fused regularization) → グラフ上で隣接する...
* 深層学習入門 [#fef950ef]
岡谷 貴之
順伝播型NN
- ユニット:線形関数 + 活性化関数 → 多層にして構成する → ...
-- 昔からある活性化関数 ソフトマックス・シグモイド → 深層...
- 多層関数の鞍点 [Pascanu-Dauphin+ 14] をクリアできれば大...
- 勾配消失問題:層をたどるごとに勾配の大きさが小さくなっ...
- モメンタム:前回修正量の 0.5〜0.9 倍を今回の勾配更新に...
- 重み減衰:重みの発散を防ぐために重みの2乗
自己符号化器
- 砂時計型のネットワークで特徴表現を得る
- スパース正則化:中間層が入力数より大きければ恒等写像に...
-- Σj D_KL(ρ‖^ρj) ← 平均活性度 ρ を小さくする
畳み込みネット
- 画像分野では,現在は20層もめずらしくない
- 一般画像認識:画像をカテゴリに分類する → 非常によい性能...
-- 畳み込みネットはそれ以前にも顔認識に有効であることは知...
- 最大プーリングは情報の損失が大きすぎるとHinton先生は述...
- CNNでは勾配消失問題が生じにくいが,結合が疎であることが...
- 最終段の全結合層は全体が95%のパラメータを占めるが計算量...
- Alexnet [Krizhevsky+ 2012]:63M → VGGNet [Simonyan+14]:...
-- GoogLeNet のパラメータ数が少ないのは全結合層の簡略化に...
- CNNの改良:Hexagonalカーネル(フィルターの形を変えて層...
- 転移学習:大規模データで学習したCNNの最終層だけを入れ換...
再帰NN
- 再帰結合 → 時間方向に展開すると時間方向の順伝播ネット
-- 深層学習のかかえる勾配消失問題に昔から直面していた → L...
応用
- 画像記述:画像についての説明文を生成する → まだまだ変な...
-- CNNで獲得した画像特徴ろ,言語生成用の回帰NNに入力する
- 画像生成:CNNが何を学習しているかの分析にも繋がる
-- Deep Dream:banana などのラベルを最も活性化させる
-- 画家のスタイルを再現:学習済みのCNNに,絵画と写真を入...
Take Home Message
- 自分の問題に適用したい → 茨の道を覚悟されたし!(パラメ...
- 決まったタスクならライブラリを使う,pretrainedモデル,...
* 多重検定法入門 [#n57d3c4a]
瀬々 潤
- 機械学習の問題として,結論の因果関係が分かりにくい
-- 科学分野では再現性の向上が問題となっている
- データが増えてくると,普遍性のある現象以外にも,偶発的...
-- 統計的有意性:まれにしか生じない現象であることを確認する
-- ホールドアウトデータ:独立したデータを使って確からしさ...
-- 目的の問題を解くのに入力がどれも役に立たない場合などは...
- 新規の発見 ← 予め定めた有意水準以下の発生率であった場合
-- 複数の検定を行う場合 → いずれかの検定で「まれな」状況...
- 補正の規準:
-- Family-Wise Error Rate (FWER):複数回検定をしても,1回...
-- False Discovery Ratio (FDR):有意と判定された検定のう...
FWERに基づく補正
- Bonferroni法:FWERをα以下にする.有意水準を α/検定数 に...
-- P[いずれか1個の偽正] ≦ Σi P[検定iが偽正]
-- 検定数に依存して有意水準を変更するので,検定数が増える...
- Holm法:棄却された仮説はもう帰無仮説に従わない → 棄却さ...
- Westfall-Young法:Bonferroni/Holm の理論的な上界は緩い...
-- モンテカルロ検定を用いて,仮説間の従属性を扱える
-- データの並べ替えとp値の最小値を求めることを繰り返すこ...
- Tarone法:偽正にならない検定はBonferroniの補正項から除...
FDRに基づく補正
- 帰無仮説に従っているにもかかわらず棄却された検定の,棄...
- Benjamini-Hochberg法 (BH法):仮説の p 値は [0,1] に一様...
- Storey and Tibshriani法 (ST法):BH法のp値が一様であると...
終了行:
* 第18回 情報論的学習理論ワークショップ (IBIS2015) [#cf24...
COLOR(#00AA00){このページはしましまが [[IBIS2015>IBIS#IBI...
#contents
* 11月25日 (水) :ワークショップ 第1日 [#y504fc80]
* オープニング [#r67504b0]
佐久間 淳 (筑波大)
- IBISの役割:理論的基盤と社会応用の両面から先導 → 「この...
- ポスター発表件数 135 (うち学生発表 70)
- 参加登録者数 約350 + 当日参加
* 企画セッション1:学習理論 [#kc2f0bbd]
** 大規模機械学習のための事例と特徴のセーフスクリーニング...
竹内 一郎(名工大)
- スパースモデリング:線形モデルの重みパラメータやカーネ...
-- lasso:L1正則化項を用いる
-- SVM:損失関数にヒンジ損失関数を利用した場合
- スパース学習の計算コスト
-- 学習後の最適解において,どのパラメータが 0 になるか分...
- スクリーニング:学習前にどうにか 0 になりそうなパラメー...
-- ヒューリスティクス:0 になりそうなもの推測して取り除き...
-- 安全スクリーニング:0 になることが保証されている
SVMの安全事例スクリーニング
- SVMのマージンの上下界を求める
-- 真の解を含む球を見つければ,その両端が上界・下界になる...
高次交互作用モデルの安全事例スクリーニング
-lassoの安全特徴スクリーニング
-- lassoの双対問題を考える → 双対問題での最適解を含む領域...
- z1 〜 z1 z2 〜 z1 z2 z3 といった交互作用項が増えていく...
安全スクリーニング技術の応用
- 感度分析
-- 分類についても,最適パラメータを含む球だけ分かれば,パ...
-- 事例を追加しながら学習するとき,追加前の最適パラメータ...
- モデル選択:精度保証付きの交差確認による正則化パラメー...
** Fast Computation of Wasserstein Distances and Applicat...
Marco Cuturi(京大)
- 最適輸送 → 確率分布を比較する距離に使える
-- 最適輸送:Wasserstein距離 (数学系の呼び名) / earth mov...
- 確率分布 pθ → pθ' に,「確率」を最小距離で最小の量だけ...
-- 三つ以上になっても同様に,三つの分布からの最適輸送を考...
- 経験的な距離
-- 確率分布をヒストグラムのように離散化して,そのビンの中...
-- O( n^3 log(n) ) と計算できる.解は一意ではない.
- 正則化最適輸送
-- エントロピーによる正則化による緩和問題 → 交互最適化を...
-- ルジャンドル変換による双対問題
- 変分Wasseerstein問題
-- k-means はデータ点から,k個の中心を持つ混合分布までの ...
-- 2個の場合は線形計画問題として定式化できる
- 正則化最適輸送:KL距離最小化の射影を繰り返す問題とみな...
- 画像への応用:立体モデルの中間的な状態を作れる → モーフ...
** 非スパース性と高次元データの分類 [#a71da814]
青嶋 誠(筑波大)
- 数理統計学での判別分析:高次元でスパース性を利用し実質...
- 非スパース性:共分散行列の固有値や,平均・分散の差が発...
- 以下,2クラス分類で,クラスごとの共分散が等しいとの仮定...
- ガウスの場合で,共分散が等しい場合は,ベイズ誤差の限界...
-- 単純に実行しようとすると共分散行列の逆行列が高次元空間...
-- 小さな固有値を捨てる → スパース性を仮定している方法
- ある条件の下で分類基準を提案 → 完全な分類ができる
* 招待講演1:Data analytics in industrial research: a per...
安倍 直樹(IBMワトソン研)
- 確率的木文法を用いたタンパク質の二次構造予測(with 馬見...
- 2項関係(推薦の利用者-アイテムみたいな)のオンライン学...
- Tax Collector Optimizer (TACOS)
-- 税金の徴収プロセスを再構築する → 作り込んだモデルでは...
-- 実際のプロセスでは,状態数は100〜200の実数ベクトルで表...
-- 2010年からニューヨーク州に導入し,8.22% の増収.半分ほ...
-- 強制的な手段での徴収の割合をも減らした
- Smarter Planet
-- 二酸化炭素と気候変動の関連をグレンジャー因果モデルで分...
-- 過去の y で回帰したときとより,因子 x も加えたときに,...
-- 同じ手法を,遺伝子の時系列的因果効果やTwitterのインフ...
- Smarter Agriculture
-- 人口増加比率に穀物の生産が追随していない
-- 耕作地の特徴量と,穀物の遺伝情報ととを考慮することで,...
-- 実験農場から自動でデータを集めてくる飛行型・走行型のド...
- メッセージ
-- 長期的なビジョンを持ちつつ,柔軟であれ
--- 長期戦略は重要だが,ボトムアップにやっていってそのう...
-- 研究者としては10年単位ぐらいで考えよう
* 招待講演2:Modeling-based dataset retrieval [#j3343d0d]
Samuel Kaski (Aalto University)
- http://research.ics.aalto.fi/pml
- 遺伝子データは2012年で200TBに届きそうな勢い
- 以前の生物学では論文をたくさん読んで,現状の実験を過去...
- 内容ベース検索
-- 各アイテム x についてモデル Mx を作り,クエリ p(q | Mx...
-- x のデータが少ないので,共通モデル M と潜在変数 z を用...
-- クエリはランキング学習のような比較にしている
- クエリが集合になっている場合:白血病の女性など → 考え方...
- 全モデルの学習
-- マルチタスク学習をする → 大規模過ぎる・個別のデータに...
-- 基底になる分布を導入し,その混合モデルにモデルを制限す...
* 企画セッション2:博士課程学生招待講演 [#x514fbe7]
** 整数格子点上の劣モジュラ被覆に対する高速アルゴリズム(...
相馬 輔(東大)
- 整数格子点上の関数
-- 集合だと集合に入れるかどうかの2値しか扱えない → 整数格...
-- 小さい方の格子点に何かを追加したときの関数の増加分が小...
- 欲張り法:増分 / コスト が最大の追加分を加える → 1歩ず...
- 提案手法:二分探索できるような,新たな評価関数を提案
** 能動学習による多関係データセットの構築(WWW2015採択論...
梶野 洸 (東大)
- 多関係データの能動学習
- 多関係データ:センマンティックWebの三つ組のような感じの...
- アノテーションの数を減らしたいので,能動学習によって,...
* 11月26日 (木) :ワークショップ 第2日 [#wf4ce14f]
* 企画セッション3:データ駆動型科学 [#b0b87d77]
- データ分析を科学発見に活かす.
** マテリアルズインフォマティクスの現状と将来展望 [#rb391...
田中 功(京大)
- 専門は材料工学で,情報系の利用についてどのようなことを...
- マテリアルズインフォマティクス:材料科学の人が頭の中で...
-- 米:オバマ大統領の Materials Genome Initiative で 製造...
-- 欧:Novel Materials Discovery,Materials' Revolution
-- 日本は世界の動向から2〜3年は出遅れ,新学術領域『ナノ構...
- マテリアルズインフォマティクス
-- 材料科学:特性(合成実験の結果でたもの)→ 解析(解析実...
-- プロセス探索,構造探索,物理法則探索,材料探索 などを...
-- 4原子で10億ぐらいの組合せがあるが,実質 5.5K種の化合物...
-- 第1原理計算に基づくシミュレーション:結晶が主.単位セ...
-- アメリカの計算結果の公開データベース https://materials...
- 研究目標:熱伝導 (W/m K):今は 0.6 ぐらいだが,0.1 ぐら...
-- 熱は格子の振動 → 振動が調和してないと衝突しして,振動...
- 計算時間がかかるのでスクリーニング(過去の計算結果から...
-- 予測に使う記述子(物理量)は簡単に計算できるものしか使...
-- スクリーニングのスコア順と第1原理計算の順位が一致する...
** 創薬分野における機械学習応用と情報科学への期待 [#la9b9...
奥野 恭史(京大)
- 製薬:1品目つくるのに1000億,10年かかる
-- 新しい薬品が作りにくくなり,開発費がかかる → 無駄な実...
- 創薬プロセス:活性化合物 が 疾患の原因 となる標的タンパ...
-- 活性化合物 10^60 種,標的タンパク:10^3,結合情報:5×1...
- 相互作用の予測
-- 記述子:炭素の数とか,分子量とか1000種ぐらい → 既知の...
-- 相互作用があったものは論文になっているが,なかったもの...
- 400万件ほどの事例があるが,12万件ぐらいのデータしか現状...
-- Intel China と共同でCPUに最適化した Theano で GPGPU よ...
-- SVM の 91.4% → 50万件で 92.9% → 4Mデータ + 8.8日 98.1%
- 次世代インシリコ創薬:既存の化合物について調べるのでは...
-- 化合物をブロックに分解して,その組合せを調べる → 10^21...
-- ランダム生成から始めて,計算した活性スコアを高くするよ...
-- 5%ぐらいしかヒット率が60%〜70%に上がった
- 構造に基づく分子シミュレーション → 計算結果に基づくデー...
** 産業連関分析が環境・資源政策に果たす役割 [#w555d3c3]
加河 茂美(九大)
- 気候変動に関するパネル IPCC:温室効果ガス問題,特に二酸...
-- 日本では,排出量は 2009 年のリーマンショックで大きく減...
- 排出責任の考え方:消費者責任原則 ⇔ 生産者責任原則(材料...
- ライフサイクル分析:一つのものを作るときに,原料の採掘...
-- 現実にはたどりきるのは難しい → 推計の部分が生じるが統...
- 産業連関表:上流 i → 下流 j にどのくらいの部品が流れた...
-- ある製品を作るのに関係の強いグループを見つけることがで...
- 排出移転問題:消費者が使っている排出量を他国で生産
-- 日本の生産品を排出制限義務のない国で作る場合:生産者責...
-- 世界多地域産業連関表:多国間にわたる貿易を含んだ産業連...
* 招待講演3:理論研究とアルゴリズム・機械学習・AI [#hfa3c...
河原林 健一(国立情報学研究所)
- 専門領域
-- Theory World:チューリング賞を多く出している.米とイス...
-- グラフの着色問題: n^0.2049 (2013) → n^0.1999 (2013) ...
-- グラフカット: O(m log^3 n) 確率的 → O(m log^5 n) 確定的
-- この分野は,講演を頼まれると,すごく専門的な話題か,ご...
- プロ野球日程をグラフ理論で計算した
-- 某球団のオーナーに反対されて採用されなかったが,そのこ...
- ERATOのプロジェクト:2〜3年に一度に情報系から選ばれて,...
- ビッグデータ・AI時代の理論研究
-- コンピュータの性能よりデータの増加が大きいので,理論・...
-- 巨大IT企業は強力な理論研究グループをもつ → 外に出てる...
-- 3〜5割はインド人:数学 + プログラミング ができる → 基...
- スーパーエリート:数学・プログラミング・問題解決 みんな...
-- シリコンバレーからスーパーエリートに 研究課題,データ...
-- 日本このスーパーエリートの育成に立ち後れている
- 理論研究者の活躍
-- Akamai を企業したのは数学者
-- Kleinberg など機械学習分野で活躍
-- NIPS / ICML の15%は理論研究者が入っている
- 理論研究者が参加するメリット
-- 最適化問題を解ける
-- 実問題から生じた抽象問題を効率的に解ける近似問題に変換...
-- 理論のみの貢献なので,主著者にならない
- 理論研究者が参加するメリット
-- 実装とかしたくない.数学の道具を使える.自身の研究を広...
- CS のトップ会議の俯瞰:アルゴリズム・理論の人は,他の分...
- AI系の日本のトップ会議でのvisibility:応用も理論も 2〜3...
- ERATO を始めるにあたって:トップ会議に論文を出せるスー...
-- 博士課程でトップ会議に 3〜5 本あることがあたりまえにし...
-- 組合せ最適化の若手は強い + プログラミングコンテストな...
-- 研究室には多様な分野の人を集めた.トップコーダーなどの...
-- 若い人が入ってこないところはダメ.35歳までに活躍できな...
成果
- 理論的にはたいしたことはないが,うまく組み合わせること...
-- シリコンバレーであるような「研究課題」の供給エコシステム
- ネットワークの構造利用 → PageRank の計算を高速化
-- LU分解 ⇔ 反復法:どちらが早いかをネットワークの構造で...
-- LU分解などはランダムグラフであるほどおそい
-- 反復法はランダムグラフが早く,木構造などは苦手
-- コアの部分はランダム構造なので反復法を,それ以外はLU分...
- 13〜15:トップ会議に全体で70本,STOC/FOCS/SODAといった...
- 日本のvisibilityはちょっとだけ 0.5% ぐらいは貢献
-- 理論ベースの研究が世界のトップへの近道
-- アルゴリズムの理解・最適化の理解 ← トップコーダーの本...
- 改善点:リジェクト理由
-- 現実的な動機が不明(うちは弱い)現状のトップ研究との比...
-- 現実的な動機のある問題を企業から得たい.ML/AI の研究者...
-- 大学院生・PDが主導.理論ベースアプローチ(どう役立つか...
産業界へのお願い → シリコンバレーであるようなエコシステム...
- 企業の中で社内戦略ということで消さないで,問題を投げて...
- 10個に1個ぐらいは面白いのでやらせて欲しい
* 11月27日 (金) :ワークショップ 第3日 [#k5229f82]
* 企画セッション4:機械学習と組合せ最適化 [#k3acd4f2]
** グラフカット:2次劣モジュラ関数最小化でどこまでやれる...
石川 博(早大)
- 2値ノイズの除去:隣接する画素について,同じ輝度の画素は...
-- 隣接する画素の間に辺を作り,元の画像とあまり変化しない...
-- これを一般に,前者を単一画素に依存する項 g と,後者を...
- グラフの最小切断:辺を切断してグラフを分離する.各辺の...
- グラフの最小切断はエネルギー最小化と対応する
-- 画素の他に,s と t のノードを作り,s から各画素,各画...
-- 辺の重みは画素間に辺を作り,その辺の h を考えればよい
- 辺の重みについて制約を加えるとエネルギー関数に劣モジュ...
-- 2値画素:劣モなら大域最適だが,一般には部分会
-- 多値画素:画素のラベルに順序があれば劣モで大域最適,一...
-- 劣モでなくても,一部の画素は最適解の一部と分かる部分解
-- 逆の値を持つ画素に対応するノードを導入したグラフを考える
- 多値で画素ラベルに順序:順序で隣接する画素間にも辺を考...
- 多値一般での近似:各点ごとに今のままか,ある値αに変える...
-- 任意の提案ラベル付けに変えるかどうかを選ぶ融合移動 → ...
- 画素の四つ組みの項 k を考える(3階のエネルギー)
-- 追加の仮想的な画素を導入することで1階のエネルギーに変...
** 劣モジュラ関数最大化とその機械学習への応用 [#h2cbcf53]
垣村 尚徳(東大)
- http://submodularity.org/ :劣モのソルバーポータル
- 膨大な離散データを効率的に捉える:文章要約問題,センサ...
- 広告の予算配分:複数の広告メディアがあり,各消費者ごと...
- 広告を見る人数の最大化:各メディア1回まで,合計 k 回広...
-- 最大被覆問題:消費者が視聴している2部グラフについての...
- 貪欲法:一番視ている人が多いメディアを選び,そのメディ...
-- 実用的には最適値に非常に近い ← 劣モなので最適値に対す...
- 劣モ視点の最大被覆問題.max f(X) s.t. |X|≦k
-- 単調性:広告メディアを増やすと消費者数は単調非減少
-- 劣モ:限界効用逓減性 → 関数の集合 X⊆Y なら f(X+e) - f(...
-- 単調で劣モな関数の最大化は最適解の (1 - 1/e)≒0.632 倍...
- source-side モデル
-- メディアごとにある確率で消費者に影響.複数回の広告が可...
-- 総広告回数と各メディアごとの広告回数に制限
-- 部分列挙 + 貪欲法で (1 - 1/e) 近似解を達成
-- source-side モデルの劣モとしての解釈 → 整数格子上に拡...
- target-side モデル
-- 影響されるまでの影響力のしきい値を各消費者に設定.各メ...
-- しきい値が全て 1 なら最大被覆だが,一般には劣モではない
-- しきい値が一様ランダムなら貪欲法がよいが,それ以外では...
** 劣モジュラ関数による構造と学習の橋渡し:構造正則化,確...
河原 吉伸(阪大)
- 集合関数 = {0,1}^d 上の実数値関数
- MRF の MAP推定 → エネルギー関数の最小化問題
-- 一般にはNP困難.1階MRFの辺の重みに制限があれば劣モ.
- 構造化正則化項:グラフ構造や階層構造の制約を加える → グ...
-- 劣モジュラ関数の連続緩和になっている
- 例
-- 一般化結合:グラフの辺が近くなるように
-- グループ lasso:グループ単位で 0 になる → 被覆関数の緩和
-- グラフのスケールフリー正則化
- 劣モで考えると汎用的な枠組みでの議論ができる
-- 近接演算子 (proximity operator) の反復計算に帰着できる
--- ロヴァース拡張で表される → 最小ノルム点アルゴリズム
--- 一般のLpノルムの場合など
* 11月28日 (土) :チュートリアル [#o49f30f4]
* 確率的最適化から始める機械学習入門 [#q57b03dd]
鈴木 大慈
- 機械学習:Field of study that gives computers the abili...
- 教師学習:入力と教師ラベルの組 → 未観測の入力に対するラ...
- 教師なし学習:ラベルなしの入力 → 似たもの同士をまとめる...
- 特徴抽出:画像などの対象を何らかの方法で数値ベクトルに...
-- 数値ベクトルに変換してしまえば汎用的な手法を適用できる
- 般化誤差を最小化したいが,代わりに経験誤差を最小化する
- 損失関数:二乗損失,τ分位点損失,ε感度損失 -- 回帰
- 過学習 → 避けるために正則化・ベイズ推定
- 汎化誤差の漸近論:データ数 n→∞ 真と経験分布差KLダイバー...
-- 次元数を p とすると o(p / n) → 次元数 p が大きいと誤差...
- AIC の最小化は L0 ノルムのペナルティを付けた最適化問題 ...
-- lasso:L1ノルムを用いて凸緩和 → 最適化が簡単になる
-- スパース性の恩恵:実質的次元数を d とするとパラメータ...
- グループ正則化:特徴のグループ(重複を許す)グループご...
- トレースノルム正則化:特異値の和=特異値のL1正則化 → 特...
- 凸集合:集合内の任意の2点を結ぶ線分上の点が全て集合内に...
- 凸関数:関数上の2点を結ぶ線分上の点は,全て関数値以上で...
- L1のような不連続関数で使える勾配 → 劣勾配:部分不可能な...
- 平滑性:勾配の変化がリンプシッツ連続(2点を射影してもノ...
- 強凸性:最小点がある
- 近接勾配法:f(x) + ψ(x) の最小化で,勾配を計算するとき ...
確率的最適化:大規模データを扱うために用いられることが多い
- 分類:バッチ型(訓練データはまとめて与えられ何度でも使...
- オンラインが多手法:x_t ← x_t - g_t (g_t はデータ一つを...
-- 勾配の大きさの期待値の上界 G と初期値と最適解の差の上...
- 確率的双対平均化法 (SDA):過去の劣勾配の平均を用いる
- 確率的最適化は O(log(n)) だけ勾配法より速い
- バッチ型の確率的最適化
-- データは固定で,1回の更新で1データのみを利用
- 確率的分散縮小勾配法 (SAG):十分に近い参照点の勾配を使...
* 劣モジュラ最適化に基づく特徴選択と構造正則化入門 [#b228...
河原 吉伸
- 劣モジュラ構造を用いて,組合せ的な L0 正則化とデータ構...
- d個要素の集合 V のべき集合: 2^V は {0, 1}^d のd次元の...
- 集合関数:単調性=大きな集合の方が大きな値をとる.対称...
-- 特徴選択は,集合関数を経験誤差とし,それを最大化する特...
- 劣モジュラ性:F(S) + F(T) ≧ F(S∪T) + F(S∩T),∀S,T ⊆ V
- べき集合は格子点で表されるので,集合関数は格子点上に実...
-- ロヴァース(Lovász)拡張:この関数を格子点以外の値で補完...
-- 逓減性:F(S + i) - F(S) ≧ F(T + i) - F(T),S⊆T⊆V, i∈V\T
-- 劣モジュラ関数の例:被覆関数,エントロピー,カット関数
-- 最適化:最小化→厳密なアルゴリズム,最大化→精度保証付き...
特徴選択と劣モジュラ
- 特徴選択:非0要素の数がk個以下での誤差関数の最小化
-- 特徴に対し,誤差関数小さくなると大きくなる集合関数を定...
-- たかだかk個の変数を使う → 集合の大きさの制約下での劣モ...
- 貪欲法:(1 - 1/e)近似
-- 空集合から始めて,関数値を最大にする要素を追加するステ...
劣モジュラ関数を用いた構造正則化
- 劣モジュラ関数最小化: O(|V|^5 M + |V|^6) … M の評価関...
-- 対称性があると O(|V|^3),グラフ表現可能な関数はさらに...
- 構造のある制約問題:グラフ構造,階層構造,グループ構造
-- 画像の背景抽出:近傍などがまとめて変化を受ける構造を組...
- 結合正則化 (fused regularization) → グラフ上で隣接する...
* 深層学習入門 [#fef950ef]
岡谷 貴之
順伝播型NN
- ユニット:線形関数 + 活性化関数 → 多層にして構成する → ...
-- 昔からある活性化関数 ソフトマックス・シグモイド → 深層...
- 多層関数の鞍点 [Pascanu-Dauphin+ 14] をクリアできれば大...
- 勾配消失問題:層をたどるごとに勾配の大きさが小さくなっ...
- モメンタム:前回修正量の 0.5〜0.9 倍を今回の勾配更新に...
- 重み減衰:重みの発散を防ぐために重みの2乗
自己符号化器
- 砂時計型のネットワークで特徴表現を得る
- スパース正則化:中間層が入力数より大きければ恒等写像に...
-- Σj D_KL(ρ‖^ρj) ← 平均活性度 ρ を小さくする
畳み込みネット
- 画像分野では,現在は20層もめずらしくない
- 一般画像認識:画像をカテゴリに分類する → 非常によい性能...
-- 畳み込みネットはそれ以前にも顔認識に有効であることは知...
- 最大プーリングは情報の損失が大きすぎるとHinton先生は述...
- CNNでは勾配消失問題が生じにくいが,結合が疎であることが...
- 最終段の全結合層は全体が95%のパラメータを占めるが計算量...
- Alexnet [Krizhevsky+ 2012]:63M → VGGNet [Simonyan+14]:...
-- GoogLeNet のパラメータ数が少ないのは全結合層の簡略化に...
- CNNの改良:Hexagonalカーネル(フィルターの形を変えて層...
- 転移学習:大規模データで学習したCNNの最終層だけを入れ換...
再帰NN
- 再帰結合 → 時間方向に展開すると時間方向の順伝播ネット
-- 深層学習のかかえる勾配消失問題に昔から直面していた → L...
応用
- 画像記述:画像についての説明文を生成する → まだまだ変な...
-- CNNで獲得した画像特徴ろ,言語生成用の回帰NNに入力する
- 画像生成:CNNが何を学習しているかの分析にも繋がる
-- Deep Dream:banana などのラベルを最も活性化させる
-- 画家のスタイルを再現:学習済みのCNNに,絵画と写真を入...
Take Home Message
- 自分の問題に適用したい → 茨の道を覚悟されたし!(パラメ...
- 決まったタスクならライブラリを使う,pretrainedモデル,...
* 多重検定法入門 [#n57d3c4a]
瀬々 潤
- 機械学習の問題として,結論の因果関係が分かりにくい
-- 科学分野では再現性の向上が問題となっている
- データが増えてくると,普遍性のある現象以外にも,偶発的...
-- 統計的有意性:まれにしか生じない現象であることを確認する
-- ホールドアウトデータ:独立したデータを使って確からしさ...
-- 目的の問題を解くのに入力がどれも役に立たない場合などは...
- 新規の発見 ← 予め定めた有意水準以下の発生率であった場合
-- 複数の検定を行う場合 → いずれかの検定で「まれな」状況...
- 補正の規準:
-- Family-Wise Error Rate (FWER):複数回検定をしても,1回...
-- False Discovery Ratio (FDR):有意と判定された検定のう...
FWERに基づく補正
- Bonferroni法:FWERをα以下にする.有意水準を α/検定数 に...
-- P[いずれか1個の偽正] ≦ Σi P[検定iが偽正]
-- 検定数に依存して有意水準を変更するので,検定数が増える...
- Holm法:棄却された仮説はもう帰無仮説に従わない → 棄却さ...
- Westfall-Young法:Bonferroni/Holm の理論的な上界は緩い...
-- モンテカルロ検定を用いて,仮説間の従属性を扱える
-- データの並べ替えとp値の最小値を求めることを繰り返すこ...
- Tarone法:偽正にならない検定はBonferroniの補正項から除...
FDRに基づく補正
- 帰無仮説に従っているにもかかわらず棄却された検定の,棄...
- Benjamini-Hochberg法 (BH法):仮説の p 値は [0,1] に一様...
- Storey and Tibshriani法 (ST法):BH法のp値が一様であると...
ページ名: