Loading [MathJax]/extensions/TeX/boldsymbol.js
しましま/IBIS2014
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* 第17回 情報論的学習理論ワークショップ (IBIS2014) [#h8d3...
COLOR(#00AA00){このページはしましまが [[IBIS2014>IBIS#IBI...
#contents
* 11月16日 (日):第3回IBISMLチュートリアル [#l59d33c1]
* 統計・機械学習の基礎 [#ef1ae404]
池田和司 (奈良先端科学技術大学院大学)
概要:
機械学習ではデータから確率モデルを構築し、それを予測や知...
本 チュートリアルでは、機械学習の基礎となる確率・統計およ...
構築するための推定法についてその基本的な考え方を解説しま...
その後、推定において問題になる事項とその解決法を紹介しま...
決定の問題に対してノンパラメトリックベイズ法を紹介し、分...
パラメータの扱いに対してセミパラメトリック推定を紹介しま...
キーワード:
確率モデル、パラメータ推定、ノンパラメトリックベイズ法、...
- 機械学習:確率モデルを用いた問題解決法,与えられたデー...
- なぜ確率か:たくさん集まると法則が見えてくる ← 中心極限...
- ベイズの定理:データを得たことで,出現確率が変わる
- 機械学習の問題は標本からの分布の推定 → 統計の理論を使う
- パラメトリック推定
- パラメトリック:分布は θ のパラメータで表せるという前提...
-- データの独立性を仮定 → 個々のデータの確率の積で尤度が...
- 最尤推定:尤度関数を最大化するパラメータを,パラメータ...
-- 対数尤度:尤度の対数を考えると積が和に変換できて計算が...
- 推定量の性質:よい推定量とは? 不偏性,一致性,有効性
- 不偏性:推定量のいろいろなデータに対する期待値が真値に...
-- 最尤推定量は不偏推定量ではないが,データの増加に対して...
-- 1次元ガウスの例:分散の最尤推定量の期待値は [(n-1) / n...
- 一致性:標本数が増えたときに真値に一致 → 最尤推定量は漸...
- 有効性:不偏推定量のなかで分散が最小のものは? → 下界は...
- 回帰分析の例:x と y の両方にノイズがあるとき最小二乗で...
- ベイズ推定:パラメータの値ではなく,パラメータの分布を...
- MAP推定:パラメータの事後確率を最大化する点で点推定する...
- モデル選択:どんなモデルがいいのか?
-- TIC:真の分布との距離(KL div)を小さくする.AIC の一...
-- BIC:モデルの事後確率を最大化
-- MDL:符号化したときの記述長を最小化
- ノンパラメトリックベイズ法:データに応じてモデルが自動...
-- 混合分布の混合数を自動的に決めたい
- CRP:客 i は,既存のテーブルには人数に比例して,新しい...
-- テーブルの割当とパラメータを交互に推定 → Gibbsサンプリ...
- IBP:客 i が好きな料理 k をとる,今までにだれかとった料...
-- 混合要素ではなく,潜在的に存在する特徴を選びたい
-- 特徴の出現は,Bernoulli(w_k) に,特徴のパラメータはベ...
- セミパラメトリックモデル:θの他に撹乱パラメータ k に依...
-- x と y の両方のノイズを考慮した回帰分析 → データが増え...
-- セミパラメトリック:データのノイズは データごとのパラ...
-- 推定関数:パラメータとk についての x y の関数の期待値...
-- 推定関数の情報幾何:推定関数が存在するための必要十分条...
* 機械学習に基づく推薦システム [#dc5afa6e]
岩田具治 (NTT コミュニケーション科学基礎研究所)
概要:
推薦システムは、ユーザが膨大な商品集合のなかから好みの商...
助け、またオンラインストアは売上向上が期待できるため、多...
で用いられています。推薦システムは、ユーザが商品をどう評...
将来買うか)を予測する機械学習問題と見なせます。本チュー...
推薦システムの問題設定を確認した後、代表的な推薦手法であ...
基づく手法について説明します。そして行列分解手法のベイズ...
ガウス過程による非線形拡張を紹介します。また、商品情報や...
情報などが与えられたときに、それらの情報を活用して精度を...
について紹介します。
キーワード:
推薦システム、行列分解、潜在変数モデル
推薦システム
- 推薦システム:ユーザの興味に合わせておすすめのアイテム...
- 推薦手法:協調フィルタリング,内容ベース,統合アプローチ
- 協調フィルタリング:行列の欠損値補完問題に帰着できる
-- 類似度に基づく方法:嗜好が類似している人が好きなものを...
- 機械学習的アプローチ:目的を達成するようにデータを用い...
- 行列分解に基づく手法:商品の評価値を利用者とアイテムの...
-- モデルの予測評価値と実際の評価の差の二乗ノルム + 潜在...
ベイズ推定を用いた行列分解
- 行列分解の確率的解釈:2乗ノルム → 正規分布の誤差を想定...
-- 利用者とアイテムの潜在ベクトルは平均 0 の正規分布から...
-- 評価値ではなく購入・非購入の二値:ベルヌーイ分布のパラ...
-- NMF:潜在ベクトルをガンマ分布で,ポワソン分布で評価値...
- ベイズ行列分解
-- 潜在ベクトルの共役事前分布を導入 → ウィッシャート分布...
-- ユーザの潜在ベクトルの精度(ウィッシャート)+ ユーザの...
-- ベイズ推定:データが与えられたときの,平均,精度行列,...
行列分解のガウス過程による非線形拡張
- 潜在ベクトルの内積 + 正規分布 → 線形モデル
- アイテムに依存した非線形関数の利用者の潜在ベクトルでの...
-- ガウス過程を非線形関数の事前分布として利用する → 観測...
- その他の拡張
-- 時間情報:利用者やアイテムに対する評価の時変化 (Koren ...
-- アイテムや利用者の情報:複合行列分解 (Singh+ KDD2008)
-- 複数アルゴリズムのスタッキング:(Toscher+ 2009)
顧客生涯価値を高めるための推薦:IEEE trans. on KDE vol.20...
- 興味が似ている人が購入する商品 → 短絡的な規準
- 長期的利益を高める推薦:優良顧客が購入している商品,将...
- Cox比例ハザードモデルで顧客生涯価値の高いユーザに特徴的...
-- Cox比例ハザードモデル:ある商品 m' を購入したときに顧...
-- MaxEntモデル:ある商品 m を推薦したときに商品 m' を購...
-- 二つのモデルの積を m' で周辺化 → 商品 m を推薦したとき...
* 音声音響信号処理のための確率モデルと学習アルゴリズム [#...
亀岡弘和 (NTT コミュニケーション科学基礎研究所/東京大学)
概要:
音声・音楽・音響の信号処理や情報処理における問題は、主に...
変換・分離にカテゴライズされ、これらは機械学習における識...
推定などの問題に当てはまります。音響信号データは、時系列...
物理的なメカニズムに従って生成されるデータである点、に特...
これらの特徴を意識して設計された独自の確率モデルが多く提...
本チュートリアル では、音声・音楽・音響信号を対象とした各...
概観しながら、音声音響信号処理分野で提案されてきたいくつ...
確率モデルと、補助関数法と呼ぶ最適化の方法論に基づく学習...
導出方法を紹介します。
キーワード:
音声音響信号処理、認識・分析・合成・変換・分離、時系列デ...
確率モデル、学習アルゴリズム、補助関数法
- 音声・音楽・音響信号:対象:音声,音楽,音響 と 目標:...
-- 認識:音響信号 → ラベル系列を割り当てる
-- テキスト音声合成 → テキストと音声の系列モデルを学習し...
-- 音声変換:声質A→声質Bのパターンを回帰して,声質Aの音声...
-- 分析:声道パラメータ推定,多重ピッチ推定,音源定位など...
-- 分離:音声・音響信号が混ざっている信号から,それらを分解
-- 音場の分析・再現:音場そのものを,スピーカアレイで復元...
- 信号処理の基礎
-- 線形時不変システム:入力の線形和=出力の線形和,入力を...
-- スペクトログラム:いわゆる声紋,各時刻での周波数分布を...
音声分析
- 線形予測分析 (LPC):少ないパラメータで音声信号を表現
-- 過去 P 個の信号で,現在の信号値を予測する
-- 予測誤差の振幅は0付近に集中するので,出現頻度の高い振...
- 線形システム:音声信号→予測誤差 ⇒ 逆にすると ⇒ 自己回帰...
-- 音声生成過程が統計モデルで表現できる,スペクトル包絡の...
- デルタ特徴量:静的な特徴量に加えて,時間微分・時間差分...
-- トラジェクトリHMM:デルタ特徴量を含んだ状態についてのH...
音声変換
- 音声 A から B に変換する:発声障害のある人の電気音声を...
- 同一の内容を話した音声のペアのデータから,二つの信号の...
- 最尤系列変換法
多重音解析
- モノラル多重音声信号を,音源成分に分解する.オーケスト...
- NMF:スペクトログラム行列を分解すると,各楽音と,各楽音...
- スペクトログラムの声質:時間周波数展開は線形変換 → この...
- 板倉齋藤NMF:誤差を板倉齋藤距離にしたNMF
- 複合自己回帰モデル:混合信号を I 個のソースと,J 個のフ...
音響の分離
- ブラインド音源分離:複数のマイクで取得した音響信号のみ...
- 生成プロセス:複数の音源にそれぞれ残響音が加わってマイ...
-- 周波数ごとに独立した行列分解問題になる
-- 同じ音源からの周波数ごとの信号をまとめる:パーミュテー...
音韻と韻律
- 音韻(言語情報)と韻律(意図,感情,個人性)
- 藤崎モデル:甲状軟骨の物理特性に基づく韻律のモデル
- 確率モデルにも
補助関数法 (majorization minimaization)
- 目的関数の代わりに,それに合わせて設計した補助関数を反...
- EMアルゴリズム:目的関数にはない,潜在変数を導入した関...
- 目的関数の上界を表すようなものが補助関数
-- 補助関数の最小点を求めるのと,その最小点で目的関数に接...
* Pythonによる機械学習プログラミング [#s5865c63]
神嶌敏弘 (産業技術総合研究所)
概要:
本講演では Python による機械学習プログラミングの基本的な...
関連したパッケージを紹介する。なお、プログラミング言語 Py...
プログラミングに関する基本的な知識についてはふれない。
前半では、Python による数値計算の基本パッケージである Num...
紹介する。Python による数値計算環境についてふれたのち、Nu...
生成と操作について述べ、数式を実装する手続きを紹介する。S...
利用できる関数群の概要を紹介する。
後半では、数値計算に関連したパッケージ群を紹介する。対話...
の IPython、グラフ描画のための matplotlib、機械学習アルゴ...
どの関連パッケージの概要を紹介し、最後にさらに Python に...
について詳しく知るための情報源を紹介する。
キーワード:
Python、NumPy、 SciPy、 科学技術計算、 数値計算プログラミ...
* 11月17日 (月) [#n203e787]
*企画セッション1:離散アルゴリズムの機械学習応用 [#z5fae8...
** モンテカルロ木探索の理論と実践 [#p83cf8fb]
美添一樹 (東京大学)
- チェスや将棋は人間を超えたが,囲碁は長い間強さが停滞し...
-- 探索木(A*やminmax)のように全ての接点を評価する → モ...
- 評価関数:オセロのスミのように特別な場所がなく,終局が...
- ランダムに合法手を打って終局まで打って(プレイアウト)...
- 原始モンテカルロは,相手の失敗を期待するような手 → 良さ...
-- 二人ゲームだけはなくて,多人数対戦ゲームや,パックマン...
-- 自然言語処理やスケジューリングなどもできるようになった
- 多腕バンディット:腕→合法手,報酬→勝率,制限回数→考慮時...
- UCTアルゴリズム:Upper Confidence bound applied to Tree...
-- UCB1の規準は実際のプログラムでは弱い → ヒューリスティ...
- モンテカルロ木探索の弱点
-- プレイアウトで自然な評価ができない場合はダメ(将棋など)
-- 一筋だけ勝ち筋がある場合はプレイアウトでは発見できない...
- 木探索(多い選択肢に有利)とプレイアウト(深い探索に有...
- 人間の棋譜から学習 → プレイアウトの挙動を変える
- プレイアウトは完全ランダムでも,ランダム性が皆無でも弱...
- 多腕アルゴリズムの適用:LinUCB,KL-UCB,Seq. Halving,D...
- プレイアウトの規準:勝敗の1/0で,リードしていると安全に...
- 並列化
- Root 並列化,異なる乱数で探索し,1〜3の浅い部分を共有
** 離散構造と離散分布 [#v4fc5850]
石畠正和 ( NTTコミュニケーション科学基礎研究所)
- Lifted inference:述語論理を利用した効率的な離散分布の...
- 有限個の離散値に対する離散分布
- 離散確率変数の同時分布を,条件付き分布に分解して考える
- SAT問題:ある論理式が1になるような状況が存在するかどう...
- → 離散変数の期待値が多項式時間で計算できるようにしたい
- 条件付き確率表が少数のパラメータで表せるとよい → 確率の...
- 独立,条件付き独立,context specific独立(x1 が特定の値...
- モデル counting:ある論理式を1にする入力の数(#P-comple...
- 論理関数を求めることと等価になるので,コンパクトな論理...
** 大規模グラフ解析のための乱択スケッチ技法 [#zb48b9c9]
秋葉拓哉 (東京大学)
- 大規模グラフ:Web,ソーシャルネット,オントロジー → 頂...
- Min-wise Hashing
-- 集合の代わりにスケッチ(sketch)を使って効率的に計算
-- MinHash:集合の最小値に注目する
- All-Distances Sketches (ADS):
- 各頂点のハッシュ値(ランク)を割り当てて,小さなハッシ...
-- 頂点 v について,頂点 u は,ランク値が u より上位,でu...
* Deep convolutional network ネオコグニトロンによる視覚パ...
福島邦彦(ファジィシステム研究所)
- ネオコグニトロン (1979):視覚認識のためのニューラルネット
-- 大脳視覚野:V1(simple:特定の傾きが特定の位置,complex...
-- このsimple と complex 交互に繰り返す構造をもたせた
-- S細胞層(特徴抽出)とC細胞(pooling)を繰り返し,最後...
- 頑健なパターン認識
-- 前段の層では入力の局所的な特徴を,段が進むに従ってより...
-- pooling は上の層からみるとある特定の範囲をまとめる操作...
-- S細胞:入力そのもののと,入力に対する抑制効果を持つノ...
--- 抑制は今では減算だが,以前は除算だった.ノイズへの強...
-- C細胞:いくつかの入力をまとめる shared connection
- shared connectionの学習
-- シードセル:逆にみたらあるノードの出力を広げたものだか...
認識:認識をするときには,そこまでの層の学習は終了してい...
- 内挿ベクトル法:一番近いサンプルのラベルではなく,参照...
-- 幾何的な変形ではなく,二つのサンプルが混合したような画...
* Deep learning: scaling and applications [#ta787b74]
Nando de Freitas (Professor of Computer Science, Oxford U...
- 特徴を分散的に保持すると指数的に多様なパターンに対応出...
-- 画像の部分的な特徴を獲得することは強力
- パラメータ推定
-- ノードをサンプリングして,それらのみで学習しても,もと...
-- Fast-food畳み込みネット:90%ほどのノードを減らせる技法...
自然言語処理:
- 文を扱うのに,単語の前後関係をpoolingのようにする.
-- 部分空間に埋め込んだ自然言語文を用いて機械翻訳や質問応...
- 文を経由して文書全体を部分空間に埋め込むこともできる
-- saliency:異常検出的な技術で,特徴的な文を取り出して文...
-- 文書ごとに評判ラベルを与えて訓練したモデルの,文や単語...
- ビデオゲームのプレイ
-- 画像を畳み込みで部分空間に埋め込んで,それを状態とした...
* 11月18日 (火) [#k5d3d26b]
* 企画セッション2: 学習理論 [#j43e2e5c]
** 空間結合符号 [#z687e360]
笠井健太 (東京工業大学)
- 符号理論の成果:ルーピーBPによって解けるシステムをいく...
- 問題
-- n次元の x∈C(H) を送信してn次元の y を受け取る
-- C(H) は H x=0 の拘束条件を満たし,送信語は一様分布する
- MAP解 ^x(y) を求めると最適な符号が設計できる → 計算はほ...
-- しかしH をうまく疎な行列に設計できれば計算できる
- LDPC(low-density parity-check符号)→ ルーピーBPのルー...
- BEC:消失通信路とは ε の確率で,xi を送っても yi が伝わ...
-- 無限個のデータで符号全体の消失確率が 0 になるようなεの...
- 空間結合システム:こうして作ったシステムを,各入力を隣...
-- この結合の端の,拘束条件が弱いところから,誤り率が下が...
** Wasserstein幾何とφ-正規分布族 [#ue03cd03]
高津飛鳥 (名古屋大学)
- Wasserstein幾何:確率空間上の距離の幾何
- φ-正規分布族:関数φを使った正規分布の一般化,φが恒等関...
- Wasserstein幾何:物質をある空間から別の空間に損失なく送る
-- 「写像 T は測度μ0とμ1に押し出す」という
-- 距離の二乗によってコストを定義し,全ての質量を移すのに...
- Brenierによる定理:移動するときの道筋が交差しないことと...
- 二つのガウス測度の間のWasserstein距離を考える
-- Wasserstein距離を達成する T は二つのガウスの平均と分散...
-- 情報幾何で使うFisher距離とは,その振る舞いは大きく異なる
φガウス族
- ガウスの性質:指数分布族で,平均と分散で決まる.ボルツ...
-- これらの性質を,正値・非減少の関数φを使って一般化
-- φの関数でみると指数分布族であり,φを用いた対数関数でエ...
- φ(S)=S の恒等写像なら普通の関数
- φ(S)=S^q:expφ(t)=max{0, 1+(1-q)}^{1/(1-q)} → q>1 な...
-- Wasserstein距離で凸になるのは,このφがこの指数関数の場...
** 多腕バンディット問題の理論とアルゴリズム [#dba20c56]
本多淳也 (東京大学)
多腕バンディット
- スロットマシーンでできるだけ設けたいが,ある程度引いて...
- 1930年:作付け作物の選択や,新薬・新療法の検証
- 最近:囲碁などのゲーム木探索,広告,ネットワークルーテ...
バンディット問題の分類
- 報酬の性質(敵対的 vs 確率的)目的関数(リグレット最小...
- 確率的バンディット
-- K 個の腕,n 回プレイ,各腕の報酬は未知だが 期待値μiの...
-- リグレット最小化:期待値最大の腕を引き続けた場合に対す...
- 敵対的バンディット
-- 報酬は,腕の側が前回のプレイヤ選択に応じて,プレイヤの...
確率的バンディットでの報酬最大化
- 理論限界:最良でない腕を引く回数が多項式回ぐらいひくと
log n / D(μi|μ*) + o(log n)
最良の報酬とその腕の報酬のベルヌーイ分布のKLダイバージェ...
- UCB戦略:有意水準 1/n での信頼区間の上限 (upper confide...
-- 信頼区間を求めるのは難しいが Hoeffdingの不等式を使った...
- Chebycheffの不等式を使うUCB(KL-UCB)
-- KL-UCBは理論限界を達成できるが,KLダイバージェンスの逆...
-- UCB の有意水準 1/n は漸近論に依存
- Thompsonサンプリング (1933)
-- ベイズ戦略の一種,その台が最適である事後確率に従って腕...
-- 経験的に高性能,事前分布を適当に選んでも大丈夫,事後分...
-- UCB より性能は経験的には良い
-- サンプリングの実際:まともに最良の腕の事後確率を計算を...
-- 期待値が最良でない腕を選ぶ回数を最小化
- UCB と Thompsonサンプリングの関係:なぜ同じ理論限界にな...
-- TSは,最良の腕である確率が pi → 腕iを次に引くまで 1/pi...
最適腕識別とリグレット最小化
- 最適腕識別:トータル N 回のプレイで識別したい
-- 期待値最大でない腕を O(log N) 引くリグレット最小化戦略...
- UCB系では有意水準を 1/n → exp(-O(N)) とする
- 現時点で最良な腕については lower confidence bound もいい
* Current and Future Trends in Computer Vision [#m7dc9269]
David McAllester (Toyota Technological Institute at Chica...
- motion streo:二つの位置から同じものを撮る
- moving objects:移動物の検出
-- ベンチマーク画像:Midberry, KITTI driving scene
- slanted plane model 物体が部分的に平面で構成されるとす...
-- 画像のセグメンテーション,セグメントのパラメータ推定,...
-- lidar probe:レンジセンサ−
- 物体認識:深層ネットで急激にベンチマークに対する性能が...
* 11月19日 (木) [#b33f0c10]
* 企画セッション3: ビッグデータ利用の社会的側面 [#y5abc5ad]
** 産業領域におけるデータ活用への期待と現状 [#r77fdee5]
鈴木良介 (野村総合研究所)
- 2010:英Economist誌の特集,2011:TeraDataなどの外資ITベ...
- ビッグデータとは:高解像度(ターゲットが個人レベル)で...
- データそのものには価値はない:世の中のセンサー→分析→対...
-- 急ブレーキの頻度データから事故の起きやすい地点を発見(...
- 多すぎる,複雑すぎる,機微すぎるデータがとれるのも困る...
- データ活用業務:システム運用→ データハンドラ(データを...
- プライバシ:行動予測は当たっても気持ち悪い場合が,気が...
-- 不適切な推薦:硫化水素が出てしまう組み合わせが推薦された
** 情報保護の統計モデル [#c2d9f690]
星野伸明 (金沢大学)
- データを社会で利用するときの問題点の一つとしての情報保護
-- 情報保護の成果が活用されてない ← 社会的要請との関係は...
-- 法に表されいる養成を技術的問題に翻訳
- 情報保護:プライバシを守る手段の一つ
- 特定個体の秘密を暴露
-- 推測暴露:レコードの主体が分からなくても情報が漏れる(...
-- 識別暴露:レコードの主体が分かって情報が漏れる(国籍=...
- 推測暴露対策:l-多様性,t-近接性,差分プライバシ
-- 差分プライバシ:尤度をいじられるので,母数の予測精度が...
-- 問題点(私見):保護強度を緩和すると保護レベルが下がる...
- 社会的要請の具体化:法の参照から始めてみよう
-- 法は最低限の社会的要請の明示,曖昧性はあるがプライバシ...
- 個体識別の条件:キー変数/疑似識別子(照合に使う既知の変...
-- 秘密変数はいじらずに,疑似識別子を操作して個体識別の危...
-- 標本一意を全て消すk匿名化はきつすぎる → 母集団一意を許...
- データは,属性の空間を分割した分割表で表せる
- 疑似識別子が増えるとセル中のデータが疎になる → 次元数 p...
- 度数がある値になるセル数の分布は複合ポアソン分布になる ...
-- LCCP分布 → 母集団でのセル中の度数分布が推定できる
** ゲノムプライバシの保護と個別化医療への展開 [#h949c5be]
佐久間淳 (筑波大学)
- 個人ゲノム:SNPsの個人ごとの差の情報
- 予測できること
-- ○:耳垢のタイプ,乳糖不耐性 → 2型糖尿病リスク → 祖先は...
- 個人ゲノムに基づく解析
-- 類似性に基づく鑑定(本人鑑定,血縁鑑定)ゲノム疫学,個...
- 疾患リスク予測:遺伝的要因由と臨床的要因を説明変数とす...
- 個人ゲノム:コストが低下し,一度測れば不変 → 一度,測っ...
-- 強力な個人識別子でセンシティブ情報,詐欺に使える
- 予期できないリスク
-- personal genome project での同意文書の例:血縁関係の推...
-- 社会上の影響:遺伝子差別,教育への影響,ゲノムなりすま...
- 個人ゲノムを取り巻く環境とリスク
-- 血縁に影響するので,対象の個人が死んだあとも保護できな...
- Quantification of Kin Genomic Privacy (@ ACM CSS)
-- openSNP のデータ と Facebookの家族関係 → 公開されてな...
- Privacy in Personalized Warfarin Dosing (USENIX2014):W...
-- 差分プライバシはデータの損失が大きい
- 秘密関数評価による実装の紹介:個人情報と臨床情報を公開...
- 機械学習技術の立ち位置:攻撃手段,漏洩量評価,秘密計算
* 企画セッション4: 機械学習のウェブデータおよびマルチメデ...
** 大規模言語データに基づく自然言語処理とその応用 [#k0566...
岡崎直観 (東北大学)
- Webと自然言語処理:Web as Social Hypertext [Erickson 96...
データジャーナリズム
- データを処理することで記事を書く:データを収集して構造...
- 英ガーディアン誌:イギリスの暴動で,動物園の動物を逃が...
-- http://www.theguardian.com/uk/series/reading-the-riots
- WikiLeaksが公開したイラク戦争に関する秘密情報の可視化
-- http://jonathanstray.com/a-full-text-visualization-of-...
- Message Machine:オバマ大統領の寄付を呼びかけるメールが...
-- http://www.propublica.org/special/message-machine-you-...
- 2013年の参院選のツイート分析の経験
-- ツイート総数は前回の衆院選から3割減,共産党が増えて維...
- ツイート分析:RT,スパム,形態素,感情分析,キーワード...
- 無難な分析手法:単語の頻度計測ではつまらないように思え...
- 世の中の関心を自動的に掘り起こす → 児童ポルノ法やJリー...
- 特有の問題:憲法9条と96条は非常に言語的には似ているが厳...
- 福島の桃の風評被害のツイート分析
-- 可視化したリツイートネットワーク → 意見の賛否でグルー...
- 評判分析:「安いから売れたというのは」実はあまり良くな...
知識の自動獲得
- 英語のコーパス(ClueWeb 09:5億ページなど),日本語 (日...
- 関係知識の半自動獲得:文章から,ある映画の監督はだれだ...
-- 自然言語の関係パターンと関係知識の対応が必要
- 低頻度の関係パターンが難しい:部分的なパターンの組み合...
** クラウドソーシング・デマ・MOOC [#a743fa01]
鹿島久嗣 (京都大学)
クラウドソーシング
- インターネットを通じたタスク依頼
-- Amazon Mechanical Turk:数分でできるマイクロタスクを人...
- 回答の品質が低かったりするので,冗長化して精度を確保し...
-- 品質に影響する要因:ワーカ(能力,意欲など)タスク(難...
- 正解から回答が観測される生成モデル → 正解を隠れ変数とし...
-- [Dawid+ 79] 真の答えと各ワーカの能力の正解率を隠れ変数...
- [Whitehill+ 20009] 各ワーカーの各タスクに正答する確率を...
- 冗長化に基づく品質保証アプローチの限界:多数決ができる...
-- [Baba+ 2013] 非定型タスクに対応するため,答えの成否も...
クラウドソーシングの評価技術の広がり
- Web上の情報の信頼性の評価
-- Web上の記事の信頼性,デマかどうか,レビューサイトの評...
-- 同様の枠組みが利用できる
- MOOC (Massive Open Online Courses)
-- Courseraなどのインターネット上の学習プラットフォーム →...
-- 採点の質はどうやって担保する? → クラウドソーシングと...
-- 自分の回答能力は,自分の得点に依存するといったモデル
-- クラウドでは主張の真偽が主に知りたいが,MOOC では学生...
-- 講師の不特定多数化:オンラインの英会話教室
- 集団の知恵は天才を超えられるか?
-- IQテストでの分析結果:統合結果は平均より高いが,集団内...
- 鹿島先生のプロジェクト: http://universityofbigdata.net/
-- 今日からテキスト分類タスクを開始,登録コード:IBIS2014
** ウェブ上のユーザ行動の分析による消費インテリジェンス [...
松尾豊 (東京大学)
- 消費インテリジェンスの人材育成
-- ビジネススキル(マーケティング概念)サイエンススキル(...
-- 課題の例:美容家電の分析,@コスメなどのデータを分析し...
- 結婚式場選びの分析事例(ゼクシィ:結婚する人の90%は読ん...
-- 2137件の式場,上位10%の式場の30%のページビュー,40%の...
-- 式場間の勝敗関係:閲覧した中でコンバージョンがあった式...
-- 式場の嗜好は,指輪やドレスの嗜好と関連があり,それを使...
- 教育サービス分析
-- 受験サプリ:大学受験,短い動画で学習
-- 受験生の各ドロップアウトする動画を調べる → まずい講義...
-- シリーズ中のビデオの遷移状態から,分からなくなったら,...
-- PV と ドロップアウトの2軸で考えて修正すべき講義を見つ...
-- 講義の閲覧の相関
-- 合格者は夜遅くまで見てる(?),安定してアクセスしてる人...
-- 受験サプリでの,競合志望校の選択の勝敗ネットワーク → ...
終了行:
* 第17回 情報論的学習理論ワークショップ (IBIS2014) [#h8d3...
COLOR(#00AA00){このページはしましまが [[IBIS2014>IBIS#IBI...
#contents
* 11月16日 (日):第3回IBISMLチュートリアル [#l59d33c1]
* 統計・機械学習の基礎 [#ef1ae404]
池田和司 (奈良先端科学技術大学院大学)
概要:
機械学習ではデータから確率モデルを構築し、それを予測や知...
本 チュートリアルでは、機械学習の基礎となる確率・統計およ...
構築するための推定法についてその基本的な考え方を解説しま...
その後、推定において問題になる事項とその解決法を紹介しま...
決定の問題に対してノンパラメトリックベイズ法を紹介し、分...
パラメータの扱いに対してセミパラメトリック推定を紹介しま...
キーワード:
確率モデル、パラメータ推定、ノンパラメトリックベイズ法、...
- 機械学習:確率モデルを用いた問題解決法,与えられたデー...
- なぜ確率か:たくさん集まると法則が見えてくる ← 中心極限...
- ベイズの定理:データを得たことで,出現確率が変わる
- 機械学習の問題は標本からの分布の推定 → 統計の理論を使う
- パラメトリック推定
- パラメトリック:分布は θ のパラメータで表せるという前提...
-- データの独立性を仮定 → 個々のデータの確率の積で尤度が...
- 最尤推定:尤度関数を最大化するパラメータを,パラメータ...
-- 対数尤度:尤度の対数を考えると積が和に変換できて計算が...
- 推定量の性質:よい推定量とは? 不偏性,一致性,有効性
- 不偏性:推定量のいろいろなデータに対する期待値が真値に...
-- 最尤推定量は不偏推定量ではないが,データの増加に対して...
-- 1次元ガウスの例:分散の最尤推定量の期待値は [(n-1) / n...
- 一致性:標本数が増えたときに真値に一致 → 最尤推定量は漸...
- 有効性:不偏推定量のなかで分散が最小のものは? → 下界は...
- 回帰分析の例:x と y の両方にノイズがあるとき最小二乗で...
- ベイズ推定:パラメータの値ではなく,パラメータの分布を...
- MAP推定:パラメータの事後確率を最大化する点で点推定する...
- モデル選択:どんなモデルがいいのか?
-- TIC:真の分布との距離(KL div)を小さくする.AIC の一...
-- BIC:モデルの事後確率を最大化
-- MDL:符号化したときの記述長を最小化
- ノンパラメトリックベイズ法:データに応じてモデルが自動...
-- 混合分布の混合数を自動的に決めたい
- CRP:客 i は,既存のテーブルには人数に比例して,新しい...
-- テーブルの割当とパラメータを交互に推定 → Gibbsサンプリ...
- IBP:客 i が好きな料理 k をとる,今までにだれかとった料...
-- 混合要素ではなく,潜在的に存在する特徴を選びたい
-- 特徴の出現は,Bernoulli(w_k) に,特徴のパラメータはベ...
- セミパラメトリックモデル:θの他に撹乱パラメータ k に依...
-- x と y の両方のノイズを考慮した回帰分析 → データが増え...
-- セミパラメトリック:データのノイズは データごとのパラ...
-- 推定関数:パラメータとk についての x y の関数の期待値...
-- 推定関数の情報幾何:推定関数が存在するための必要十分条...
* 機械学習に基づく推薦システム [#dc5afa6e]
岩田具治 (NTT コミュニケーション科学基礎研究所)
概要:
推薦システムは、ユーザが膨大な商品集合のなかから好みの商...
助け、またオンラインストアは売上向上が期待できるため、多...
で用いられています。推薦システムは、ユーザが商品をどう評...
将来買うか)を予測する機械学習問題と見なせます。本チュー...
推薦システムの問題設定を確認した後、代表的な推薦手法であ...
基づく手法について説明します。そして行列分解手法のベイズ...
ガウス過程による非線形拡張を紹介します。また、商品情報や...
情報などが与えられたときに、それらの情報を活用して精度を...
について紹介します。
キーワード:
推薦システム、行列分解、潜在変数モデル
推薦システム
- 推薦システム:ユーザの興味に合わせておすすめのアイテム...
- 推薦手法:協調フィルタリング,内容ベース,統合アプローチ
- 協調フィルタリング:行列の欠損値補完問題に帰着できる
-- 類似度に基づく方法:嗜好が類似している人が好きなものを...
- 機械学習的アプローチ:目的を達成するようにデータを用い...
- 行列分解に基づく手法:商品の評価値を利用者とアイテムの...
-- モデルの予測評価値と実際の評価の差の二乗ノルム + 潜在...
ベイズ推定を用いた行列分解
- 行列分解の確率的解釈:2乗ノルム → 正規分布の誤差を想定...
-- 利用者とアイテムの潜在ベクトルは平均 0 の正規分布から...
-- 評価値ではなく購入・非購入の二値:ベルヌーイ分布のパラ...
-- NMF:潜在ベクトルをガンマ分布で,ポワソン分布で評価値...
- ベイズ行列分解
-- 潜在ベクトルの共役事前分布を導入 → ウィッシャート分布...
-- ユーザの潜在ベクトルの精度(ウィッシャート)+ ユーザの...
-- ベイズ推定:データが与えられたときの,平均,精度行列,...
行列分解のガウス過程による非線形拡張
- 潜在ベクトルの内積 + 正規分布 → 線形モデル
- アイテムに依存した非線形関数の利用者の潜在ベクトルでの...
-- ガウス過程を非線形関数の事前分布として利用する → 観測...
- その他の拡張
-- 時間情報:利用者やアイテムに対する評価の時変化 (Koren ...
-- アイテムや利用者の情報:複合行列分解 (Singh+ KDD2008)
-- 複数アルゴリズムのスタッキング:(Toscher+ 2009)
顧客生涯価値を高めるための推薦:IEEE trans. on KDE vol.20...
- 興味が似ている人が購入する商品 → 短絡的な規準
- 長期的利益を高める推薦:優良顧客が購入している商品,将...
- Cox比例ハザードモデルで顧客生涯価値の高いユーザに特徴的...
-- Cox比例ハザードモデル:ある商品 m' を購入したときに顧...
-- MaxEntモデル:ある商品 m を推薦したときに商品 m' を購...
-- 二つのモデルの積を m' で周辺化 → 商品 m を推薦したとき...
* 音声音響信号処理のための確率モデルと学習アルゴリズム [#...
亀岡弘和 (NTT コミュニケーション科学基礎研究所/東京大学)
概要:
音声・音楽・音響の信号処理や情報処理における問題は、主に...
変換・分離にカテゴライズされ、これらは機械学習における識...
推定などの問題に当てはまります。音響信号データは、時系列...
物理的なメカニズムに従って生成されるデータである点、に特...
これらの特徴を意識して設計された独自の確率モデルが多く提...
本チュートリアル では、音声・音楽・音響信号を対象とした各...
概観しながら、音声音響信号処理分野で提案されてきたいくつ...
確率モデルと、補助関数法と呼ぶ最適化の方法論に基づく学習...
導出方法を紹介します。
キーワード:
音声音響信号処理、認識・分析・合成・変換・分離、時系列デ...
確率モデル、学習アルゴリズム、補助関数法
- 音声・音楽・音響信号:対象:音声,音楽,音響 と 目標:...
-- 認識:音響信号 → ラベル系列を割り当てる
-- テキスト音声合成 → テキストと音声の系列モデルを学習し...
-- 音声変換:声質A→声質Bのパターンを回帰して,声質Aの音声...
-- 分析:声道パラメータ推定,多重ピッチ推定,音源定位など...
-- 分離:音声・音響信号が混ざっている信号から,それらを分解
-- 音場の分析・再現:音場そのものを,スピーカアレイで復元...
- 信号処理の基礎
-- 線形時不変システム:入力の線形和=出力の線形和,入力を...
-- スペクトログラム:いわゆる声紋,各時刻での周波数分布を...
音声分析
- 線形予測分析 (LPC):少ないパラメータで音声信号を表現
-- 過去 P 個の信号で,現在の信号値を予測する
-- 予測誤差の振幅は0付近に集中するので,出現頻度の高い振...
- 線形システム:音声信号→予測誤差 ⇒ 逆にすると ⇒ 自己回帰...
-- 音声生成過程が統計モデルで表現できる,スペクトル包絡の...
- デルタ特徴量:静的な特徴量に加えて,時間微分・時間差分...
-- トラジェクトリHMM:デルタ特徴量を含んだ状態についてのH...
音声変換
- 音声 A から B に変換する:発声障害のある人の電気音声を...
- 同一の内容を話した音声のペアのデータから,二つの信号の...
- 最尤系列変換法
多重音解析
- モノラル多重音声信号を,音源成分に分解する.オーケスト...
- NMF:スペクトログラム行列を分解すると,各楽音と,各楽音...
- スペクトログラムの声質:時間周波数展開は線形変換 → この...
- 板倉齋藤NMF:誤差を板倉齋藤距離にしたNMF
- 複合自己回帰モデル:混合信号を I 個のソースと,J 個のフ...
音響の分離
- ブラインド音源分離:複数のマイクで取得した音響信号のみ...
- 生成プロセス:複数の音源にそれぞれ残響音が加わってマイ...
-- 周波数ごとに独立した行列分解問題になる
-- 同じ音源からの周波数ごとの信号をまとめる:パーミュテー...
音韻と韻律
- 音韻(言語情報)と韻律(意図,感情,個人性)
- 藤崎モデル:甲状軟骨の物理特性に基づく韻律のモデル
- 確率モデルにも
補助関数法 (majorization minimaization)
- 目的関数の代わりに,それに合わせて設計した補助関数を反...
- EMアルゴリズム:目的関数にはない,潜在変数を導入した関...
- 目的関数の上界を表すようなものが補助関数
-- 補助関数の最小点を求めるのと,その最小点で目的関数に接...
* Pythonによる機械学習プログラミング [#s5865c63]
神嶌敏弘 (産業技術総合研究所)
概要:
本講演では Python による機械学習プログラミングの基本的な...
関連したパッケージを紹介する。なお、プログラミング言語 Py...
プログラミングに関する基本的な知識についてはふれない。
前半では、Python による数値計算の基本パッケージである Num...
紹介する。Python による数値計算環境についてふれたのち、Nu...
生成と操作について述べ、数式を実装する手続きを紹介する。S...
利用できる関数群の概要を紹介する。
後半では、数値計算に関連したパッケージ群を紹介する。対話...
の IPython、グラフ描画のための matplotlib、機械学習アルゴ...
どの関連パッケージの概要を紹介し、最後にさらに Python に...
について詳しく知るための情報源を紹介する。
キーワード:
Python、NumPy、 SciPy、 科学技術計算、 数値計算プログラミ...
* 11月17日 (月) [#n203e787]
*企画セッション1:離散アルゴリズムの機械学習応用 [#z5fae8...
** モンテカルロ木探索の理論と実践 [#p83cf8fb]
美添一樹 (東京大学)
- チェスや将棋は人間を超えたが,囲碁は長い間強さが停滞し...
-- 探索木(A*やminmax)のように全ての接点を評価する → モ...
- 評価関数:オセロのスミのように特別な場所がなく,終局が...
- ランダムに合法手を打って終局まで打って(プレイアウト)...
- 原始モンテカルロは,相手の失敗を期待するような手 → 良さ...
-- 二人ゲームだけはなくて,多人数対戦ゲームや,パックマン...
-- 自然言語処理やスケジューリングなどもできるようになった
- 多腕バンディット:腕→合法手,報酬→勝率,制限回数→考慮時...
- UCTアルゴリズム:Upper Confidence bound applied to Tree...
-- UCB1の規準は実際のプログラムでは弱い → ヒューリスティ...
- モンテカルロ木探索の弱点
-- プレイアウトで自然な評価ができない場合はダメ(将棋など)
-- 一筋だけ勝ち筋がある場合はプレイアウトでは発見できない...
- 木探索(多い選択肢に有利)とプレイアウト(深い探索に有...
- 人間の棋譜から学習 → プレイアウトの挙動を変える
- プレイアウトは完全ランダムでも,ランダム性が皆無でも弱...
- 多腕アルゴリズムの適用:LinUCB,KL-UCB,Seq. Halving,D...
- プレイアウトの規準:勝敗の1/0で,リードしていると安全に...
- 並列化
- Root 並列化,異なる乱数で探索し,1〜3の浅い部分を共有
** 離散構造と離散分布 [#v4fc5850]
石畠正和 ( NTTコミュニケーション科学基礎研究所)
- Lifted inference:述語論理を利用した効率的な離散分布の...
- 有限個の離散値に対する離散分布
- 離散確率変数の同時分布を,条件付き分布に分解して考える
- SAT問題:ある論理式が1になるような状況が存在するかどう...
- → 離散変数の期待値が多項式時間で計算できるようにしたい
- 条件付き確率表が少数のパラメータで表せるとよい → 確率の...
- 独立,条件付き独立,context specific独立(x1 が特定の値...
- モデル counting:ある論理式を1にする入力の数(#P-comple...
- 論理関数を求めることと等価になるので,コンパクトな論理...
** 大規模グラフ解析のための乱択スケッチ技法 [#zb48b9c9]
秋葉拓哉 (東京大学)
- 大規模グラフ:Web,ソーシャルネット,オントロジー → 頂...
- Min-wise Hashing
-- 集合の代わりにスケッチ(sketch)を使って効率的に計算
-- MinHash:集合の最小値に注目する
- All-Distances Sketches (ADS):
- 各頂点のハッシュ値(ランク)を割り当てて,小さなハッシ...
-- 頂点 v について,頂点 u は,ランク値が u より上位,でu...
* Deep convolutional network ネオコグニトロンによる視覚パ...
福島邦彦(ファジィシステム研究所)
- ネオコグニトロン (1979):視覚認識のためのニューラルネット
-- 大脳視覚野:V1(simple:特定の傾きが特定の位置,complex...
-- このsimple と complex 交互に繰り返す構造をもたせた
-- S細胞層(特徴抽出)とC細胞(pooling)を繰り返し,最後...
- 頑健なパターン認識
-- 前段の層では入力の局所的な特徴を,段が進むに従ってより...
-- pooling は上の層からみるとある特定の範囲をまとめる操作...
-- S細胞:入力そのもののと,入力に対する抑制効果を持つノ...
--- 抑制は今では減算だが,以前は除算だった.ノイズへの強...
-- C細胞:いくつかの入力をまとめる shared connection
- shared connectionの学習
-- シードセル:逆にみたらあるノードの出力を広げたものだか...
認識:認識をするときには,そこまでの層の学習は終了してい...
- 内挿ベクトル法:一番近いサンプルのラベルではなく,参照...
-- 幾何的な変形ではなく,二つのサンプルが混合したような画...
* Deep learning: scaling and applications [#ta787b74]
Nando de Freitas (Professor of Computer Science, Oxford U...
- 特徴を分散的に保持すると指数的に多様なパターンに対応出...
-- 画像の部分的な特徴を獲得することは強力
- パラメータ推定
-- ノードをサンプリングして,それらのみで学習しても,もと...
-- Fast-food畳み込みネット:90%ほどのノードを減らせる技法...
自然言語処理:
- 文を扱うのに,単語の前後関係をpoolingのようにする.
-- 部分空間に埋め込んだ自然言語文を用いて機械翻訳や質問応...
- 文を経由して文書全体を部分空間に埋め込むこともできる
-- saliency:異常検出的な技術で,特徴的な文を取り出して文...
-- 文書ごとに評判ラベルを与えて訓練したモデルの,文や単語...
- ビデオゲームのプレイ
-- 画像を畳み込みで部分空間に埋め込んで,それを状態とした...
* 11月18日 (火) [#k5d3d26b]
* 企画セッション2: 学習理論 [#j43e2e5c]
** 空間結合符号 [#z687e360]
笠井健太 (東京工業大学)
- 符号理論の成果:ルーピーBPによって解けるシステムをいく...
- 問題
-- n次元の x∈C(H) を送信してn次元の y を受け取る
-- C(H) は H x=0 の拘束条件を満たし,送信語は一様分布する
- MAP解 ^x(y) を求めると最適な符号が設計できる → 計算はほ...
-- しかしH をうまく疎な行列に設計できれば計算できる
- LDPC(low-density parity-check符号)→ ルーピーBPのルー...
- BEC:消失通信路とは ε の確率で,xi を送っても yi が伝わ...
-- 無限個のデータで符号全体の消失確率が 0 になるようなεの...
- 空間結合システム:こうして作ったシステムを,各入力を隣...
-- この結合の端の,拘束条件が弱いところから,誤り率が下が...
** Wasserstein幾何とφ-正規分布族 [#ue03cd03]
高津飛鳥 (名古屋大学)
- Wasserstein幾何:確率空間上の距離の幾何
- φ-正規分布族:関数φを使った正規分布の一般化,φが恒等関...
- Wasserstein幾何:物質をある空間から別の空間に損失なく送る
-- 「写像 T は測度μ0とμ1に押し出す」という
-- 距離の二乗によってコストを定義し,全ての質量を移すのに...
- Brenierによる定理:移動するときの道筋が交差しないことと...
- 二つのガウス測度の間のWasserstein距離を考える
-- Wasserstein距離を達成する T は二つのガウスの平均と分散...
-- 情報幾何で使うFisher距離とは,その振る舞いは大きく異なる
φガウス族
- ガウスの性質:指数分布族で,平均と分散で決まる.ボルツ...
-- これらの性質を,正値・非減少の関数φを使って一般化
-- φの関数でみると指数分布族であり,φを用いた対数関数でエ...
- φ(S)=S の恒等写像なら普通の関数
- φ(S)=S^q:expφ(t)=max{0, 1+(1-q)}^{1/(1-q)} → q>1 な...
-- Wasserstein距離で凸になるのは,このφがこの指数関数の場...
** 多腕バンディット問題の理論とアルゴリズム [#dba20c56]
本多淳也 (東京大学)
多腕バンディット
- スロットマシーンでできるだけ設けたいが,ある程度引いて...
- 1930年:作付け作物の選択や,新薬・新療法の検証
- 最近:囲碁などのゲーム木探索,広告,ネットワークルーテ...
バンディット問題の分類
- 報酬の性質(敵対的 vs 確率的)目的関数(リグレット最小...
- 確率的バンディット
-- K 個の腕,n 回プレイ,各腕の報酬は未知だが 期待値μiの...
-- リグレット最小化:期待値最大の腕を引き続けた場合に対す...
- 敵対的バンディット
-- 報酬は,腕の側が前回のプレイヤ選択に応じて,プレイヤの...
確率的バンディットでの報酬最大化
- 理論限界:最良でない腕を引く回数が多項式回ぐらいひくと
log n / D(μi|μ*) + o(log n)
最良の報酬とその腕の報酬のベルヌーイ分布のKLダイバージェ...
- UCB戦略:有意水準 1/n での信頼区間の上限 (upper confide...
-- 信頼区間を求めるのは難しいが Hoeffdingの不等式を使った...
- Chebycheffの不等式を使うUCB(KL-UCB)
-- KL-UCBは理論限界を達成できるが,KLダイバージェンスの逆...
-- UCB の有意水準 1/n は漸近論に依存
- Thompsonサンプリング (1933)
-- ベイズ戦略の一種,その台が最適である事後確率に従って腕...
-- 経験的に高性能,事前分布を適当に選んでも大丈夫,事後分...
-- UCB より性能は経験的には良い
-- サンプリングの実際:まともに最良の腕の事後確率を計算を...
-- 期待値が最良でない腕を選ぶ回数を最小化
- UCB と Thompsonサンプリングの関係:なぜ同じ理論限界にな...
-- TSは,最良の腕である確率が pi → 腕iを次に引くまで 1/pi...
最適腕識別とリグレット最小化
- 最適腕識別:トータル N 回のプレイで識別したい
-- 期待値最大でない腕を O(log N) 引くリグレット最小化戦略...
- UCB系では有意水準を 1/n → exp(-O(N)) とする
- 現時点で最良な腕については lower confidence bound もいい
* Current and Future Trends in Computer Vision [#m7dc9269]
David McAllester (Toyota Technological Institute at Chica...
- motion streo:二つの位置から同じものを撮る
- moving objects:移動物の検出
-- ベンチマーク画像:Midberry, KITTI driving scene
- slanted plane model 物体が部分的に平面で構成されるとす...
-- 画像のセグメンテーション,セグメントのパラメータ推定,...
-- lidar probe:レンジセンサ−
- 物体認識:深層ネットで急激にベンチマークに対する性能が...
* 11月19日 (木) [#b33f0c10]
* 企画セッション3: ビッグデータ利用の社会的側面 [#y5abc5ad]
** 産業領域におけるデータ活用への期待と現状 [#r77fdee5]
鈴木良介 (野村総合研究所)
- 2010:英Economist誌の特集,2011:TeraDataなどの外資ITベ...
- ビッグデータとは:高解像度(ターゲットが個人レベル)で...
- データそのものには価値はない:世の中のセンサー→分析→対...
-- 急ブレーキの頻度データから事故の起きやすい地点を発見(...
- 多すぎる,複雑すぎる,機微すぎるデータがとれるのも困る...
- データ活用業務:システム運用→ データハンドラ(データを...
- プライバシ:行動予測は当たっても気持ち悪い場合が,気が...
-- 不適切な推薦:硫化水素が出てしまう組み合わせが推薦された
** 情報保護の統計モデル [#c2d9f690]
星野伸明 (金沢大学)
- データを社会で利用するときの問題点の一つとしての情報保護
-- 情報保護の成果が活用されてない ← 社会的要請との関係は...
-- 法に表されいる養成を技術的問題に翻訳
- 情報保護:プライバシを守る手段の一つ
- 特定個体の秘密を暴露
-- 推測暴露:レコードの主体が分からなくても情報が漏れる(...
-- 識別暴露:レコードの主体が分かって情報が漏れる(国籍=...
- 推測暴露対策:l-多様性,t-近接性,差分プライバシ
-- 差分プライバシ:尤度をいじられるので,母数の予測精度が...
-- 問題点(私見):保護強度を緩和すると保護レベルが下がる...
- 社会的要請の具体化:法の参照から始めてみよう
-- 法は最低限の社会的要請の明示,曖昧性はあるがプライバシ...
- 個体識別の条件:キー変数/疑似識別子(照合に使う既知の変...
-- 秘密変数はいじらずに,疑似識別子を操作して個体識別の危...
-- 標本一意を全て消すk匿名化はきつすぎる → 母集団一意を許...
- データは,属性の空間を分割した分割表で表せる
- 疑似識別子が増えるとセル中のデータが疎になる → 次元数 p...
- 度数がある値になるセル数の分布は複合ポアソン分布になる ...
-- LCCP分布 → 母集団でのセル中の度数分布が推定できる
** ゲノムプライバシの保護と個別化医療への展開 [#h949c5be]
佐久間淳 (筑波大学)
- 個人ゲノム:SNPsの個人ごとの差の情報
- 予測できること
-- ○:耳垢のタイプ,乳糖不耐性 → 2型糖尿病リスク → 祖先は...
- 個人ゲノムに基づく解析
-- 類似性に基づく鑑定(本人鑑定,血縁鑑定)ゲノム疫学,個...
- 疾患リスク予測:遺伝的要因由と臨床的要因を説明変数とす...
- 個人ゲノム:コストが低下し,一度測れば不変 → 一度,測っ...
-- 強力な個人識別子でセンシティブ情報,詐欺に使える
- 予期できないリスク
-- personal genome project での同意文書の例:血縁関係の推...
-- 社会上の影響:遺伝子差別,教育への影響,ゲノムなりすま...
- 個人ゲノムを取り巻く環境とリスク
-- 血縁に影響するので,対象の個人が死んだあとも保護できな...
- Quantification of Kin Genomic Privacy (@ ACM CSS)
-- openSNP のデータ と Facebookの家族関係 → 公開されてな...
- Privacy in Personalized Warfarin Dosing (USENIX2014):W...
-- 差分プライバシはデータの損失が大きい
- 秘密関数評価による実装の紹介:個人情報と臨床情報を公開...
- 機械学習技術の立ち位置:攻撃手段,漏洩量評価,秘密計算
* 企画セッション4: 機械学習のウェブデータおよびマルチメデ...
** 大規模言語データに基づく自然言語処理とその応用 [#k0566...
岡崎直観 (東北大学)
- Webと自然言語処理:Web as Social Hypertext [Erickson 96...
データジャーナリズム
- データを処理することで記事を書く:データを収集して構造...
- 英ガーディアン誌:イギリスの暴動で,動物園の動物を逃が...
-- http://www.theguardian.com/uk/series/reading-the-riots
- WikiLeaksが公開したイラク戦争に関する秘密情報の可視化
-- http://jonathanstray.com/a-full-text-visualization-of-...
- Message Machine:オバマ大統領の寄付を呼びかけるメールが...
-- http://www.propublica.org/special/message-machine-you-...
- 2013年の参院選のツイート分析の経験
-- ツイート総数は前回の衆院選から3割減,共産党が増えて維...
- ツイート分析:RT,スパム,形態素,感情分析,キーワード...
- 無難な分析手法:単語の頻度計測ではつまらないように思え...
- 世の中の関心を自動的に掘り起こす → 児童ポルノ法やJリー...
- 特有の問題:憲法9条と96条は非常に言語的には似ているが厳...
- 福島の桃の風評被害のツイート分析
-- 可視化したリツイートネットワーク → 意見の賛否でグルー...
- 評判分析:「安いから売れたというのは」実はあまり良くな...
知識の自動獲得
- 英語のコーパス(ClueWeb 09:5億ページなど),日本語 (日...
- 関係知識の半自動獲得:文章から,ある映画の監督はだれだ...
-- 自然言語の関係パターンと関係知識の対応が必要
- 低頻度の関係パターンが難しい:部分的なパターンの組み合...
** クラウドソーシング・デマ・MOOC [#a743fa01]
鹿島久嗣 (京都大学)
クラウドソーシング
- インターネットを通じたタスク依頼
-- Amazon Mechanical Turk:数分でできるマイクロタスクを人...
- 回答の品質が低かったりするので,冗長化して精度を確保し...
-- 品質に影響する要因:ワーカ(能力,意欲など)タスク(難...
- 正解から回答が観測される生成モデル → 正解を隠れ変数とし...
-- [Dawid+ 79] 真の答えと各ワーカの能力の正解率を隠れ変数...
- [Whitehill+ 20009] 各ワーカーの各タスクに正答する確率を...
- 冗長化に基づく品質保証アプローチの限界:多数決ができる...
-- [Baba+ 2013] 非定型タスクに対応するため,答えの成否も...
クラウドソーシングの評価技術の広がり
- Web上の情報の信頼性の評価
-- Web上の記事の信頼性,デマかどうか,レビューサイトの評...
-- 同様の枠組みが利用できる
- MOOC (Massive Open Online Courses)
-- Courseraなどのインターネット上の学習プラットフォーム →...
-- 採点の質はどうやって担保する? → クラウドソーシングと...
-- 自分の回答能力は,自分の得点に依存するといったモデル
-- クラウドでは主張の真偽が主に知りたいが,MOOC では学生...
-- 講師の不特定多数化:オンラインの英会話教室
- 集団の知恵は天才を超えられるか?
-- IQテストでの分析結果:統合結果は平均より高いが,集団内...
- 鹿島先生のプロジェクト: http://universityofbigdata.net/
-- 今日からテキスト分類タスクを開始,登録コード:IBIS2014
** ウェブ上のユーザ行動の分析による消費インテリジェンス [...
松尾豊 (東京大学)
- 消費インテリジェンスの人材育成
-- ビジネススキル(マーケティング概念)サイエンススキル(...
-- 課題の例:美容家電の分析,@コスメなどのデータを分析し...
- 結婚式場選びの分析事例(ゼクシィ:結婚する人の90%は読ん...
-- 2137件の式場,上位10%の式場の30%のページビュー,40%の...
-- 式場間の勝敗関係:閲覧した中でコンバージョンがあった式...
-- 式場の嗜好は,指輪やドレスの嗜好と関連があり,それを使...
- 教育サービス分析
-- 受験サプリ:大学受験,短い動画で学習
-- 受験生の各ドロップアウトする動画を調べる → まずい講義...
-- シリーズ中のビデオの遷移状態から,分からなくなったら,...
-- PV と ドロップアウトの2軸で考えて修正すべき講義を見つ...
-- 講義の閲覧の相関
-- 合格者は夜遅くまで見てる(?),安定してアクセスしてる人...
-- 受験サプリでの,競合志望校の選択の勝敗ネットワーク → ...
ページ名: