第17回 情報論的学習理論ワークショップ (IBIS2014)

このページはしましまIBIS2014 に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.

11月16日 (日):第3回IBISMLチュートリアル

統計・機械学習の基礎

池田和司 (奈良先端科学技術大学院大学)

概要: 機械学習ではデータから確率モデルを構築し、それを予測や知識発見に利用します。 本 チュートリアルでは、機械学習の基礎となる確率・統計および確率モデルの構築を 構築するための推定法についてその基本的な考え方を解説します。 その後、推定において問題になる事項とその解決法を紹介します。特に、モデルサイズ 決定の問題に対してノンパラメトリックベイズ法を紹介し、分布を仮定できない パラメータの扱いに対してセミパラメトリック推定を紹介します。

キーワード: 確率モデル、パラメータ推定、ノンパラメトリックベイズ法、セミパラメトリック推定

  • 機械学習:確率モデルを用いた問題解決法,与えられたデータの背後にある規則を獲得
  • なぜ確率か:たくさん集まると法則が見えてくる ← 中心極限定理
  • ベイズの定理:データを得たことで,出現確率が変わる
  • 機械学習の問題は標本からの分布の推定 → 統計の理論を使う
  • パラメトリック推定
  • パラメトリック:分布は θ のパラメータで表せるという前提 → 関数の推定の問題がパラメータの値の推定の問題に簡略化
    • データの独立性を仮定 → 個々のデータの確率の積で尤度が書ける
  • 最尤推定:尤度関数を最大化するパラメータを,パラメータの推定値にする
    • 対数尤度:尤度の対数を考えると積が和に変換できて計算が容易に
  • 推定量の性質:よい推定量とは? 不偏性,一致性,有効性
  • 不偏性:推定量のいろいろなデータに対する期待値が真値に一致
    • 最尤推定量は不偏推定量ではないが,データの増加に対して一致する漸近不偏推定量
    • 1次元ガウスの例:分散の最尤推定量の期待値は [(n-1) / n] σ^2 なので σ^2 の真値に一致していない
  • 一致性:標本数が増えたときに真値に一致 → 最尤推定量は漸近不偏推定量なので一致性がある
  • 有効性:不偏推定量のなかで分散が最小のものは? → 下界はCramer-Rao の不等式
  • 回帰分析の例:x と y の両方にノイズがあるとき最小二乗で回帰分析をすると x のノイズが考慮できない → 一致性がない
  • ベイズ推定:パラメータの値ではなく,パラメータの分布を求める
  • MAP推定:パラメータの事後確率を最大化する点で点推定するとMAP推定 → 対数尤度 + 正則化項 の計算をしているのと同じ
  • モデル選択:どんなモデルがいいのか?
    • TIC:真の分布との距離(KL div)を小さくする.AIC の一般形
    • BIC:モデル事後確率を最大化
    • MDL:符号化したときの記述長を最小化
  • ノンパラメトリックベイズ法:データに応じてモデルが自動的に定まる
  • CRP:客 i は,既存のテーブルには人数に比例して,新しいテーブルにはパラメータ α に依存して配置 → テーブルが決まれば,それに対応した事前分布確率測度)からパラメータを生成
    • テーブルの割当とパラメータを交互に推定 → Gibbsサンプリング
  • IBP:客 i が好きな料理 k をとる,今までにだれかとった料理をとる確率は人数に比例,新しい料理の数は Poasson(α/i) 分布に従う
    • 混合要素ではなく,潜在的に存在する特徴を選びたい
    • 特徴の出現は,Bernoulli(w_k) に,特徴のパラメータはベータ過程に従う
  • セミパラメトリックモデル:θの他に撹乱パラメータ k に依存するが,それが未知の ξ に依存
    • x と y の両方のノイズを考慮した回帰分析 → データが増えると,データ数に依存して未知パラメータξの数も増えるので漸近最適にならない
    • セミパラメトリック:データのノイズは データごとのパラメータではなく,未知分布 k(ξ) から生成されるとモデル化 → 推定関数法で解ける
    • 推定関数:パラメータとk についての x y の関数の期待値は 0,ただし,パラメータえの微分の期待値は 0 ではない
    • 推定関数の情報幾何:推定関数が存在するための必要十分条件などが分かる

機械学習に基づく推薦システム

岩田具治 (NTT コミュニケーション科学基礎研究所)

概要: 推薦システムは、ユーザが膨大な商品集合のなかから好みの商品を見つけるのを 助け、またオンラインストアは売上向上が期待できるため、多くのオンラインストア で用いられています。推薦システムは、ユーザが商品をどう評価するか(もしくは 将来買うか)を予測する機械学習問題と見なせます。本チュートリアルでは、 推薦システムの問題設定を確認した後、代表的な推薦手法である行列分解に 基づく手法について説明します。そして行列分解手法のベイズ統計による拡張や ガウス過程による非線形拡張を紹介します。また、商品情報やユーザ情報、時間 情報などが与えられたときに、それらの情報を活用して精度を上げるための手法 について紹介します。

キーワード: 推薦システム、行列分解、潜在変数モデル

推薦システム

  • 推薦システム:ユーザの興味に合わせておすすめのアイテムを提示
  • 推薦手法:協調フィルタリング,内容ベース,統合アプローチ
  • 協調フィルタリング:行列の欠損値補完問題に帰着できる
    • 類似度に基づく方法:嗜好が類似している人が好きなものを推薦 → 類似度の定義は自明ではない
  • 機械学習的アプローチ:目的を達成するようにデータを用いてモデルを学習
  • 行列分解に基づく手法:商品の評価値を利用者とアイテムの潜在ベクトルの内積で表す
    • モデルの予測評価値と実際の評価の差の二乗ノルム + 潜在ベクトルの正則化

ベイズ推定を用いた行列分解

行列分解のガウス過程による非線形拡張

  • 潜在ベクトルの内積 + 正規分布線形モデル
  • アイテムに依存した非線形関数の利用者の潜在ベクトルでの値を平均とする正規分布 → 非線形モデル
    • ガウス過程を非線形関数の事前分布として利用する → 観測が正規分布に従うなら,関数は積分消去できて,評価値の分布が簡潔に表せる
  • その他の拡張
    • 時間情報:利用者やアイテムに対する評価の時変化 (Koren KDD2009)
    • アイテムや利用者の情報:複合行列分解 (Singh+ KDD2008)
    • 複数アルゴリズムのスタッキング:(Toscher+ 2009)

顧客生涯価値を高めるための推薦:IEEE trans. on KDE vol.20, no.9, pp.1254-1263 (2008)

  • 興味が似ている人が購入する商品 → 短絡的な規準
  • 長期的利益を高める推薦:優良顧客が購入している商品,将来の購入確率を高める商品
  • Cox比例ハザードモデルで顧客生涯価値の高いユーザに特徴的なパターン → MaxEntでユーザの興味を推定 → 興味を考慮しつつ顧客生涯価値の高い利用者と購買パターンが類似するようにする
    • Cox比例ハザードモデル:ある商品 m' を購入したときに顧客生涯価値が向上する確率
    • MaxEntモデル:ある商品 m を推薦したときに商品 m' を購入する確率
    • 二つのモデルの積を m' で周辺化 → 商品 m を推薦したときに顧客生涯価値が向上する確率

音声音響信号処理のための確率モデルと学習アルゴリズム

亀岡弘和 (NTT コミュニケーション科学基礎研究所/東京大学)

概要: 音声・音楽・音響の信号処理や情報処理における問題は、主に認識・分析・合成・ 変換・分離にカテゴライズされ、これらは機械学習における識別・回帰・パラメータ 推定などの問題に当てはまります。音響信号データは、時系列データである点、 物理的なメカニズムに従って生成されるデータである点、に特殊性があり、当分野では これらの特徴を意識して設計された独自の確率モデルが多く提案されています。 本チュートリアル では、音声・音楽・音響信号を対象とした各種機械学習問題を 概観しながら、音声音響信号処理分野で提案されてきたいくつか のユニークな 確率モデルと、補助関数法と呼ぶ最適化の方法論に基づく学習アルゴリズムの 導出方法を紹介します。

キーワード: 音声音響信号処理、認識・分析・合成・変換・分離、時系列データ、生成過程モデル、 確率モデル、学習アルゴリズム、補助関数法

  • 音声・音楽・音響信号:対象:音声,音楽,音響 と 目標:認識,分析,合成,変換,分離
    • 認識:音響信号 → ラベル系列を割り当てる
    • テキスト音声合成 → テキストと音声の系列モデルを学習し,テキストを入力
    • 音声変換:声質A→声質Bのパターンを回帰して,声質Aの音声をBに変換する
    • 分析:声道パラメータ推定,多重ピッチ推定,音源定位など → 音響信号のパラメータの推定
    • 分離:音声・音響信号が混ざっている信号から,それらを分解
    • 音場の分析・再現:音場そのものを,スピーカアレイで復元する
  • 信号処理の基礎
    • 線形時不変システム:入力の線形和=出力の線形和,入力をτ時間移動すると出力もτ時間移動 → たたみ込み=フーリエ変換した空間での積 で扱える
    • スペクトログラム:いわゆる声紋,各時刻での周波数分布を2次元で表示したもの

音声分析

  • 線形予測分析 (LPC):少ないパラメータで音声信号を表現
    • 過去 P 個の信号で,現在の信号値を予測する
    • 予測誤差の振幅は0付近に集中するので,出現頻度の高い振幅値に短い符号を割当:Golomb-Rice符号化
  • 線形システム:音声信号→予測誤差 ⇒ 逆にすると ⇒ 自己回帰システム:予測誤差→信号
    • 音声生成過程が統計モデルで表現できる,スペクトル包絡の推定に該当
  • デルタ特徴量:静的な特徴量に加えて,時間微分・時間差分も同時に特徴として与える
    • トラジェクトリHMM:デルタ特徴量を含んだ状態についてのHMM → ふつうのHMMは区分定常だが,それがなめらかに変化する信号をモデル

音声変換

  • 音声 A から B に変換する:発声障害のある人の電気音声を,肉声に近い音に変換
  • 同一の内容を話した音声のペアのデータから,二つの信号の同時分布を学習
  • 最尤系列変換法

多重音解析

  • モノラル多重音声信号を,音源成分に分解する.オーケストラ演奏を楽器ごとに
  • NMF:スペクトログラム行列を分解すると,各楽音と,各楽音のアクティベーションに分解できる
  • スペクトログラムの声質:時間周波数展開は線形変換 → この声質を反映させた複素NMF
  • 板倉齋藤NMF:誤差を板倉齋藤距離にしたNMF
  • 複合自己回帰モデル:混合信号を I 個のソースと,J 個のフィルタの和で表現

音響の分離

  • ブラインド音源分離:複数のマイクで取得した音響信号のみから,各音源信号を分離
  • 生成プロセス:複数の音源にそれぞれ残響音が加わってマイクに入る → 畳み込み混合
    • 周波数ごとに独立した行列分解問題になる
    • 同じ音源からの周波数ごとの信号をまとめる:パーミュテーション整合

音韻と韻律

  • 音韻(言語情報)と韻律(意図,感情,個人性)
  • 藤崎モデル:甲状軟骨の物理特性に基づく韻律のモデル
  • 確率モデルにも

補助関数法 (majorization minimaization)

  • 目的関数の代わりに,それに合わせて設計した補助関数を反復的に最適化することで効率的に最適化
  • EMアルゴリズム:目的関数にはない,潜在変数を導入した関数を考えている
  • 目的関数の上界を表すようなものが補助関数
    • 補助関数の最小点を求めるのと,その最小点で目的関数に接する補助関数を交互に求める

Pythonによる機械学習プログラミング

神嶌敏弘 (産業技術総合研究所)

概要: 本講演では Python による機械学習プログラミングの基本的な操作および、 機械学習に 関連したパッケージを紹介する。なお、プログラミング言語 Python の文法や数値計算 プログラミングに関する基本的な知識についてはふれない。 前半では、Python による数値計算の基本パッケージである NumPy と SciPy について 紹介する。Python による数値計算環境についてふれたのち、NumPy を用いた配列の 生成と操作について述べ、数式を実装する手続きを紹介する。SciPy については、 利用できる関数群の概要を紹介する。 後半では、数値計算に関連したパッケージ群を紹介する。対話環境を構築するため の IPython、グラフ描画のための matplotlib、機械学習アルゴリズム scikit-learn な どの関連パッケージの概要を紹介し、最後にさらに Python による数値プログラミング について詳しく知るための情報源を紹介する。

キーワード: Python、NumPy、 SciPy、 科学技術計算、 数値計算プログラミング

11月17日 (月)

企画セッション1:離散アルゴリズム機械学習応用

モンテカルロ木探索の理論と実践

美添一樹 (東京大学)

  • チェスや将棋は人間を超えたが,囲碁は長い間強さが停滞していた → 2006年のモンテカルロ木の導入によって強くなりだした
    • 探索木(A*やminmax)のように全ての接点を評価する → モンテカルロ木探索:ランダムに探索してうまくいくものを選ぶ
  • 評価関数:オセロのスミのように特別な場所がなく,終局が囲碁では想像できない → 作るのが難しい
  • ランダムに合法手を打って終局まで打って(プレイアウト)いって,うまくいく確率の高い手はよい手とする
  • 原始モンテカルロは,相手の失敗を期待するような手 → 良さところを深く読むような改良
    • 二人ゲームだけはなくて,多人数対戦ゲームや,パックマンなどにも有効
    • 自然言語処理やスケジューリングなどもできるようになった
  • 多腕バンディット:腕→合法手,報酬→勝率,制限回数→考慮時間と対応しており,regret最小化→最善手発見はちょっと違うが使ってみた
  • UCTアルゴリズム:Upper Confidence bound applied to Trees → 探索木の接点を比較する
    • UCB1の規準は実際のプログラムでは弱い → ヒューリスティックな選択規準が多い
  • モンテカルロ木探索の弱点
    • プレイアウトで自然な評価ができない場合はダメ(将棋など)
    • 一筋だけ勝ち筋がある場合はプレイアウトでは発見できない → 囲碁のシチョウには弱い
  • 木探索(多い選択肢に有利)とプレイアウト(深い探索に有利)→ 組み合わせ
  • 人間の棋譜から学習 → プレイアウトの挙動を変える
  • プレイアウトは完全ランダムでも,ランダム性が皆無でも弱くて,バランスが重要
  • 多腕アルゴリズムの適用:LinUCB,KL-UCB,Seq. Halving,Discounted UCB
  • プレイアウトの規準:勝敗の1/0で,リードしていると安全に,不利だと攻撃的に打つ
  • 並列化
  • Root 並列化,異なる乱数で探索し,1〜3の浅い部分を共有

離散構造と離散分布

石畠正和 ( NTTコミュニケーション科学基礎研究所)

  • Lifted inference:述語論理を利用した効率的な離散分布の計算 → partial exchangeabilityを効率的に扱う計算法に発展
  • 有限個の離散値に対する離散分布
  • 離散確率変数同時分布を,条件付き分布に分解して考える
  • SAT問題:ある論理式が1になるような状況が存在するかどうかはNP完全 ⇔ ある確率が 0 でないことがあるかどうかもNP完全
  • → 離散変数の期待値が多項式時間で計算できるようにしたい
  • 条件付き確率表が少数のパラメータで表せるとよい → 確率の独立性を使う
  • 独立,条件付き独立,context specific独立(x1 が特定の値のときだけ x2 と x3 は独立)partial exchangeability(条件部の変数の関数 T によって,条件付き確率表で共有されるパラメータが決まる)
  • モデル counting:ある論理式を1にする入力の数(#P-complete とても困難)→ ができれば期待値が計算できる
  • 論理関数を求めることと等価になるので,コンパクトな論理表現(BDD,ZDDなど)で表して効率化

大規模グラフ解析のための乱択スケッチ技法

秋葉拓哉 (東京大学)

  • 大規模グラフ:Web,ソーシャルネット,オントロジー → 頂点の重要度,超転換の関連,グラフの特性
  • Min-wise Hashing
    • 集合の代わりにスケッチ(sketch)を使って効率的に計算
    • MinHash:集合の最小値に注目する
  • All-Distances Sketches (ADS):
  • 各頂点のハッシュ値(ランク)を割り当てて,小さなハッシュ値のものほど上位と考える
    • 頂点 v について,頂点 u は,ランク値が u より上位,でu-v間の距離がuより小さな他の頂点がたかだかk個の頂点 u はハッシュに含める(?)

Deep convolutional network ネオコグニトロンによる視覚パターン認識: その原理と学習手法

福島邦彦(ファジィシステム研究所)

  • ネオコグニトロン (1979):視覚認識のためのニューラルネット
    • 大脳視覚野:V1(simple:特定の傾きが特定の位置,complex:位置が多少ずれても認識するなど)
    • このsimple と complex 交互に繰り返す構造をもたせた
    • S細胞層(特徴抽出)とC細胞(pooling)を繰り返し,最後に分類をする層が付いている
  • 頑健なパターン認識
    • 前段の層では入力の局所的な特徴を,段が進むに従ってより広範囲の特徴を考えるように
    • pooling は上の層からみるとある特定の範囲をまとめる操作だが,下の層からみると出力をある範囲にぼかす操作
    • S細胞:入力そのもののと,入力に対する抑制効果を持つノードからの入力を重み付けで集約する
      • 抑制は今では減算だが,以前は除算だった.ノイズへの強さを
    • C細胞:いくつかの入力をまとめる shared connection
  • shared connectionの学習
    • シードセル:逆にみたらあるノードの出力を広げたものだから,その一点になっているノードを学習すればよい

認識:認識をするときには,そこまでの層の学習は終了している.

  • 内挿ベクトル法:一番近いサンプルのラベルではなく,参照ベクトルを結ぶ線分の中で一番近いものを探す
    • 幾何的な変形ではなく,二つのサンプルが混合したような画像への一致を見る方法

Deep learning: scaling and applications

Nando de Freitas (Professor of Computer Science, Oxford University) GoogleのDeepMindも関連

  • 特徴を分散的に保持すると指数的に多様なパターンに対応出来るようになる
    • 画像の部分的な特徴を獲得することは強力
  • パラメータ推定
    • ノードをサンプリングして,それらのみで学習しても,もとの入力を補完できるので十分な学習が可能
    • Fast-food畳み込みネット:90%ほどのノードを減らせる技法(?)

自然言語処理

  • 文を扱うのに,単語の前後関係をpoolingのようにする.
    • 部分空間に埋め込んだ自然言語文を用いて機械翻訳や質問応答など
  • 文を経由して文書全体を部分空間に埋め込むこともできる
    • saliency:異常検出的な技術で,特徴的な文を取り出して文書要約
    • 文書ごとに評判ラベルを与えて訓練したモデルの,文や単語のモデルを単独で使うと文や単語の評判分析も可能に
  • ビデオゲームのプレイ
    • 画像を畳み込みで部分空間に埋め込んで,それを状態とした強化学習,徒弟学習

11月18日 (火)

企画セッション2: 学習理論

空間結合符号

笠井健太 (東京工業大学)

  • 符号理論の成果:ルーピーBPによって解けるシステムをいくつか用意して,大域的なMAP解を得る.
  • 問題
    • n次元の x∈C(H) を送信してn次元の y を受け取る
    • C(H) は H x=0 の拘束条件を満たし,送信語は一様分布する
  • MAP解 ^x(y) を求めると最適な符号が設計できる → 計算はほぼ無理
    • しかしH をうまく疎な行列に設計できれば計算できる
  • LDPC(low-density parity-check符号)→ ルーピーBPのループができるだけ生じないように設計
  • BEC:消失通信路とは ε の確率で,xi を送っても yi が伝わらない
    • 無限個のデータで符号全体の消失確率が 0 になるようなεの上界で評価
  • 空間結合システム:こうして作ったシステムを,各入力を隣のシステムの出力に繋ぐようにする
    • この結合の端の,拘束条件が弱いところから,誤り率が下がり,それが中央の部分にだんだん伝播する

Wasserstein幾何とφ-正規分布

高津飛鳥 (名古屋大学)

  • Wasserstein幾何:確率空間上の距離の幾何
  • φ-正規分布族:関数φを使った正規分布の一般化,φが恒等関数ならガウス
  • Wasserstein幾何:物質をある空間から別の空間に損失なく送る
    • 「写像 T は測度μ0とμ1に押し出す」という
    • 距離の二乗によってコストを定義し,全ての質量を移すのに最小のコストになる T を使ったときの総コストが Wasserstein距離
  • Brenierによる定理:移動するときの道筋が交差しないことと関連する凸関数の勾配に関する条件と,Wasserstein距離の測地線に関する定理
  • 二つのガウス測度の間のWasserstein距離を考える
    • Wasserstein距離を達成する T は二つのガウスの平均と分散でかけて,そのときのきょりは(平均の式)+ tr(分散の式) の形で書ける.
    • 情報幾何で使うFisher距離とは,その振る舞いは大きく異なる

φガウス族

  • ガウスの性質:指数分布族で,平均と分散で決まる.ボルツマン・エントロピーを最小にする.
    • これらの性質を,正値・非減少の関数φを使って一般化
    • φの関数でみると指数分布族であり,φを用いた対数関数でエントロピーを定義
  • φ(S)=S の恒等写像なら普通の関数
  • φ(S)=S^q:expφ(t)=max{0, 1+(1-q)}^{1/(1-q)} → q>1 なら裾が広く,q<1なら狭い分布になる
    • Wasserstein距離で凸になるのは,このφがこの指数関数の場合のみ

多腕バンディット問題の理論とアルゴリズム

本多淳也 (東京大学)

多腕バンディット

  • スロットマシーンでできるだけ設けたいが,ある程度引いてみないと良し悪しが分からない,一方で,出ない台を引き続けると損をする
  • 1930年:作付け作物の選択や,新薬・新療法の検証
  • 最近:囲碁などのゲーム木探索,広告,ネットワークルーティング,学習アルゴリズムやパラメータの選択

バンディット問題の分類

  • 報酬の性質(敵対的 vs 確率的)目的関数(リグレット最小化,最適腕識別),設定の拡張(線形バンディット,コンテキスト依存バンディット,連続空間上のバンディット)
  • 確率的バンディット
    • K 個の腕,n 回プレイ,各腕の報酬は未知だが 期待値μiのベルヌーイ分布に従う
    • リグレット最小化:期待値最大の腕を引き続けた場合に対する損を最小にする
  • 敵対的バンディット
    • 報酬は,腕の側が前回のプレイヤ選択に応じて,プレイヤの報酬を減らすように任意に設定できる

確率的バンディットでの報酬最大化

  • 理論限界:最良でない腕を引く回数が多項式回ぐらいひくと
    log n / D(μi|μ*) + o(log n)
    最良の報酬とその腕の報酬のベルヌーイ分布KLダイバージェンスが係数で log n オーダー
  • UCB戦略:有意水準 1/n での信頼区間の上限 (upper confidence bound) が最大になる腕を引く
    • 信頼区間を求めるのは難しいが Hoeffdingの不等式を使った結果が [Auer+ 2002] のUCB1
  • Chebycheffの不等式を使うUCB(KL-UCB)
    • KL-UCBは理論限界を達成できるが,KLダイバージェンスの逆関数の計算はやや面倒
    • UCB の有意水準 1/n は漸近論に依存
  • Thompsonサンプリング (1933)
    • ベイズ戦略の一種,その台が最適である事後確率に従って腕をランダムに選択
    • 経験的に高性能,事前分布を適当に選んでも大丈夫,事後分布が計算できればいろいろな場合に適用可能
    • UCB より性能は経験的には良い
    • サンプリングの実際:まともに最良の腕の事後確率を計算をするのは大変だが,それぞれの腕の分布からサンプリングして,一番いい報酬の腕を選べばよい
    • 期待値が最良でない腕を選ぶ回数を最小化
  • UCB と Thompsonサンプリングの関係:なぜ同じ理論限界になるのか?
    • TSは,最良の腕である確率が pi → 腕iを次に引くまで 1/pi 時間 → 累計で 1/pi ならプレイ → pi > 1/n ならプレイ 〜 危険率 1/n と考えるUCBと関連

最適腕識別とリグレット最小化

  • 最適腕識別:トータル N 回のプレイで識別したい
    • 期待値最大でない腕を O(log N) 引くリグレット最小化戦略ではプレイの偏りが大きすぎる
  • UCB系では有意水準を 1/n → exp(-O(N)) とする
  • 現時点で最良な腕については lower confidence bound もいい

Current and Future Trends in Computer Vision

David McAllester (Toyota Technological Institute at Chicago)

  • motion streo:二つの位置から同じものを撮る
  • moving objects:移動物の検出
    • ベンチマーク画像:Midberry, KITTI driving scene
  • slanted plane model 物体が部分的に平面で構成されるとするモデル
    • 画像のセグメンテーション,セグメントのパラメータ推定,エッジのラベリング(?)
    • lidar probe:レンジセンサ−
  • 物体認識:深層ネットで急激にベンチマークに対する性能が向上

11月19日 (木)

企画セッション3: ビッグデータ利用の社会的側面

産業領域におけるデータ活用への期待と現状

鈴木良介 (野村総合研究所)

  • 2010:英Economist誌の特集,2011:TeraDataなどの外資ITベンダーはビッグデータ元年,2012:利益になるかどうかが問題,2013:社長が言い出した,2014:業務として本格化
  • ビッグデータとは:高解像度(ターゲットが個人レベル)で高頻度(時間的なラグが小さい)
  • データそのものには価値はない:世の中のセンサー→分析→対策→マネタイズ
    • 急ブレーキの頻度データから事故の起きやすい地点を発見(ホンダと埼玉県)
  • 多すぎる,複雑すぎる,機微すぎるデータがとれるのも困る(余分な情報まで入ってるデータは管理に困る)
  • データ活用業務:システム運用→ データハンドラ(データを作る)→ インタープリタ(結果の解釈:ここが足りない) → 経営
  • プライバシ:行動予測は当たっても気持ち悪い場合が,気が利くと気持ち悪いの差は難しい
    • 不適切な推薦:硫化水素が出てしまう組み合わせが推薦された

情報保護の統計モデル

星野伸明 (金沢大学)

  • データを社会で利用するときの問題点の一つとしての情報保護
    • 情報保護の成果が活用されてない ← 社会的要請との関係は必ずしも明らかではない
    • 法に表されいる養成を技術的問題に翻訳
  • 情報保護:プライバシを守る手段の一つ
  • 特定個体の秘密を暴露
    • 推測暴露:レコードの主体が分からなくても情報が漏れる(ある建物に住んでれば年収が分かる)
    • 識別暴露:レコードの主体が分かって情報が漏れる(国籍=日本,職業=首相,病気= とかすると特定個人の病気が分かる)
  • 推測暴露対策:l-多様性,t-近接性,差分プライバシ
    • 差分プライバシ:尤度をいじられるので,母数の予測精度が出ない
    • 問題点(私見):保護強度を緩和すると保護レベルが下がるので下げられない,秘密変数の分析にも社会的要請がある → 情報保護概念が社会的要請とずれているのでは? → データの分析価値が残る情報保護概念が必要では?
  • 社会的要請の具体化:法の参照から始めてみよう
    • 法は最低限の社会的要請の明示,曖昧性はあるがプライバシ保護概念よりは限定されている → 法的には個体識別を避けたい
  • 個体識別の条件:キー変数/疑似識別子(照合に使う既知の変数)
    • 秘密変数はいじらずに,疑似識別子を操作して個体識別の危険を減らす
    • 標本一意を全て消すk匿名化はきつすぎる → 母集団一意を許容限界以下に(未知だけど)
  • データは,属性の空間を分割した分割表で表せる
  • 疑似識別子が増えるとセル中のデータが疎になる → 次元数 p/データ数 n で n→∞ の漸近論
  • 度数がある値になるセル数の分布は複合ポアソン分布になる → LCCP分布というものに繋がる
    • LCCP分布 → 母集団でのセル中の度数分布が推定できる

ゲノムプライバシの保護と個別化医療への展開

佐久間淳 (筑波大学)

  • 個人ゲノム:SNPsの個人ごとの差の情報
  • 予測できること
    • ○:耳垢のタイプ,乳糖不耐性 → 2型糖尿病リスク → 祖先はどの大陸から → アルコール耐性 → 生活習慣病リスク → 正確,IQ,能力:×
  • 個人ゲノムに基づく解析
    • 類似性に基づく鑑定(本人鑑定,血縁鑑定)ゲノム疫学,個別化医療/出生前診断(罹患リスクに基づく予防医療,薬剤感受性評価)
  • 疾患リスク予測:遺伝的要因由と臨床的要因を説明変数とする線形モデル予測
  • 個人ゲノム:コストが低下し,一度測れば不変 → 一度,測って保存しておければ利用できる
    • 強力な個人識別子でセンシティブ情報,詐欺に使える
  • 予期できないリスク
    • personal genome project での同意文書の例:血縁関係の推定,雇用・保険・金融サービスへの影響,犯罪成功の推定,合成したDNAによる濡れ衣,治療法がない疾患の罹患リスク
    • 社会上の影響:遺伝子差別,教育への影響,ゲノムなりすまし,ゲノム情報の公開,遺伝子に基づく広告
  • 個人ゲノムを取り巻く環境とリスク
    • 血縁に影響するので,対象の個人が死んだあとも保護できない → 現在の暗号技術は100年後には無力
  • Quantification of Kin Genomic Privacy (@ ACM CSS)
    • openSNP のデータ と Facebookの家族関係 → 公開されてない血縁関係者のSNPをどれくらい予測できるかの見積もり?
  • Privacy in Personalized Warfarin Dosing (USENIX2014):Warfarin(血栓塞栓症)は遺伝・臨床・環境要因基づいてに投与量を慎重に選ぶ → その投与量から標的にゲノムから予測,差分プライバシによってそれをどれくらい予測を防げるのか?
    • 差分プライバシはデータの損失が大きい
  • 秘密関数評価による実装の紹介:個人情報と臨床情報を公開することなくリスク評価ができた
  • 機械学習技術の立ち位置:攻撃手段,漏洩量評価,秘密計算

企画セッション4: 機械学習のウェブデータおよびマルチメディア活用

大規模言語データに基づく自然言語処理とその応用

岡崎直観 (東北大学)

  • Webと自然言語処理:Web as Social Hypertext [Erickson 96] → NLPの応用 と Web as Corpus [Kilgariff+ 03] → NLPの高度化

データジャーナリズム

  • データを処理することで記事を書く:データを収集して構造化,マイニング,可視化,ストーリー
  • 英ガーディアン誌:イギリスの暴動で,動物園の動物を逃がしたというデマツイートの拡散
  • WikiLeaksが公開したイラク戦争に関する秘密情報の可視化
  • Message Machine:オバマ大統領の寄付を呼びかけるメールが内容や寄付金額が個人化されている
  • 2013年の参院選のツイート分析の経験
    • ツイート総数は前回の衆院選から3割減,共産党が増えて維新が激減,未成年のリツイートが話題に → 可視化の可能性
  • ツイート分析:RT,スパム,形態素,感情分析,キーワード抽出,集計(時系列,バースト),可視化
  • 無難な分析手法:単語の頻度計測ではつまらないように思えるが → 新聞だと正確性を,分析の透明性の確保の都合から,新聞で内容が説明できそうな手法しか使えなかった
  • 世の中の関心を自動的に掘り起こす → 児童ポルノ法やJリーグの2ステージ制への賛成・反対ツイートの集計
  • 特有の問題:憲法9条と96条は非常に言語的には似ているが厳密に区別する必要,意味理解技術の限界(主体や意見の特定)
  • 福島の桃の風評被害のツイート分析
    • 可視化したリツイートネットワーク → 意見の賛否でグループがくっきり分かれる
  • 評判分析:「安いから売れたというのは」実はあまり良くない内容,まんじゅうこわいのパロディで実は欲しい

知識の自動獲得

  • 英語のコーパス(ClueWeb 09:5億ページなど),日本語 (日本語ウェブコーパス 2010:1億ページなど)
  • 関係知識の半自動獲得:文章から,ある映画の監督はだれだれ という知識を取得する
    • 自然言語の関係パターンと関係知識の対応が必要
  • 低頻度の関係パターンが難しい:部分的なパターンの組み合わせで学習

クラウドソーシング・デマ・MOOC

鹿島久嗣 (京都大学)

クラウドソーシング

  • インターネットを通じたタスク依頼
    • Amazon Mechanical Turk:数分でできるマイクロタスクを人間に依頼するAPIがある
  • 回答の品質が低かったりするので,冗長化して精度を確保したりする
    • 品質に影響する要因:ワーカ(能力,意欲など)タスク(難易度,必要スキルなど)ワーカとタスクの相性
  • 正解から回答が観測される生成モデル → 正解を隠れ変数として,観測される回答から正解を予測
    • [Dawid+ 79] 真の答えと各ワーカの能力の正解率を隠れ変数として,観測できる回答から隠れ変数の値を推定
  • [Whitehill+ 20009] 各ワーカーの各タスクに正答する確率をロジスティック回帰,項目応答理論でのラッシュモデルとほぼ同じ
  • 冗長化に基づく品質保証アプローチの限界:多数決ができるタスクは実は少ない → 非定型タスク
    • [Baba+ 2013] 非定型タスクに対応するため,答えの成否もクラウドソーシングで決める

クラウドソーシングの評価技術の広がり

  • Web上の情報の信頼性の評価
    • Web上の記事の信頼性,デマかどうか,レビューサイトの評価 → 信頼性の自動評価
    • 同様の枠組みが利用できる
  • MOOC (Massive Open Online Courses)
    • Courseraなどのインターネット上の学習プラットフォーム → 評価はスケールしない → 相互に評価するピアレビュー
    • 採点の質はどうやって担保する? → クラウドソーシングと同様のの品質担保技術を利用
    • 自分の回答能力は,自分の得点に依存するといったモデル
    • クラウドでは主張の真偽が主に知りたいが,MOOC では学生の能力が知りたい
    • 講師の不特定多数化:オンラインの英会話教室
  • 集団の知恵は天才を超えられるか?
    • IQテストでの分析結果:統合結果は平均より高いが,集団内の最高IQよりは低い.統合結果のIQは同程度のIQをもつ集団内では最も高い.
  • 鹿島先生のプロジェクト: http://universityofbigdata.net/
    • 今日からテキスト分類タスクを開始,登録コード:IBIS2014

ウェブ上のユーザ行動の分析による消費インテリジェンス

松尾豊 (東京大学)

  • 消費インテリジェンスの人材育成
    • ビジネススキル(マーケティング概念)サイエンススキル(機械学習理論)エンジニアリング(プログラミング)
    • 課題の例:美容家電の分析,@コスメなどのデータを分析したりする
  • 結婚式場選びの分析事例(ゼクシィ:結婚する人の90%は読んでる)
    • 2137件の式場,上位10%の式場の30%のページビュー,40%のコンバージョン,見学
    • 式場間の勝敗関係:閲覧した中でコンバージョンがあった式場は勝ち → 勝敗のグラフ:地域や嗜好で分かれる→競合となっている式場が分かる
    • 式場の嗜好は,指輪やドレスの嗜好と関連があり,それを使った推薦
  • 教育サービス分析
    • 受験サプリ:大学受験,短い動画で学習
    • 受験生の各ドロップアウトする動画を調べる → まずい講義があるとDO率が急激に上昇する
    • シリーズ中のビデオの遷移状態から,分からなくなったら,どこから復習するか分析できる
    • PV と ドロップアウトの2軸で考えて修正すべき講義を見つける
    • 講義の閲覧の相関
    • 合格者は夜遅くまで見てる(?),安定してアクセスしてる人は第1志望合格,男性の方が長続き,夏休みより前の開始は合格してる,教科によってパターンが異なる
    • 受験サプリでの,競合志望校の選択の勝敗ネットワーク → 大学側はどこと競合比較されてて,その勝敗が分かる

トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-11-22 (土) 12:02:48 (745d)