* 第2回電子情報通信学会 情報論的学習理論と機械学習研究会 [#m6a8a49d]

このページはしましまが[[第2回電子情報通信学会 情報論的学習理論と機械学習研究会 + パターン認識・メディア理解研究会>IBISML#IBISML002]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.

* 9月5日(日) [#yd5f43ad]

*[特別講演]パターンマイニングの新しい落としどころ 〜 クラスタリングを用いたパターンマイニング 〜 [#s817f4df]
○宇野毅明(NII)

動機
- 全体の分布を捉える代わりに,データの局所的な情報を見つける
-- マイノリティへの対応

パターンマイニング
- 巨大データの,しきい値以上の項目に含まれる(現れる),ある決められたクラスの構造を全て見つける問題

問題設定の便利さ
- 最適化型ではなく,列挙型の発見問題
- 単純なデータから,単純な評価値で解を見つける
- 最小サポートというしきい値というパラメータがあり調整できる

アルゴリズム分野からすると
- 列挙問題 → アルゴリズム分野では以前からあった設定だが,解が多すぎて実用的には使われなかった
-- 最小サポートというパラメータで調整できるようにしたのが良かった

最近の問題点
- いいモデルがなかなか出てこない.
- モデルの単純さゆえに直接的に利用できない.副次的に利用するには複雑すぎ.
- 有益なものを見つけると解が多すぎ,重複も多い
- 複雑な解析モデルと,列挙アルゴリズムの間で,列挙アルゴリズムのタコツボに入った?

どうすべきか?
- パターンが多すぎる → パターンに制約を導入すると捨てすぎてしまう
- 出現集合間の類似性に注目しては?
-- モデルが複雑になりがちなので,そういうことは避けたい
- 「単純で頑強な解を求める途中で,複雑で不定な計算を用いてはいけない」という方針で

「見つけ方」の逆転
- 単純なパターンからだんだん複雑なパターンを探す
-- そもそも局所を探してそのパターンを求めたかったのに,パターンが先に来てしまっている
- それは,クラスタリングして,各クラスタの特徴を求めるってこと? → 分類という視点になってる
-- 大きなクラスタ構造だけが出てきてしまい,局所的な小さな構造は見つけられなくなる
-- クラスタ数を増やしたら? → やはり,クラスタ数前提なので「分類」であることは変わらない

クリークによる局所構造発見
- 長所:定式化がちゃんとしていて,高速アルゴリズムがある
- 短所:ちょっとした欠損があると,類似したものが多数できる.クリーク間を橋渡しする不要な構造が出てくる
-- 類似構造を考えたり,クリーニングでかわす
--  リンク先が似ているものをまとめる:大きな2のアイテム集合を見つける問題に帰着

Webリンクデータ
- 550万ページ,1300万リンク
- 20個以上のリンク先を共有するものを似ているとして,大きさ20以上の極大クリークを列挙
-- 解の数8000で列挙問題として解ける範囲になった.10分ぐらいで計算できる
- 解の分布:普通の極大クリークは急に解の数が増えて,その後急に減る → 提案手法はその増加・減少の度合いが緩やかだった

BMS-WebView2データ
- 単純に適用するとうまくいかない → まんべんなく似ていた
-- 工夫してかわした

頻出文字列
- 文字列長を固定して,ハミング距離が一定以内のものを列挙

* [特別講演](仮) 高階最適化と学習 〜 ボトムアップアプローチ 〜 [#xd02975b]
○石川 博(名古屋市大)

- トップダウン:人間の思うものをデータから出せるように
- ボトムアップ:データから始めてパターンを出す

** 高階MRFエネルギー最小化 [#n8d4cd14]

- ノイズ除去問題:画素のラベル付け問題
- MRF:無向グラフのグラフィカルモデル.グラフのクリークごとに確率分布を定義
 P(X)=[1/Z] Π q_c(X_c)
- ポテンシャル:q_c(X_c) の対数をとったものの和
-- エネルギー最小化 ⇔ 確率最大化
- 一階MRF:隣接画素とだけ辺がある
- ノイズの除去: λ(ノイズあり入力画像と類似)+(近隣のラベルと同じラベル)
-- を満たすような
- 一階エネルギーでは区別がつかないパターンがある
-- もっと広範囲を見るために,隣接点への隣接点も考えた高階MRFを導入

高階MRFの最適化
- グラフカット:maxflow-mincutアルゴリズムの応用.一階エネルギーに変換
- 信念伝搬:因子グラフ上でのバックプロパゲーション

高階グラフカット
- 擬ブール関数(pseudo Boolean func.):常に多項式で書ける
- 高次のPBを,低次のPBで表現可能
- 目的関数を最適化するブール値の組み合わせをグラフカット問題として解く

** 画像の公開等系の学習 [#a176f58c]

- 最適化できるようになったとして,エネルギー関数のパラメータはを最尤推定
-- 勾配降下で最適化する.勾配には期待値があるので,MCMC,pseudo-likelihood, score matching などで求める
- MCMCは非常に遅い → 勾配を contrastive divergence で近似=MCMCを1ステップだけ (Hinton 2002)

** 何を学習させるべきか? [#b5e55cc6]

- ノイズ除去:輪郭の平滑性,直線性.さらに巨視的な構造の考慮
-- これを画像だけからできるか?
- 考慮すべきパターンが膨大になる → どうしたらいいのだろう?
-- 規則性を表すようなコルモゴロフ複雑性などの何らかの情報量基準が必要

* テーマセッション3 [#fc1362e6]

** 表情表出時の顔特徴点の変化を用いたアンサンブル学習による表情認識 [#l32f902d]
○野宮浩揮・宝珍輝尚(京都工繊大)

- 表情認識:特徴点の移動を特徴に,有用な特徴をアンサンブル学習で見つける
- 特徴点:顔の決まった24カ所.特徴点間の距離,三角領域の輝度平均値とヒストグラム差分

アンサンブル学習
- 各特徴量から低レベルな識別器を作り,有用なものを特徴として選ぶ
-- 入力画像の特徴量での,各クラスの分類器の出力値
-- 特徴選択は,PCAで次元削減後,クラス内・クラス間分散の比を使う
- 選んだ特徴で構成される特徴ベクトルを使って通常のAdaBoost

** 学習による映像中の音源同定 [#ze58459a]
○池田千廣・フォン ヤオカイ・内田誠一(九大)

- 画像中での音源の同定(単一マイク+単一カメラの動画)
-- 潜在的な音源は既知 → テレビ会議画像で,どちらが話しているか?
- 画像の特徴:Haar-like特徴,ST-patch
- 音の特徴:power と MFCC(話者認識用の特徴は使ってない)
- フレームごとに,発生中・無音声を与えてAdaBoostを適用

** 人体シルエットの生成型追加学習による人検出の高精度化 [#jc2fcf56]
○纐纈直也・山内悠嗣・藤吉弘亘(中部大)

- 従来の人検出:HOG, EOH, Edgelt などの特徴 + 機械学習
-- シーンに関する要因は吸収できない
- 3D人体モデル + 背景画像 → 追加サンプル
-- 追加サンプルは,設置したカメラから背景を作り,与えたカメラパラメータに応じて,3D人体モデルを配置
- 汎用DBで学習した識別器 H1 を作り,追加サンプルを分類して,誤分類したものにもとのDBのデータも加えて識別器 H2 を学習
- H1とH2を修正したものを組み合わせた識別器も提案

** 局所学習型パターン認識器の高次元特徴選択パス追跡に関する一考察 [#zc39e678]
○竹内一郎(名工大)

- 特徴選択:フィルター,ラッパー,正則化
- 正則化パス:正則化パラメータを変化させたときの,各特徴の重みの変化
- 近隣法の分類で使う距離の計算に使う特徴を選択する
- 距離学習
-- 各点から同じクラスのk個の点は近く,違うクラスについては全ての点から離れるように
-- ユークリッド距離に近づくような正則化項を導入
- この定式化だと,パラメトリック二次計画問題になる
-- 正則化パスが区分線形となって,容易に計算できる.

* 9月6日(月) [#s4c60061]

* テーマセッション4 [#y16632b2]

** 変分ベイズ法におけるクロスヴァリデーションと汎化誤差の分散について [#xc8f4388]
○大山慎史・渡辺澄夫(東工大)

- 変分ベイズで汎化誤差を知るのに交差確認をする場合
- モデルに混合正規分布を想定,事前分布はDirichletや正規分布.
-- 混合比のDirichlet事前分布の超パラメータ φ が重要と分かっている
- 正則な場合(真の分布を実現するパラメータが一つの場合)変分ベイズは最尤法やベイズと同様な振る舞い
-- 汎化誤差はχ二乗分布のようになり,CV誤差はそれを左右反転したような分布.
-- 平均も分散も一致する
- 特異な場合:最尤法やベイズ法は違ってくる
-- 平均は一致するが,CV誤差の方が分散が大きい
-- 超パラメータφが小さいと分散は大きくなる
--- 平均も分散も相転移する点がある

** 混合正規分布の隠れ変数上のMCMC法の提案とベイズ周辺尤度への応用 [#af8fc274]
○三木拓史・渡辺澄夫(東工大)

- 温度 β 付きの事後分布
 ∫ φ(w) Π p(Xi | w)^β dw
β=0 だと事前分布そのもの,β=1 だと普通の事後分布
- ベイズ自由エネルギー -log<正規化定数> を最小化する経験ベイズ
- 混合分布の隠れ変数上でのMCMCは,パラメータ上でMCMCをするより楽にできる

** A Density Ratio Approach to Two-Sample Test [#z1eba2da]
○Masashi Sugiyama(Tokyo Tech.), Taiji Suzuki(Univ.Tokyo), Yuta Ito(Tokyo Tech.), Takafumi Kanamori(Nagoya Univ.), Manabu Kimura(Tokyo Tech.)

- 二標本検定:二つのサンプル集合が同じ分布から出てきたのか?
-- 帰無仮説:生成分布 P=P'
-- 分布間のダイバージェンスのノンパラ推定量を求める
-- 並び替え検定で帰無分布を作る
- ピアソンダイバージェンス
 PE(P,P'=(2/2) ∫ ([p(x) / p'(x)] - 1)^2 p'(x) dx
-- KL と同じ fダイバージェンス
-- うまく展開して密度比推定を使って計算
-- 密度比をカーネルの線形結合でモデル化 + 最小二乗
-- 収束の理論限界:密度比が 1(P=P'のとき)収束率が良くなる都合のよい性質
- 並び替え検定
-- 二つの分布のサンプルを入れ替えて統計量(ここでは PE Div.)を計算する手続きを何度も繰り返す
-- 出てきた統計量のヒストグラムを帰無分布とする
-- あとは,もとのサンプルの統計量が,この帰無分布の棄却域に入るかを調べる
- 第1種過誤が大きめに出るのは,密度比の推定で p'/p と p/p' で小さく出る方を選んでいるのが原因ではとの指摘
- http://sugiyama-www.cs.titech.ac.jp/~sugi/software/LSTT/ (matlabコード)

* テーマセッション6 [#u9ad128a]

** 損失関数平滑度の自動制御を伴う最小分類誤り学習法 [#vfc5a7d8]
○徳野純一(同志社大)・渡辺秀行(NICT)・片桐 滋・大崎美穂(同志社大)

- 最小分類誤り (minimum classification error)
-- g_j(x; Λ) を最大にするクラス j に分類する
-- 誤分類測度,正しいクラス y に分類する場合
 d_y(x; Λ)=- g_y(x; Λ) + log[ {1 / (J-1)} Σ{非正解クラス} exp(η g_J(x; Λ)]^(1/η)
-- これをロジスティック関数にいれて平均をとったものの最小化をめざす
 L(Λ)=Σ 1 / [1 + exp(-α_y d_y(x;Λ)]
- この誤差測度をParzen窓推定で行う

** 裾野の重たい分布関数を利用した学習ベクトル量子化手法 [#tbb77437]
○宮野博義・石寺永記(NEC情報システムズ)

- 学習ベクトル量子化:少ないプロトタイプ数でオンライン学習可能・多クラスでも便利,SVMより性能は低い・大域最適は得られない
-- オリジナルの LVQ の改良手法:誤り率を最小化する GLVQ,確率モデルに基づくRSLVQ
- 確率値に基づく RSLVQ の発散を抑えるのに,正規分布よりより裾の重いt分布を使った更新側を採用する.

** margin assumptionの下での分類器の誤り率の評価について [#zeadec31]
○綾野孝則・鈴木 譲(阪大)

- 二値分類器の誤り率の,サンプル数 n に対する限界を計算
-- margin 仮定,complexity 仮定の下での議論

*[フェロー記念講演]非線形判別分析とその周辺 [#tb76c236]
○栗田多喜夫(広島大)

パターン認識過程
- ベイズ決定理論:特徴ベクトルとクラスの確率的な対応関係が完全に分かっているなら,誤識別を最小化するクラスに分類すべき
-- 期待損失最小化と対応
- 識別に有用な特徴
-- 線形判別分析 (LDA, FDA):クラスの分離度が高くなるような特徴空間を作る
- 非線形判別分析:背後の分布が分かっているとき,最適な識別関数は変分法で求められる
 y=Ψ(x)≒Σk^K P(Ck|x) uk
ukはクラスの代表ベクトルで,Γの固有値問題で計算できる.Γはクラスの交わり具合を表すような行列
-- 特徴 → 事後確率 → 識別 と空間を変換することに対応
- 事後確率を線形近似 → 全部固有値問題として解ける
- 事後確率を多項ロジットモデルで表す:LgDA

判別カーネル
- 最適非線形判別分析に対応しているカーネルは?
-- クラスの確率を陽に考慮したカーネルになる
 K(xi, x)=Σk^K [ p(Ck|xi) P(ck|x) ] / P(Ck)
-- 実際に使うには事後確率を求めないといけない:k近隣法,ロジスティック回帰などを使う

*[フェロー記念講演]部分空間法から相互部分空間法へ [#l57b3e71]
○前田賢一(東芝リサーチ/東芝)

パターン認識
-- あるインスタンスが属するクラスを決定すること [飯島]
-- パターン再認(かつてみたことがある「あれ」を特定)
-- classification,identification,verificationなども
- パターン認識の難しさ
-- 10×10画素程度でも,全部の画素のパターンについて,それについてクラスを付けると 2^(100) のパターンになる
- Tauschekの文字認識装置 (1929):光学的に一致を調べる装置

部分空間法
- 部分空間
-- 統計学的背景 PCA,CCA [Hotelling 1933, 1936],KL展開 [1946, 1948]
-- パターン認識への導入:飯島泰藏 (1963),渡辺彗
- 特徴ベクトルで表されてる + ちょっとした差異は同じものとみなす → ベクトルのcosで測ろう
-- 色の反転も同じとみなす
-- ある理想パターンを中心とする円錐と,それが反対にも付いた形状になる
-- 理想パターンを含む部分空間に射影して,そこで角度の大きさを見る

相互部分空間法
- 辞書と入力の両方を部分空間で表現
- 両方とも部分空間を使うので PCA → CCA

手書き文字認識
- 識 - 織 - 繊 など類似した文字があるときに難しい
- Gauss-Hermite核によるぼかしの一般表現
- 単純類似度:75.9% → 部分空間法 80.2% → 相互部分空間法 82.0%
-- 当時のマシンは 1mips

顔認識への応用
- 複数の基準パターンを用いた認識
- 写真と本物の顔との区別
-- 実物は3次元だが,写真は2次元なので,分布している多様体が違ってくる

* 一般セッション4 [#efc2041c]

** q-正規分布とそのエスコート分布の関係について [#m749c706]
○田中 勝(福岡大)

- Tsallisエントロピー
 Sq=1/(1-q) [∫-∞^∞ p(x)^q dx - 1]
- q-期待値:確率密度関数を q 乗して規格化したエスコート分布の下での期待値
- q-期待値での平均・分散を与えたときに,Tsallisエントロピーを最大化する分布 q-正規分布
 p(x|μ,σ)=[1 / Z{q,σ}] ( [ 1 - {(1-q)/(3-q)} {(x-μ)^2 / σ^2} ]_+ )^{1 / (1-q)}
-- q を変えると,Cauchy 分布,t-分布,正規分布などになる

** 連続DPの一般スキームについて 〜 画像スポッティングための全画素最適マッチング 〜 [#y8d00714]
○岡 隆一・矢口勇一・溝江真也(会津大)

- 画像のマッチングで,全画素の面的な性質を維持させたまま対応付けさせたい → 2DCDP
- uniform lattice image:グリッドの格子点に画素が対応
-- マッチする二つの画像1と2と,2を変形させた画像3を考える
-- グリッドの辺が拘束条件 → 相互の制約を左から右,上から下方向の拘束を残す → feed-forward になる
- DP と相性がいい.

	
** 自己動的時間伸縮を用いた単一準周期信号の位相合わせ [#a604287a]
○槇原 靖(阪大),チュン タン ゴ(阪大),長原 一(九大),佐川 立昌(産総研),向川 康博(阪大),八木 康史(阪大)

- 準周期信号:振幅・周波数・位相に揺らぎがある周期信号
-- 単一の準周期信号の,各周期の信号の位相合わせを行う
- 自己相関で擬周期を求める
- 擬周期後の窓内での自己相関を考えた自己動的時間伸縮

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS