しましま/IBISML020 の変更点 - 機械学習の「朱鷺の杜Wiki」

追加された行はこの色です。
削除された行はこの色です。
しましま/IBISML020 へ行く。
#freeze
* 第20回 情報論的学習理論と機械学習研究会 [#w1b4d77c]

このページはしましまが [[第20回電子情報通信学会 情報論的学習理論と機械学習研究会>IBISML#IBISML020]] に参加してとったメモです．私の主観や勘違いが含まれていたり，私が全く分かってなかったりしていますので，その点を注意してご覧ください．誤りがあれば，指摘してください．


* 3月5日(木) [#we8e970f]

**［招待講演］ボルツマン機械学習によるカンニング検出技術　〜 スパース解の任意性のない推定法 [#s35602a5]
○大関真之（京大）

項目応答理論とボルツマン機械学習との対応関係
- 項目応答理論：1-パラメータロジスティックモデル
 Πj exp[ Σi (被験者iの能力 - 項目jの難易度) x_ij=[正解+1・不正解-1] ]
-- 被験者の能力や項目の難易度は最尤推定で求める
- 被験者間の相関関係を付ける：i と k が協力関係にある
 Πj exp[ Σi (被験者iの能力 - 項目jの難易度) x_ij + Σk w_ikx_ij x_kj ]
-- w_ik は，カンニングが疎であるとして疎と仮定
- exp の中身をみるとボルツマン機械になっている
-- 分配関数の計算は大変なので，疑似尤度関数を採用（被験者 i の間の相関をなくし，独立とする）
- w_ik を正則化 → L1だとパラメータで結果が大きく変わる，相関の有無の境界が不明瞭
- デシメーションアルゴリズム (decimation)：最尤推定を行ったあと，絶対値の小さな重みは 0 にし，そのスパース性を保ったまま最尤推定を行うというサイクルを反復
-- 何個の要素 0 にするかというパラメータ調整の問題は，時間をかけてよければ一つずつ潰せばよい
-- サイクルの停止条件の問題：尤度関数が急激に下がったら，本来は0でない重みを0にしたということなのでその前でやめればよい
- 弱点：疑似最尤法はデータが少ないときには弱い，重みの疎性が成立しない → ダメな場合はL1の方がよい
- 圧縮センシングへの応用
-- L1正則化の代わりにデシメーションアルゴリズムを用いた
-- L1正則化の方が広い範囲で二乗誤差は小さいが，詳細な情報が消滅しない特徴

** ポアソンモデル及び線形回帰モデルにおける条件付正規化最尤分布のベイズ射影について [#c3519a0c]
○小島睦月・駒木文保（東大）

- 最尤予測分布：最尤推定したパラメータを使った予測分布，ベイズ予測分布：パラメータの分布を掛けて，パラメータを周辺化で消す
-- KLリスクの下では潜在情報事前分布を用いたベイズ予測分布が最適，リグレットは観測量がないときな正規化最尤推定量，観測があるときは条件付き正規化最尤推定量がよい
- 正規化最尤推定量 (NML)：予測分布をちゃんと確率になるように正規化したもの．
- 条件付き正規化最尤推定量 (CNML)：NMLの尤度を条件付き尤度にしたもの．3種類ある．
- 今まで第2のタイプがリグレット最小化でサンプルがある場合の最適解とされたが，タイプ3が最適であると示した．

** 確率的移動マルチエージェントの振る舞いについて [#sf59cb18]
滝口風人・佐藤直樹・○塩谷　勇（法政大）

- 時間遅れのあるセルオートマトンが同期して動作．自分のセルよりエージェントが多いセルには移動できない．時刻∞での状態の解析．
- 3オートマトン3状態で全状態を計算して挙動を調べた．均一に分布する
- 時間遅れが短いと安定した分布にならない
- 自立的なリソース配分などに使える

** Soft-thresholding with scaling for non-parametric orthogonal regression problem ○Katsuyuki Hagiwara（Mie Univ.） [#bc7c759f]

- lasso は推定の縮小と疎性の強化を同じパラメータで調整しているの変なバイアスがかかる
- 縮小の度合いを調整するパラメータを導入して，もっと疎なモデルの獲得をできるように
- soft thresholding：最小2乗推定量の絶対値がθより小さければ 0，その外側ではθだけ0に近づける（lassoの効果） → θの外側の変化の勾配を調整できるようにした

** 楽曲構造解析への統計的機械学習法の適応 [#gfd08d9f]
○櫛部義幸・瀧田寿明（筑波大）・浜中雅俊（京大）・矢澤櫻子・星野准一（筑波大）

- 楽曲構造解析：Aメロ，サビ，間奏などを自動抽出 → サビだけの視聴用音源を自動生成できたり
- 楽曲中の時間フレーム間の相似をみて，繰り返し構造を発見 → 擬類似性が多数生じてしまうが，それをうまく除去するのが難しい
- RBMによる次元削減，教師ありの状況でDBNによる類似性判定，DBNによるノイズ除去を組み合わせて，擬類似性を排除できた
-- DBNの入力で，該当フレームだけではなく，その前後のデータも入力に加えて，信号の前後の影響を考慮する

** 標本マハラノビス距離における数値誤差の影響 [#t50d78bd]
○小林靖之（帝京大）

- 標本マハラノビス距離：標本分散と標本平均で標準化した距離
- 共分散行列の条件数 l_max / l_min による距離の数値誤差を評価

* 3月6日(金) [#o9c1e0df]

** 人間・機械混在型クラウドソーシングにおける品質管理 [#ub28d69a]
○渡邉俊大（東大）・井床利生・齋藤　新・小林正朋・髙木啓伸（日本IBM）・鹿島久嗣（京大）

- 人間が OCR の結果を見て校正する．元画像と認識結果を両方閲覧．複数ワーカの校正結果を統合する問題．
-- ワーカが認識エンジンの出力に影響されて，見逃しや，誤修正が生じる
- 真のラベルから認識結果が生じる隠れ変数を Skene モデルに追加
-- 元のOCRエラー率のエラー率が大きなときにのみ提案手法は有効だった

** Asymptotic Properties of Area Under the ROC Curve via Likelihood Ratio Based Ranking Function [#uacfa1bb]
○Kentaro Nakanishi・Toshiyuki Tanaka（Kyoto Univ.）・Naonori Ueda（NTT）

- AUC を最大にする順位付け関数として，正負のスコアの分布が既知のとき，その尤度比が最適である
- 指数型分布族を仮定したとき，AUCの損失の漸近的な振る舞いを分布が離散と連続の場合について求めた

**［招待講演］第一原理計算に基づいた材料科学における機械学習の応用 [#aa860c9b]
○世古敦人・田中　功（京大）

- 固体：結晶（原子が格子状）と 非結晶 → 結晶がほとんど
-- 単位胞：結晶の繰り返しパターンの一つ．結晶はこの単位胞で表す．
- 第一原理計算：シュレディンガー方程式を解くと絶対0度での結晶の性質は分かる
-- 元素や構造をいろいろ網羅的に組み合わせてデータ集合を作る→機械学習で性質と構造の関連を見いだす→よい性質をもつ材料の探索

原子間ポテンシャルの構築
- 原子間のポテンシャルは，Lennard-Jonesポテンシャル他の式で与えられる → 精度は低い
- 機械学習に基づくポテンシャル計算：原子のペア→エネルギー の回帰
-- 原子の入れ換えなどで不変なものがあるので，それらを考慮したモデル
- 特徴自体の関数と原子間の距離に依存するカットオフ関数を導入した基底関数
-- lasso を組み合わせてスパースに
- 実験すると従来よりよい予測モデルができた

AB化合物における物性予測モデル構築
- 化合物Aと化合物Bの二つの元素とそれらの結晶構造の組み合わせから物性を予測
- 元素と結晶構造をどう定式化するか
-- 第一原理計算に基づく方法：第一原理計算で物性値をいろいろ求めて特徴に
-- 第一原理計算に基づかない方法：元素や結晶構造の特徴を個別に計算
- SVRとlasso回帰で予測

** ストリーム学習のための効率的なデータフィルタリング法 [#d60d343a]
○松井孝太・久留美里織・竹内一郎（名工大）

- サイズが有限のバッファに訓練事例を溜めて，モデルを逐次更新する
- stream oblivious 規準：データの性質を考慮しない基準．確率 p で追加し代わりにランダムな事例をバッファから除外 (reservoir sampling) など → 分類への重要性が考慮されない
- stream aware 規準：データの性質を考慮
- 交差検証したときのエラーが増加するかどうかでデータを保持するかどうかを判断
- そのエラーの上下限を求めて交差検証の回数を削減する方法の提案

** 機械学習を用いた一般生活環境下での行動認識手法の検討 [#z3471682]
○児玉　悠・大羽成征・石井　信（京大）

- BMIを使って生活するための実験家屋．EEGとNIRS + Kinect + ヒューマントラッカー などのセンサー → センサー情報から行動を予測したい
- キッチンでの行動のKinectのデータセットを使って実験
- 角度の系列をHMMで分類するのと，HMMのクラスの尤度を特徴としたSVMで行動を分類

** (L^2_2)正則化凸損失関数最小化問題のための検証誤差近似保証付きモデル選択 [#o2dca512]
○柴垣篤志・鈴木良規・竹内一郎（名工大）

- 最適な正則化パラメータでの誤差との差がたかだかεであることが保証できる準最適な正則化パラメータの設定方法
- holdoutデータの誤差から，誤差の上下限をその差がεを超えないように正則化パラメータの関数として計算し，下限が最小のところを選ぶと，それが条件を満たしている