#freeze
* 第12回 人工知能学会 データマイニングと統計数理研究会 (SIG-DMSM) [#tf3aa7cf]

このページはしましまが[[第12回人工知能学会データマイニングと統計数理研究会>DMSM#DMSM012]] に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.

* 3月 29日 (月) [#l7f45bda]

** コンテンツ評価情報の類似度を用いたユーザの嗜好推測とコンテンツ推薦 [#p568e39c]
○鈴木 健太,濱川 礼(中京大学)

- 本のレビューの類似度に基づく内容ベース推薦
- Wikipediaから抽出した固定語集合中の語彙の出現頻度と,形態素解析で抽出した単語の一致度を使う

** 小売サービスにおけるカテゴリマイニング 〜大規模データ融合による顧客-商品の同時カテゴリ分類と知識発見 [#we96ea26]
○石垣 司,竹中 毅,本村 陽一(産業技術総合研究所)

- pLSA型と類似しているが,潜在変数が利用者とアイテムの二つになっている
- 別途,アンケート調査をしており,因子分析したときのスコアをモデルに対して導入

** Lasso調整型確率化平衡樹木による回帰解析 [#v0fab70f]
中村将俊(大日本住友製薬),○下川敏雄(山梨大学),後藤昌司(医学統計研究会)

- ランダム・フォレストは分類ではいいが,回帰では良くない
- 単純に平均をとる代わりに,各要素予測器の線形結合にL1正則化を付けて推測した重みを付けて平均をとる

** 科学可視化のポスト処理 [#k858b7e4]
○白山 晋(東京大学)

- http://blog.goo.ne.jp/visualbase
- 2015 ごろには,128などのマルチコアになる → 地球シミュレータがパソコンに
- シミュレーション:モデルと実世界のすりあわせ → 検証が問題になる
-- Sargent の検証のモデル
- 第3の科学的手法 (Arthur J. Freeman):計算物理学者はプログラミングもできないと
- 可視化:恣意性,定量性,解釈の個人差 → 可視化の良さは定義しにくい
- どうにかしないといけない

** 分類ルール評価指標を用いたデータセット類似度分析 [#eca73c17]
○阿部秀尚,津本周作(島根大学)

- メタ学習:実際に決定木をつくって,その決定木から抽出した特徴で,類似したデータ集合を集めるクラスタを求める

** 確率勾配ブースティングを用いたテレコムの契約者行動予測モデルの紹介(KDD Cup 2009での分析より)[review発表] [#q80311b2]
○小林 淳一,高本 和明(金融エンジニアリング・グループ)

- 匿名化のされた,通話記録データから,解約するかなどを予測する.変数の名前さえ秘匿.
- Freedmanの確率勾配ブースティングを利用.変数寄与度での特徴選択が効いた

** Catoni流の帰納的PAC-Bayesian学習に関する一考察 [review発表] [#f7b24e32]
○綾野 孝則,鈴木 譲(大阪大学)

- 事前と事後確率の間をKLダイバージェンスで測り,誤差の上界を小さくするアプローチ

** PCAを用いた2群の有意差検定 [#i234d115]
○田口 善弘(中央大学)

- それぞれ数百ある二つサンプル群を,遺伝子への反応とかを元に有意差検定をする
-- サンプル群の分け方が複数あるとき,それらを組み合わせて,目的のサンプル群の分け方の有意性をみたい → 多重比較だと検定力が下がる
- 識別問題に落としてカーネルトリックなどを使うと,変数選択とかの可読性がさがる
- PCAを使って,変数選択と変数の適切な線形結合を同時に推定できた.

* シンポジウム「データセントリックサイエンスがつくる未来」 [#ca1065c7]

** 大量大規模データを活かす科学が予言する未来社会 [#w9554a0d]
北川 源四郎(統計数理研究所所長/分科会委員長)

- 情報技術・情報社会の発展 → 大規模・大量のヘテロデータが集積
- (工業化社会 → 情報化社会 + 資本主義 → ポスト資本主義)⇒ 知識社会
-- ドラッカー:ポスト資本主義社会における資源は,資本でも土地でも労働でもなく,それは「知識」である ⇒ この転換は2010〜2020年まで続く
- [ 知識:普遍の真理,モデル:実体の表現 ] ⇒ [ 知識:予測・意志決定に有用な情報,モデル:機能の表現 ]
- 科学研究の拡大:物理世界 → 物理+進化世界 → 物理+進化+Cyber(人工物)世界
- 第3の科学=計算科学の確立:理論科学(原理主導・演繹)と実験科学(データ主導) → 計算科学 (シミュレーション)

30年後の未来予想
- 個別対応社会:マスからの転換
-- サービス産業の革新(医療・福祉・教育・情報提供・観光)
-- センシング用インフラ整備:大量データがリアルタイムに(気象・災害・交通)
- 経済・社会体制の変革
-- 大量データの瞬時処理:価格決定メカニズム,保険・年金制度,会計・課税・監査,貨幣経済の変化
- 民主主義の新しい形態:世論把握,複雑な系の実世界シミュレータ
- 予測・シミュレーションへの活用:リアルタイム活用,大規模(個人)情報の活用,地域・個人・リアルタイム情報の統合
- 安心・安全:センサーによる災害・事故防止,常時観測情報(犯罪・事故・災害の被害軽減)プリコグニション
- 必要になる技術:センシング,データ中心科学(データ同化,マルチシナリオ),プライバシ・セキュリティ

第4の科学
- データ中心の科学,シミュレーションとともに計算機が可能にした科学 (cyber-enabled)
- モデル:普遍なものから情報抽出の道具に(いろいろな知識を統合するベイズモデリング)
-- モデリングと知識のスパイラル上昇
- 個人化:過去の統計から離れる 平均を見る→個性を捉える
-- 究極の個人化は他のデータとの関連性がみれなくなる → 究極の条件付けが必要
- データ同化:方程式を解く → データを活用してシミュレーションの精度を向上,第3と4の科学の統合
- 能動的モデリング,個人化,データ同化 → どれもベイズモデリングに関連

時系列における情報統合
- 状態空間モデル:状態は過去と未来の交わり
- 歴史:パラメトリックなあてはめ → パラメータが多すぎる新npの最初の問題
-- 正則化項 でどうにかなったが,その重みの決定問題はベイズ的解釈ができた
- 状態空間モデルの発展,積分→粒子近似,

海底地震計 (OBS)
- 観測時系列データを普通にみると水中の反射しか見えず役にたたない
-- その情報を除去して,地震の情報を取り出したい
- (地下 + 水中 + ノイズ) の三つの要素 + 隣接センサーの干渉 + ラフな地下構造モデルの組み合わせ

** マルチエージェントシミュレーションで描く都市交通の未来 [#xee4418d]
中島 秀之(公立はこだて未来大学学長/分科会副委員長)

- Jim Grey: the Fourth Paradigm

- 情報は,物質・エネルギーに続く第3の世界観(アービン・トフラー)

スマートシティはこだて(はこだて未来大 + IBM)

医療との連携
- 患者視点のIT:待ち時間削減・周知,交通手段の確保・連携,通院の必要性の削減,遠隔医療,診断情報(カルテ)の共有

フルデマンドバス
- 固定経路や時刻表をもたないバス.GPSとかのデータを使う.
- 高知 中村市で実現された
-- 高知市でもやったけど,大きな街では難しい.
- 乗客は,出発地と目的地を伝えると,何分後かにバスがくる
- 人数が少ないと回り道が少なくて効率がいいけど,増えるとシミュレーションでも悪かった- 人数に上限を設けて,必要に応じてバスを増やすモデルだとフルデマンドが良かった

大規模カーナビゲーション
- VICS を装着した車が20%ぐらいだとVICSをつけると早く付けるが,50%を超えるとみんなかわらなくなる
-- みんなが集まりすぎないような制御が必要 → 人が動いたあとの未来の状態をシミュレーションで求めて知らせる必要
- 経路情報を共有して,大域最適すると,装着率が上がってもVICSは有効になる
- 問題:みんなが位置情報を出してくれるか → 秘密関数計算?,全員が最短コースが通れるわけではない→経済原理

スマートシティ函館:交通と医療
- フルデマンドバスを10台ぐらい:病院に行く人のバスを対象に
-- 診察券とバスの精算を一体化,個人の一致性はチェックできるが個人の特定はできない
-- バス運行の中央制御:中央の計算機からデータをダウンロードするカーナビ
-- 患者さんの情報はGPS付き携帯で収集
-- 渋滞情報を集める問題,法律の規制,料金設定の問題
- 中心部(第2期)→もっとIT化(第3期)
- 意外だが,通勤・通学のようなタイプの大量移動でもシミュレーションではフルデマンドは有効だった

- 技術課題:シミュレーションの検証,最適ルート計算(到着時間保証),渋滞予測,エリア制の設定

* 3月 30日 (火) [#p48d32c6]

** 離散や連続を仮定しないノンパラメトリック推定とオンライン学習 [#xe10462a]
○鈴木 譲(大阪大学)

- 符号長の負の指数 Q が真の確率 P とのKLダイバージェンスが 0 に近づくようにする
-- 同じようなことが連続な場合でもできた → 離散と連続が混ざっている場合
- KLダイバージェンスはRadon-Nykdom微分を含んだものとも考えられる
 D(μ‖ν)=∫_ω dμ log[dμ / dν]
- 空間を有限分割の系列にすることで,測度が定義でき,符号化が可能になる.

** 重みつき窓を用いた適応型オンライン予測 [#l11e0157]
吉田 真一,○畑埜 晃平,瀧本 英二,竹田 正幸(九州大学)

- スライド窓の大きさを適応的に変化させられるweighted-averageアルゴリズム
- スライド窓に,大きさが異なる複数部分窓を考え,それらを重み付けして予測する.regret の上限が求められる
- さらに,有効期間の異なるスライド窓が複数ある場合にも適応regretの上限が計算できる.

** 密度比推定の理論的解析 [#c35316c1]
○金森 敬文(名古屋大学),鈴木大慈(東京大学),杉山 将(東京工業大学)

- 密度比推定の3方法:上下を個別に推定,ロジスティック回帰で推定,直接KLダイバージェンスを最小化

** ラベル無しデータを用いた回帰の改良 [#u9a3dcc0]
○川喜田 雅則,竹内 純一(九州大学)

- サンプルの重要度を,ラベルなしデータから推定して密度で補正するような推定をする.

** Incremental Mining of Closed Frequent Subtrees [#g1ba5cba]
○Viet Anh NGUYEN,Akihiro YAMAMOTO(京都大学)

- 少しだけDBが更新されたとき,頻出飽和木パターンを抽出する.
- 候補集合の更新を効率的に行うヒューリスティック

** 大規模健診データに関するナイーブベイズ分類器のノンパラメトリックな拡張 [#se03d8ec]
○山本 けい子,速水 悟,亀山 敦之,内山 良一,紀ノ定 保臣(岐阜大学)

- 単純ベイズで部分的に同時分布を導入

** テキストマイニングによる個人Blogデータからの性格推定手法 [#rac1a026]
○南川 敦宣,横山 浩之(KDDI研究所)

- エゴグラム:エリック・バーン
-- 五つの基本要素 Critical Parent, Nurturing Parent, Adult, Free Child, Adapted Child で自我状態を分類する
-- 行動的診断(表情,しぐさ),質問紙法(東大式エゴグラム TEG2)
- ブログからエゴグラムを作る
-- 
** 主成分分析の固有値の一致性について [#je8f94d9]
○赤間 陽二,上野 康隆(東北大学)

- データ数と次元数を同時に大きくすると,固有値がまともに推定できないときがあるので,それが推定される条件を示す

** 指数族テンソル因子化法による欠損値予測と異常検知 [#a98adc7f]
○林 浩平,竹之内 高志,柴田 智広(奈良先端大),神谷 祐樹,加藤 大志,國枝 和雄,山田 敬嗣(NEC),池田 和司(奈良先端大)

- 軸が一つヘテロな,すなわち,適切な分布が異なるようなテンソル分解をする.
- EMで解くが,解析解が求められない → ラプラス近似 + ガウス過程

** 多様体学習と非線形次元縮約 [review発表] [#gc42aff1]
○西森康則(産業技術総合研究所)

- 高次元空間中の多様体を低次元に展開する方法のサーベイ

** 半環に基づく前向き後ろ向きアルゴリズムの一般化 [#xf31320b]
○東 藍,新保 仁,松本裕治(奈良先端大)

- トレリスのパスをかけ算,パスに渡る方を足し算と考えて半環とみなす
- Viterbiなどがこの一般的な枠組みで捉えられる

** 拡散現象を媒介するネットワークのプロファイリング [#c29d0c7e]
○前野 義晴(ソーシャル・デザイン・グループ)

- 確率的な変化をもち,空間的にヘテロなネットワークを伝播し成長する拡散現象の観測データから,ネットワークのトポロジと拡散の係数を推定する方法を述べる.
- 確率微分方程式の近似でとく

** 頂点により誘導される頻出グラフ系列パターンのマイニング [#o8959de6]
○猪口 明博,鷲尾 隆(大阪大学)

- 文字列に変換して頻出パターンマイニングをするが,以前の,時間軸上の変化が小さいという制限をはずす
- パターンの,連結誘導部分グラフに元のグラフがなっている場合にのみ抽出
- 系列上に現れるグラフの和グラフに共通するパターンを手がかりにする.

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS