第12回 人工知能学会 データマイニングと統計数理研究会 (SIG-DMSM)†
このページはしましまが第12回人工知能学会データマイニングと統計数理研究会 に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.
3月 29日 (月)†
コンテンツ評価情報の類似度を用いたユーザの嗜好推測とコンテンツ推薦†
○鈴木 健太,濱川 礼(中京大学)
- 本のレビューの類似度に基づく内容ベース推薦
- Wikipediaから抽出した固定語集合中の語彙の出現頻度と,形態素解析で抽出した単語の一致度を使う
小売サービスにおけるカテゴリマイニング 〜大規模データ融合による顧客-商品の同時カテゴリ分類と知識発見†
○石垣 司,竹中 毅,本村 陽一(産業技術総合研究所)
- pLSA型と類似しているが,潜在変数が利用者とアイテムの二つになっている
- 別途,アンケート調査をしており,因子分析したときのスコアをモデルに対して導入
Lasso調整型確率化平衡樹木による回帰解析†
中村将俊(大日本住友製薬),○下川敏雄(山梨大学),後藤昌司(医学統計研究会)
- ランダム・フォレストは分類ではいいが,回帰では良くない
- 単純に平均をとる代わりに,各要素予測器の線形結合にL1正則化を付けて推測した重みを付けて平均をとる
科学可視化のポスト処理†
○白山 晋(東京大学)
- http://blog.goo.ne.jp/visualbase
- 2015 ごろには,128などのマルチコアになる → 地球シミュレータがパソコンに
- シミュレーション:モデルと実世界のすりあわせ → 検証が問題になる
- 第3の科学的手法 (Arthur J. Freeman):計算物理学者はプログラミングもできないと
- 可視化:恣意性,定量性,解釈の個人差 → 可視化の良さは定義しにくい
- どうにかしないといけない
分類ルール評価指標を用いたデータセット類似度分析†
○阿部秀尚,津本周作(島根大学)
- メタ学習:実際に決定木をつくって,その決定木から抽出した特徴で,類似したデータ集合を集めるクラスタを求める
確率勾配ブースティングを用いたテレコムの契約者行動予測モデルの紹介(KDD Cup 2009での分析より)[review発表]†
○小林 淳一,高本 和明(金融エンジニアリング・グループ)
- 匿名化のされた,通話記録データから,解約するかなどを予測する.変数の名前さえ秘匿.
- Freedmanの確率勾配ブースティングを利用.変数寄与度での特徴選択が効いた
Catoni流の帰納的PAC-Bayesian学習に関する一考察 [review発表]†
○綾野 孝則,鈴木 譲(大阪大学)
PCAを用いた2群の有意差検定†
○田口 善弘(中央大学)
- それぞれ数百ある二つサンプル群を,遺伝子への反応とかを元に有意差検定をする
- サンプル群の分け方が複数あるとき,それらを組み合わせて,目的のサンプル群の分け方の有意性をみたい → 多重比較だと検定力が下がる
- 識別問題に落としてカーネルトリックなどを使うと,変数選択とかの可読性がさがる
- PCAを使って,変数選択と変数の適切な線形結合を同時に推定できた.
シンポジウム「データセントリックサイエンスがつくる未来」†
大量大規模データを活かす科学が予言する未来社会†
北川 源四郎(統計数理研究所所長/分科会委員長)
- 情報技術・情報社会の発展 → 大規模・大量のヘテロデータが集積
- (工業化社会 → 情報化社会 + 資本主義 → ポスト資本主義)⇒ 知識社会
- ドラッカー:ポスト資本主義社会における資源は,資本でも土地でも労働でもなく,それは「知識」である ⇒ この転換は2010〜2020年まで続く
- [ 知識:普遍の真理,モデル:実体の表現 ] ⇒ [ 知識:予測・意志決定に有用な情報,モデル:機能の表現 ]
- 科学研究の拡大:物理世界 → 物理+進化世界 → 物理+進化+Cyber(人工物)世界
- 第3の科学=計算科学の確立:理論科学(原理主導・演繹)と実験科学(データ主導) → 計算科学 (シミュレーション)
30年後の未来予想
- 個別対応社会:マスからの転換
- サービス産業の革新(医療・福祉・教育・情報提供・観光)
- センシング用インフラ整備:大量データがリアルタイムに(気象・災害・交通)
- 経済・社会体制の変革
- 大量データの瞬時処理:価格決定メカニズム,保険・年金制度,会計・課税・監査,貨幣経済の変化
- 民主主義の新しい形態:世論把握,複雑な系の実世界シミュレータ
- 予測・シミュレーションへの活用:リアルタイム活用,大規模(個人)情報の活用,地域・個人・リアルタイム情報の統合
- 安心・安全:センサーによる災害・事故防止,常時観測情報(犯罪・事故・災害の被害軽減)プリコグニション
- 必要になる技術:センシング,データ中心科学(データ同化,マルチシナリオ),プライバシ・セキュリティ
第4の科学
- データ中心の科学,シミュレーションとともに計算機が可能にした科学 (cyber-enabled)
- モデル:普遍なものから情報抽出の道具に(いろいろな知識を統合するベイズモデリング)
- 個人化:過去の統計から離れる 平均を見る→個性を捉える
- 究極の個人化は他のデータとの関連性がみれなくなる → 究極の条件付けが必要
- データ同化:方程式を解く → データを活用してシミュレーションの精度を向上,第3と4の科学の統合
- 能動的モデリング,個人化,データ同化 → どれもベイズモデリングに関連
時系列における情報統合
海底地震計 (OBS)
- 観測時系列データを普通にみると水中の反射しか見えず役にたたない
- (地下 + 水中 + ノイズ) の三つの要素 + 隣接センサーの干渉 + ラフな地下構造モデルの組み合わせ
マルチエージェントシミュレーションで描く都市交通の未来†
中島 秀之(公立はこだて未来大学学長/分科会副委員長)
- Jim Grey: the Fourth Paradigm
- 情報は,物質・エネルギーに続く第3の世界観(アービン・トフラー)
スマートシティはこだて(はこだて未来大 + IBM)
医療との連携
- 患者視点のIT:待ち時間削減・周知,交通手段の確保・連携,通院の必要性の削減,遠隔医療,診断情報(カルテ)の共有
フルデマンドバス
- 固定経路や時刻表をもたないバス.GPSとかのデータを使う.
- 高知 中村市で実現された
- 乗客は,出発地と目的地を伝えると,何分後かにバスがくる
- 人数が少ないと回り道が少なくて効率がいいけど,増えるとシミュレーションでも悪かった- 人数に上限を設けて,必要に応じてバスを増やすモデルだとフルデマンドが良かった
大規模カーナビゲーション
- VICS を装着した車が20%ぐらいだとVICSをつけると早く付けるが,50%を超えるとみんなかわらなくなる
- みんなが集まりすぎないような制御が必要 → 人が動いたあとの未来の状態をシミュレーションで求めて知らせる必要
- 経路情報を共有して,大域最適すると,装着率が上がってもVICSは有効になる
- 問題:みんなが位置情報を出してくれるか → 秘密関数計算?,全員が最短コースが通れるわけではない→経済原理
スマートシティ函館:交通と医療
- フルデマンドバスを10台ぐらい:病院に行く人のバスを対象に
- 診察券とバスの精算を一体化,個人の一致性はチェックできるが個人の特定はできない
- バス運行の中央制御:中央の計算機からデータをダウンロードするカーナビ
- 患者さんの情報はGPS付き携帯で収集
- 渋滞情報を集める問題,法律の規制,料金設定の問題
- 中心部(第2期)→もっとIT化(第3期)
- 意外だが,通勤・通学のようなタイプの大量移動でもシミュレーションではフルデマンドは有効だった
- 技術課題:シミュレーションの検証,最適ルート計算(到着時間保証),渋滞予測,エリア制の設定
3月 30日 (火)†
○鈴木 譲(大阪大学)
重みつき窓を用いた適応型オンライン予測†
吉田 真一,○畑埜 晃平,瀧本 英二,竹田 正幸(九州大学)
- スライド窓の大きさを適応的に変化させられるweighted-averageアルゴリズム
- スライド窓に,大きさが異なる複数部分窓を考え,それらを重み付けして予測する.regret の上限が求められる
- さらに,有効期間の異なるスライド窓が複数ある場合にも適応regretの上限が計算できる.
密度比推定の理論的解析†
○金森 敬文(名古屋大学),鈴木大慈(東京大学),杉山 将(東京工業大学)
ラベル無しデータを用いた回帰の改良†
○川喜田 雅則,竹内 純一(九州大学)
- サンプルの重要度を,ラベルなしデータから推定して密度で補正するような推定をする.
Incremental Mining of Closed Frequent Subtrees†
○Viet Anh NGUYEN,Akihiro YAMAMOTO(京都大学)
- 少しだけDBが更新されたとき,頻出飽和木パターンを抽出する.
- 候補集合の更新を効率的に行うヒューリスティック
○山本 けい子,速水 悟,亀山 敦之,内山 良一,紀ノ定 保臣(岐阜大学)
テキストマイニングによる個人Blogデータからの性格推定手法†
○南川 敦宣,横山 浩之(KDDI研究所)
- エゴグラム:エリック・バーン
- 五つの基本要素 Critical Parent, Nurturing Parent, Adult, Free Child, Adapted Child で自我状態を分類する
- 行動的診断(表情,しぐさ),質問紙法(東大式エゴグラム TEG2)
- ブログからエゴグラムを作る
○赤間 陽二,上野 康隆(東北大学)
- データ数と次元数を同時に大きくすると,固有値がまともに推定できないときがあるので,それが推定される条件を示す
指数族テンソル因子化法による欠損値予測と異常検知†
○林 浩平,竹之内 高志,柴田 智広(奈良先端大),神谷 祐樹,加藤 大志,國枝 和雄,山田 敬嗣(NEC),池田 和司(奈良先端大)
- 軸が一つヘテロな,すなわち,適切な分布が異なるようなテンソル分解をする.
- EMで解くが,解析解が求められない → ラプラス近似 + ガウス過程
多様体学習と非線形次元縮約 [review発表]†
○西森康則(産業技術総合研究所)
- 高次元空間中の多様体を低次元に展開する方法のサーベイ
半環に基づく前向き後ろ向きアルゴリズムの一般化†
○東 藍,新保 仁,松本裕治(奈良先端大)
- トレリスのパスをかけ算,パスに渡る方を足し算と考えて半環とみなす
- Viterbiなどがこの一般的な枠組みで捉えられる
拡散現象を媒介するネットワークのプロファイリング†
○前野 義晴(ソーシャル・デザイン・グループ)
- 確率的な変化をもち,空間的にヘテロなネットワークを伝播し成長する拡散現象の観測データから,ネットワークのトポロジと拡散の係数を推定する方法を述べる.
- 確率微分方程式の近似でとく
○猪口 明博,鷲尾 隆(大阪大学)