人工知能学会第20回全国大会

このページはしましま人工知能学会全国大会2006に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.


人間乱数の分析

楊 静宏(岩手大学 工学研究科) 川原 正広(東北大学大学院 情報科学研究科) 五味 壮平(岩手大学 人文社会科学部) 新貝 鉚蔵(岩手大学 工学研究科)

人間が乱数のつもりで作った数列には何らかの特徴が現れる.

  • 生成頻度が早いと,短期記憶には残っているが,使えない
  • 中間だと,短期記憶が使える
  • さらに遅いと覚えていない

17種の乱数についての指標をPCAしたところ,5個/秒 と 1個/秒 の間隔で生成したものが,他の時間帯と離れている.

知識検索サイトにおける有害情報のフィルタリング知識の表出化

小林 大祐(東京大学大学院情報理工学系研究科) 松村 真宏(大阪大学大学院経済学研究科) 石塚 満(東京大学大学院情報理工学系研究科)

「Yahoo!知恵袋」が対象.意味が不明瞭な質問・回答などは,単語やサイトを利用するだけでは対処できない.不適切な文書は,いたずら投稿が多くまれな共起関係が生じる.

共起グラフ:文書上で単語が共起していれば辺を生成. Wikipediaのデータから生成した共起グラフと,質問文とを比較し,辺が一致していればOKと考える.

ディスカッションオントロジー:実世界の会議における人間行動から取得したメタデータ解析による知識発見

友部 博教(名古屋大学 21世紀COEプログラム「社会情報基盤のための音声・映像の知的統合」) 長尾 確(名古屋大学 情報メディア教育センター)

  • 良い議論:知識の共有+参加者の議論能力の向上
  • それに対する支援の要素:進行中,議論後(議事録),参加者(方法論の習熟)
  • ディスカッションマイニングシステム:カメラ,マイク,センサにより会議の進行情報を収集
  • 発言に決定木を使って「意図タグ」をつける.報告では「意見」少ないが,発表練習などでは多くなる
    • 情報要求・応答が多い:ここの発言時間は短く発散し易い
    • 意見・希望が多い:発言数が多くブレインストーミング的
    • 示唆・提案が多い:発表者に対する提案が多い.一時的に発散するが,最後には収束.
  • こうした意図の状態の遷移をモデル化することで,議論の良さの判定や,今後の改善を試みる.

NTGを利用した薬物分子グラフマイニングのための知識ベースの構築と活性推定への応用

栗林 滝 (豊橋技術科学大学大学院 工学研究科 知識情報工学専攻) 高橋 由雅 (豊橋技術科学大学 知識情報工学系)

  • NTG(Non-Terminal Vertex Graph):頂点字数が1以下にならないグラフ. ベンゼン環などの高分子構造を表現.
  • NTGを構造だけから,分子や結合のラベルを詳細化した記述力の階層関係区別したDBを生成.
  • 各レベルでの記述に分子の活性情報を付加しておき,クエリとなった分子にマッチしたグラフの活性や,それより一般化されたレベルでのグラフの活性を返す.

部分構造情報を用いたグラフクラスタリング手法の検討

和田 貴久 (青山学院大学) 大野 博之 (青山学院大学) 稲積 宏誠 (青山学院大学)

部分グラフの頻度をTFS(topological fragment Spectra) という.これを用いてグラフ間の類似度を測り,最短距離法を適用.

実世界での局所的位置関係とトポロジーを用いた情報支援に向けて

中村 嘉志 (産業技術総合研究所) 並松 祐子 (株式会社アルファシステムズ) 宮崎 伸夫 (株式会社アルファシステムズ) 松尾 豊 (産業技術総合研究所) 西村 拓一 (産業技術総合研究所)

  • 自然なインタラクション情報の獲得:会話の状況や展示資料への関心の検出のため,位置と向きの情報を取得する.
  • 方向センサー:指向性の赤外線や超音波センサーを使って向きを検出し,いくつかの位置の分かったセンサーを基に,向きや位置を特定する.

Web文書に対するマーキングからの個人知識の獲得

松岡 有希 (株式会社国際電気通信基礎技術研究所,総合研究大学院大学) 坂本 竜基 (株式会社国際電気通信基礎技術研究所) 伊藤 禎宣 (株式会社国際電気通信基礎技術研究所,東京農工大学) 武田 英明 (総合研究大学院大学,国立情報学研究所) 小暮 潔 (株式会社国際電気通信基礎技術研究所)

  • Web文書へのアノテーション(特にマーキング)から,主観的に興味を持つ語の獲得.
  • マーキングの使われ方:主観的な興味,客観的に重要
  • 三色ボールペン法:赤-客観的に非常に重要,青-客観的に需要,緑-主観的に重要
  • マーキングされる単語のTF-IDF値は,全文書でのそれに比べて高いが,個人ごとの差は検出できなかった←マーカーを付けるのがめんどくさくてサンプルが少ない.
  • ユーザの負担を減らす:選択した文字列に対応する発表が検索される.その後,ジャンプするとマーキングが残る.

NewsMLのための特徴語の自動抽出

大川原 雄也 (名古屋工業大学大学院) 大囿 忠親 (名古屋工業大学大学院) 伊藤 孝行 (名古屋工業大学,Massachusetts Institute of Technology) 新谷 虎松 (名古屋工業大学大学院)

  • NewsML:XMLベースのニュース配信フォーマット.メタデータ記述が可能,効率的な管理,高精度の検索→メタデータの付加コストが高い欠点
  • 記事の内容を表す KeywordLine と内容のクラス Genre要素を本文から抽出する.
  • クラスタリングで文書を分類し,その中の特徴語で Genre を決定

Web画像を手がかりとした,人物に関する情報抽出の検討

植松 幸生 (日本電信電話株式会社 NTTサイバーソリューション研究所,東京理科大学理工学研究科) 片岡 良治 (日本電信電話株式会社 NTTサイバーソリューション研究所) 大和田 勇人 (東京理科大学理工学研究科)

  • Blog中の画像検索:周辺テキストだけだと同じ重要度で同じ画像が多数検出される.
  • 検索条件に対するBloggerの重要度=クエリを含むエントリの頻度 EF.さらに,クエリと共起する単語も考慮する拡張も考える.
  • そのトピックについて一貫して記述していれば,重視する.
  • クエリについてのBlogger重要度が高いエントリに含まれる画像を上位に表示
  • EFと一貫性は効果があったが,共起性はあまり関係なかった.

SVMと新聞記事を用いたWeblogからの意見文抽出

川口 敏広 松井 藤五郎 大和田 勇人 (東京理科大学大学院 理工学研究科 経営工学専攻)

  • レビュー記事抽出と意見の分類の2段階化によって精度の向上をめざす
  • レビュー記事判定:アフィリエイトリンクの有無や品詞の割合などを特徴量として採用しSVMで判別 ー 意見抽出:特徴語リストのスコアの辞書を新聞記事から生成し,その辞書に基づいて判別する.

Webからのエンティティ間の関係情報の抽出

森 純一郎 (東京大学大学院情報理工学系研究科) 辻下 卓見 (東京大学大学院情報理工学系研究科) 松尾 豊 (産業技術総合研究所) 石塚 満 (東京大学大学院情報理工学系研究科)

  • 関係の強さに加えて,その繋がりの背後の情報を取得する
  • 従来研究では関係のクラスを事前に与えていたが,与えない方法
  • 関係のある語が共起している文書でtf-idfによる重要語が関係の種類の候補
  • 仮定:同じクラスの関係は,同様な重要語が現れやすい
  • 同様の重要語が現れるクラスタを求めて,関係のクラスを生成する

HTMLタグを用いたWebページのクラスタリング手法

折原 大 (電気通信大学大学院 電気通信学研究科 システム工学専攻) 塚田 大介 (電気通信大学 電気通信学部 システム工学科) 内海 彰 (電気通信大学大学院 電気通信学研究科 システム工学専攻,電気通信大学 電気通信学部 システム工学科)

  • 検索結果をクラスタリングして提示:内容ではなく,構成やジャンルに基づく分類をする.
  • 特徴量:抽出したHTMLタグから分割数(タグの位置を反映)とn-gram(連続反復数反映)を計算し,これを元に特徴ベクトルを作る.

絶対クラスタリングと相対クラスタリング

神嶌 敏弘 (産業技術総合研究所)

質疑応答

  • 概念定義があるかどうかという概念とはどうか
    概念定義の言語のクラスの違いだと思う.定義できるかどうかではきまらない.
  • 絶対/相対クラスタリングは主観に依存する場合があるのではないか?
    依存性との関係を説明してしまったが,あとで考えると,出したいと思うクラスタリングによって主観的に決めるべきもの

部分時系列クラスタリングの理論的基礎

井手 剛 (IBM東京基礎研究所)

部分時系列クラスタリング時系列上をスライドさせて生成した事例をk-meansなどでクラスタリングする. 各クラスタはセントロイドで代表するが,これが入力時系列とは無関係にサイン曲線になってしまう.

時系列をループ状にして,ずらして切り出すことでウィンドウを表現. すると k-means の目的関数は

E=const. - Σ‖ρ u^(j)‖,ρは密度行列(時系列の外積の和)とu^(j)は中心

Eの最小化は固有値問題に置き換えられる.基底をフーリエ基底にすると ρ は,パワースペクトルを対角成分とする対角行列になる.

索引層を用いたSOMの学習高速化:初期マップ生成アルゴリズムの改良

渡邊 旬 (豊橋技術科学大学大学院工学研究科知識情報工学専攻) 高橋 由雅 (豊橋技術科学大学 知識情報工学系)

初期マップの状態をより学習が進んだ状態に近づけることで収束を早くする.

フィードバックも用いたSOMによる時系列データの学習

山口 崇志 (東京情報大学 総合情報学部 情報システム学科) マッキン ケネスジェームス (東京情報大学)

ゴミ焼却炉から排出されるダイオキシンと相関の強い一酸化炭素(CO)の時系列変化を予測.部分系列が入力.reccurentな3層ニューラルネットに似たネットだけど,2段目がSOMになっている.一般のreccuentネットより学習アルゴリズムが単純

形式的概念分析を用いた概念階層間の関係の発見

市瀬 龍太郎 (総合研究大学院大学,国立情報学研究所) 武田 英明 (総合研究大学院大学,国立情報学研究所)

付加されていたメタデータの概念体系は個々に異なるので,うまく対応付けして相互運用できるようにしたい. ・複数の分類階層,(ある概念の)インスタンス集合,インスタンス属性が与えられ,分類階層間の特徴を見つける.

  1. 形式的概念分析:属性の連言の一般・特殊関係による束を生成
  2. 概念関係の同定:共通インスタンスと概念の束を使って概念階層を対応付ける

部分空間クラスタリングと相関規則に基づく分類学習手法

中西 耕太郎 (大阪大学産業科学研究所) 鷲尾 隆 (大阪大学産業科学研究所) 光永 悠紀 (大阪大学産業科学研究所) 藤本 敦 (大阪大学産業科学研究所) 元田 浩 (大阪大学産業科学研究所)

Class Association Rule(CAR):相関ルール型の規則を獲得.分類精度と理解容易性を達成.数値属性の適切なカテゴリ化が必要になるが,それを部分空間クラスタリング QFI を用いて行う.

アンサンブル学習を用いたConcept Driftへの適応手法

木谷 奈穂 (神戸大学大学院) 安村 禎明 (神戸大学大学院) 上原 邦昭 (神戸大学大学院)

  • 情報フィルタリングで利用者の関心が変化するconcept changeを検出する
  • 単一の分類器を変化させる方法と,複数の分類器を作り古いものを捨てる方法
  • concept change は漸次変化するconcpet driftと,急激に変化するconcept shiftがある.
  • concept driftへは複数の分類器を使ったアンサンブル学習で古いものを捨ている方法で対応できるが,shiftへは対応できない
  • shiftを検出して対応する→AdaBoostを用いてconcept shiftに対応する
  • アンサンブル学習の重みは「ノイズ>判別境界付近>その他」の関係がある→いままで,重みが小さかった事例が誤分類されたらshiftが起きて,判別境界面が変化したと考える.

分類器学習における分類精度向上のための属性追加方式

井芹 史明 (大分大学工学部) 田中 真樹 (富士通九州システムエンジニアリング) 末田 直道 (大分大学工学部)

補助クラス分類器を準備し,そのクラス分類結果を新たな属性値として追加する.

カーネル特徴空間における正準角を利用した宇宙機異常検知法

藤巻 遼平 (東京大学工学系研究科航空宇宙工学専攻) 矢入 健久 (東京大学先端科学技術研究センター) 町田 和雄 (東京大学先端科学技術研究センター)

  • 故障検出問題:テレメトリーデータは非常に高次元だが,本質的には低次元 → その多様体を見つける
  • 中心的な部分空間とテスト部分空間の差から以上検出
  • 中心的な部分空間はカーネルPCAで取り出す

赤外線センサーネットワークによる人物追跡

本田 誠一 (大阪大学大学院情報科学研究科情報数理学専攻) 福井 健一 (大阪大学産業科学研究所) 森山 甲一 (大阪大学産業科学研究所) 栗原 聡 (大阪大学 産業科学研究所) 沼尾 正行 (大阪大学産業科学研究所)

  • 複数の人物の行動パターンを,赤外線センサーネットから抽出する.
  • 他の人を混ぜて検出したり,センサーが検出に失敗した場合などで誤検出
  • 隣接するセンサー間の検出時間の分布を求めておき,誤検出を除外する

グラフィカルモデリングを用いた空間特徴抽出

今原 修一郎 ((株)東芝 研究開発センター)

  • 変数の完全グラフの状態から,相関関係のないノードリンクを削除することで,変数間の依存性を示したグラフィカルモデリング(GM)をする.
  • 離散データ:バイナリ変数表記に変換し,変数値間のGMを求める→関連のある変数値間にリンクができる.
  • 空間データ:離散化して同様に
  • 大規模データだと,無相関の検出をχ2乗検定するとほとんど関係が検出されるので,非心χ2乗検定を使う.
  • いわゆるグラフィカルモデルとはあんまり関係ない話

Subset-Releif法によるデータマイニングのための属性選択手法

三浦 輝久 ((財) 電力中央研究所)

  • フィルター型特徴選択:Relief法
    対象をサンプリングし,そのサンプルから最も近い正と負の事例を見つけ,そこから属性を評価する.
  • 前向きのラッパー法で特徴集合を見つけるが,評価する特徴をフィルター型選択でしぼりこんでおく
  • Relief法も,ランダムサンプリングした対象ではなく誤分類した対象を使う点と,対象間の近さの評価に,評価中の属性の部分集合を使う.

囲碁における、正確な着手予測のための、ファジーパターンマッチング

荒木 伸夫 (東京大学大学院 情報理工学系研究科 コンピュータ科学専攻 辻井研究室)

  • 候補手の絞り込み:プロの手を予測するが現状では34%しかあたらない
  • 注目点の周囲の石の配置を考えるテンプレートマッチングによる判定.マッチには八種技法を使う
  • テンプレートの大きさ:盤面を広く見たいが,サンプルの疎の問題
  • 学習にかかる計算時間が膨大
  • ファジィパターンという曖昧マッチを許すことでどうにかしようとしたがうまくいかなかった

脳波を用いたWebページデザインの客観的評価

中村 浩介 (広島市立大学) 砂山 渡 (広島市立大学)

  • 事象関連電位の測定中に関心度の異なる画像を呈示すると関心度の高い映像では事象関連電における刺激の評価や意志決定を反映するP300を使う.
  • 見づらいものを見るとP300の振幅は大きくなる
  • 現れ方が明瞭かどうかは人に依存する

パネル討論「コンピュータの進歩で将棋は変わるか?」

司会:松原仁 (はこだて未来大学)

飯田弘之 (北陸先端大 日本将棋連盟プロ6段)

2012年に名人を破るという予測をしたが,その名人を超えるための課題

  • 序盤での駒組み負けをしない
  • 中盤にかけて(仕掛けや曲面打開)王の防御などの均衡が崩れるが,それをコンピュータが嫌うためゲームを作りにくい
  • 棋風や相手モデルは得意
  • 終盤のせりあい

序盤

  • 定跡データベースの構築→定跡だとばれると対処できない
  • 自分が得意な定跡(線形,囲い,攻形)を選択,誘導する
  • 定跡をはずす.はずすタイミングが問題
  • (重要) 未知の駒組みへの対応:人間との対戦では重要になると考えられる
  • (重要) 負けにくい駒組み

ゲームを創る

  • 仕掛けの段階や局面打開が難しい←目先は損するが,あとで得する戦略をとれるか
  • 駒損得,王の安全度,駒の働きのバランス感覚
  • このバランス感覚は評価関数に集約される←Bonanzaはここに大きな進展

棋風と相手モデル

  • いくつかの候補手から,人間は棋風に応じて迷いがあるが,コンピュータはそれがないので有利
  • 相手モデル:相手の棋風の学習と勝負術をモデル化できる
  • 棋風とロールシャッハテストの比較研究も
  • 調子がいいと,候補手が複数でてくることはないとも (大山名人)

終盤でゲームの終わりを見る

  • ゲームがパズルになる瞬間は,まだ人間の方が先に見つけている.
  • その前の,勝負が決まっている手筋と決まっていない手筋が混ざっている段階で,勝ちがでる方向を高精度で察知する(大局観)必要

将来に向けて

投了時期など人間と区別ができないようなものが創りたい

山下宏 (AI将棋プログラマ)

コンピュータの手の選択

  • 有利な場合に高い値になる評価関数で差し手を評価
  • min-max法:自分は評価値が最良の手,相手は最悪の手をとり,最も深読みした点での評価値を差し手の評価値とする
  • α-βカット:深さ優先で調べると,今までに見つけた手より悪い手を見つけた時点で,その部分探索木の以後の探索を打ち切ることができる

最近のコンピュータプログラムの進展

  • 長手数の詰将棋が解けるようになった(611手の詰め将棋「寿」でさえたった8秒で解ける)
    • より応手が少ない手を優先して探索する戦略の成功

人間に勝つのはいつか?

  • 将棋クラブ24のレーティング(日本将棋協会運営:18万人)を参考に推定
  • AI将棋は2001年から参加,2000でアマ4段,2500で県代表,2700でアマトップ,3000でプロトップ
    • 2001年は1800→現在は2500,年間80上昇しているので2012年ごろ

将来に向けて

Bonanza は6万データ,1万パラメータで機械学習しているが,これを超えたい

大内延介 (日本将棋連盟プロ9段)

  • コンピュータ将棋の進展には見るべきものがある
  • コンピュータが名人を超えても,将棋界自体には影響がないと考える
    • 名人との対戦は,きっと将棋への注目を高めてくれて,相乗効果があると思う.
    • 人間 vs 人間,人間 vs コンピュータ,コンピュータ vs コンピュータ もそれぞれの文化であって,当面はそれぞれが協調して発展していく.
    • ただ,コンピュータ将棋が進展しすぎると,目的を果たしてしまって終わってしまうのでは?

山岸浩史 (講談社)

  • 将棋ファン・マスコミの立場
  • コンピュータ将棋遍歴
    • はじめにやったのは「森田将棋」→あまりに弱かったのでお蔵入り
    • ディープブルーが勝ったときでも,将棋でコンピュータが勝つのは夢物語
    • 最近はコンピュータに勝てなくなって,ここ数年の進展には驚く
  • しかし,強い相手との対戦は面白いはずだが,コンピュータとの対戦はつまらないのはなぜか?
    • 受け手が確実なので,攻め手の訓練にはよいと思う
    • 終盤の読み合いは厳しいので,参考になる
  • ファンとしてはコンピュータがプロに勝つことに興味が持てないが,なぜ?
    • なぜ勝ったのか分からないからでは? どのような改良がなされて,手筋がどうよくなったのかといった解説がないからでは?
    • Bonanzaが将棋の背景知識を使わずに強くなったことは,今までの将棋界の流れを汲んでいないので,文化的な違いを意識するので,ちょっと興味がわいた
  • 名人に勝ったら
    • 単に演算能力の差で負けたのなら,あまり関心はない.

将来に向けて

コンピュータ将棋の進展によって,人間同士の対戦がより高まるとよいと思う.

伊藤毅志 (電気通信大学)

認知科学としての立場

人間の思考

  • チェス(de Groot,Simon)などチャンクの理論 & 囲碁も研究されてきた
  • 思考過程の実験
    • 盤面を初心者と熟達者にみせて,アイカメラで視線を追う実験
    • 熟達者は非常に限られた候補手を調べ,それほど多くの局面を追わない
    • 強いプレーヤほど,局面理解が早く,候補手が少なく,直線的な読み
  • つまり知識重視の思考,大局観がカギ

コンピュータ

  • 合法手を全て考え,流れがなく探索で読み,詰めの間違いはない
  • つまり,探索重視

コンピュータの強さは質が違う

  • ○ マシンパワーが生きるので詰めが得意
  • ○ 詰め将棋からの逆算によって,終盤で強い
  • △ 膨大な定跡をもつが,創造性がない
  • × 大局観,微妙な流れの変化がない
  • × (書きそびれた)

コンピュータ将棋の課題

  • 名人に勝つには
    • 大局観の獲得
    • 相手モデルをに基づき,弱点を突く戦略
    • 強大な終盤力
  • アマチュアは勝てないので,ソフトが売れなくなっている
    • 感情を表現したり,人間的な手をうつソフト
    • 対戦して為になる学習ソフト
  • プロに勝ったあとは
    • 本当にそれが最終目標か?
    • 最高の棋譜を残す大会として生き残れるか?
    • プロ棋士はコンピュータから学べるか?

将来に向けて

コンピュータとの対戦が増えて将棋道場が縮小して,対面して指す機会が減っている. すると,人間同士の対戦の面白みが広がるのでは?

議論

人間とコンピュータとのタッグマッチ

  • 対局場へのコンピュータの持ち込み規制のルール化が協議された
  • コンピュータとのチーム戦も将来は大いにありうる
  • ファンとしては興味もある
  • チェスではアドバンスドチェスのように試合の質を楽しむものがすでにあり,レーティングが200ほどあがる
  • コンピュータチェスが示す候補手の選択を人間に任せると100ほどレーティングがあがる

人間同士やコンピュータとの対戦の観戦をより楽しくする支援

  • コンピュータによる詰みの確率表示などは面白いのでは?
  • 棋譜しか残っていないものに,解釈をコンピュータが加える
  • コンピュータが介在すると面白くないという前提がおかしい→投了の時期をみごとにすることで味を出すなどのことができるのでは?

タンパク質相互作用属性の出現解析とその予測

山川 宏 (富士通研究所) 丸橋 弘治 ((株)富士通研究所) 仲尾 由雄 ((株)富士通研究所)

  • 蛋白質相間の相互作用の解析は創薬などに有用
  • 単なる関連の有無だけでなく,リン酸化や抑制などの作用の種類も調べる
  • multiple instance learning (MIL)
    • バッグにインスタンスが入っていて,どれか一つが正例なら,バッグは全部正例
    • バッグ中のインスタンスが全てリン酸化なら,残りもリン酸化と見なす
    • diverse densityという方法が著名
      O.Maron. and T.Lozano-Perez "A framework for multiple-instance learning" Advances in Neural Information Processing Systems, vol.10, (1998)
  • 負例の影響が強すぎるので,そのあたりを多数決型にして克服

ユーザの視点に基づく情報獲得のための知識整理インタフェース

田中 大智 (広島市立大学) 砂山 渡 (広島市立大学)

  • ユーザはテーマキーワード T (メインの話題)と関連話題の要素キーワード Ki を与える
  • T & 2個の関連キーワードのand検索で検索数を要素とする,関連キーワードを行や列とする行列を生成.この行列を Ki と Kj 間の関連の強さとみなし,グラフ表示やクラスタリングをする.

ブロックモデルによるリンク解析を用いた複数文書の要約

山下 長義 (大阪大学大学院情報科学研究科情報数理学専攻) 森山 甲一,栗原 聡,沼尾 正行

  • 連結しているノードが同じなら,内容も関係があると考える. 連結しているノードとその結合パターンに応じてページのクラスタを生成.
  • あるページのtf-idf値の計算に,同じクラスタのページのtf-idfも重み付けして足す

医療分野における単語類似度を利用した話題語抽出方法

日比野 哲也 (岐阜大学大学院工学研究科) 山本 けい子 (産官学融合センター) 田村 哲嗣 (岐阜大学工学部) 速水 悟 (岐阜大学工学部)

  • 文中にないキーワードを,Webを利用して抽出する
    文中の語を抽出し,それでWeb検索をして関連コーパスを収集,コーパスからモデル構築
  • 単語 w 文書 d についてのtf-idf値を計算して行列を作り,その中で単語 w に対応するベクトルのコサイン距離で単語の類似度を測る

確率モデルを用いたWeb画像マイニングによる画像認識

柳井 啓司 (電気通信大学)

  • 多種多様な画像の認識には多くの知識が必要→Webから収集する
  • 画像Webマイニングの研究例
    • 一般物体認識:ふつうの画像認識の学習事例にWebから収集した画像を使う
    • 単語概念の資格制の指標:二つのカテゴリ言葉を比べたとき,どちらの語に画像的な特徴が強いか?
    • Xについての画像解析:おいしいラーメンの画像から,チャーシューの占める割合が重要
    • 顔画像収集:ニューステキストと顔の対応付け
  • 通常の画像認識との違い
    • 無関係な画像が混入する→ランダムサンプリング+残りで検証で,反復的な学習手法の適用で改善
  • 反復的な学習の適用
    • 最初は画像のあるHTMLに基づいてキーワードとの関連性を調べる. ノイズと正しい画像の確率を推定,得られた判別器でノイズと正解を分類し直す,これを反復する

Proxyで抽出した組織内ユーザのWeb閲覧特徴の時系列変化

丹 英之 (株式会社 アルファシステムズ) 本田 光太郎 (株式会社 アルファシステムズ) 芝崎 亮 (株式会社 アルファシステムズ) 山口 哲 (株式会社 アルファシステムズ) 千葉 大作 (株式会社アルファシステムズ) 原 誠一郎 (株式会社 アルファシステムズ)

  • 同じ目的で組織中の人はWebを閲覧しているので,その履歴に応じたページ推薦
  • 利用者 a の特徴ベクトルを,ドメイン da1 のページを閲覧した回数
  • 利用者間の類似度を相関ではかりMDSで解析→新人は用語辞典などをよく参照
  • アクセスパターンによる個人の特定などもできた

Web閲覧履歴からのTopic Mapの抽出の支援

間瀬 心博 (東京工業大学 大学院) 山田 誠二 (国立情報学研究所)

  • ユーザが閲覧で収集した情報の分類
  • Topic Map: topic とそれらの関連 association と topicから情報源へのリンク occurrence
  • 分類はクラスタリングによる
    • リンクの接続性,ディレクトリの階層の差,

FriendRank:SNSにおける友人推薦システム

谷川 恭平 (大阪大学大学院 基礎工学研究科 システム創成専攻) 大坪 正典 (大阪大学大学院 基礎工学研究科 システム創成専攻) 土方 嘉徳 (大阪大学大学院 基礎工学研究科 システム創成専攻) 西田 正吾 (大阪大学大学院 基礎工学研究科 システム創成専攻)

  • SNS上で友人を増やす:コミュニティに参加,既存の友人の検索→労力が大きい
  • 友人の友人を新規友人候補とする
    • 候補友人の繋がりをトポロジーに分類:共通の友人の数と,共通友人が友人かどうかで決める
    • 自己紹介文からラベル集合を形成し,ラベルを相関ルールで予測.
    • ラベルの確信度と,トポロジーデータの構成に基づいて Frendlink の強度を定義

blogにおけるトラックバックへの影響因子の解析

武田 善行 (東京大学) 唐澤 鵬翔 (東京大学) 梶川 裕矢 (東京大学) 松島 克守 (東京大学)

  • コミュニティをTB関係から抽出する
  • blog構造:エントリの大きさ,コンテンツ,リンク,流行語,継続期間,更新頻度など
    • blog構造に基づいてコミュニティをみるとパターンがない→コミュニティがヘテロ?

Web上の情報を用いたアーティスト間のネットワーク抽出

金 英子 (東京大学大学院情報理工研究科) 松尾 豊 (産業技術総合研究所) 石塚 満 (東京大学大学院情報理工学系研究科)

  • 芸術際に参加しているアーティストの関連ネットを,Web上の共起関係を社会的繋がりの強さと考えて形成する.
  • 辺を形成するときの基準しきい値の調整は結構難しい.
  • リンク生成の基準を複数種類導入することで回避する

複数の業務メーリングリストからの企業内ソーシャルネットワーク分析

山口 哲 (株式会社 アルファシステムズ) 武田 英明 (総合研究大学院大学,国立情報学研究所) 市瀬 龍太郎 (総合研究大学院大学,国立情報学研究所) 大向 一輝 (国立情報学研究所) 原 誠一郎 (株式会社 アルファシステムズ) 千葉 大作 (株式会社アルファシステムズ)

  • 業務メーリングリストからの,コミュニティの抽出,特にキーマンの特定
  • 1業務あたり1〜2個のMLがある.ML数は150,発言者数 1500,4ヶ月,メール数85000
  • 発信-応答の回数によって関連の強さを測る
  • 本文は機密を含むので見ない.
  • 返信がないような活動的でない利用者は解析に加えなかった
  • 上位管理者は媒介するメールが多かった
  • 複数のMLで発言の重複を調べ,MLに対応する業務の密接さを測る

信頼の構造 社会ネットワークの構造に基づくTrustモデル

森 純一郎 (東京大学大学院情報理工学系研究科) 武田 英明 (総合研究大学院大学,国立情報学研究所) 石塚 満 (東京大学大学院情報理工学系研究科)

  • 誰のどの情報が信頼できるのか?
  • 知人ネットワークにおける構造的な繋がりで信頼を測る→エッジクラスタリング係数 (可能な共通知人数に対する,実際の共通知人数の割合)

トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:16 (2493d)