テキストマイニング (text mining)

大まかには自然言語処理データマイニングの技術を組み合わせて,非構造化データであるテキストから知識発見を行う技術.

文献2によれば,Herst は 文献1 で情報検索との違いを,まだ知らない知識をテキストデータから発見するものをテキストマイニング,既知の情報の位置を特定するものを情報検索であると述べている.

固有表現抽出や係り受け解析などの自然言語処理技術によって,タグや係り受けのグラフを抽出.その後,頻出パターンマイニング相関ルールクラス分類クラスタリングなどを適用して知識抽出を行う.

文献3は,テキストマイニングの利用について次のような注意点を挙げている

  • テキストマイニングは大量のデータを扱うことで結果を得るもの.少量のデータからの結果を,人手の作業による結果と比較して検証するのはナンセンス.
  • 語彙の辞書はどれだけ整備しても,100%の精度になることはないので,辞書の整備に労力をかけ過ぎるべきではない
  • 得られた結果は「気づき」を与える知識の候補であり,その検証はテキストマイニングソフトウェアではできない

-- しましま

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-02-11 (木) 16:12:22 (2493d)