これらのキーワードがハイライトされています:データマイニング
大まかには自然言語処理とデータマイニングの技術を組み合わせて,非構造化データであるテキストから知識発見を行う技術.
文献2によれば,Herst は 文献1 で情報検索との違いを,まだ知らない知識をテキストデータから発見するものをテキストマイニング,既知の情報の位置を特定するものを情報検索であると述べている.
固有表現抽出や係り受け解析などの自然言語処理技術によって,タグや係り受けのグラフを抽出.その後,頻出パターンマイニング,相関ルール,クラス分類,クラスタリングなどを適用して知識抽出を行う.
文献3は,テキストマイニングの利用について次のような注意点を挙げている
- テキストマイニングは大量のデータを扱うことで結果を得るもの.少量のデータからの結果を,人手の作業による結果と比較して検証するのはナンセンス.
- 語彙の辞書はどれだけ整備しても,100%の精度になることはないので,辞書の整備に労力をかけ過ぎるべきではない
- 得られた結果は「気づき」を与える知識の候補であり,その検証はテキストマイニングソフトウェアではできない
-- しましま
関連項目†
リンク集†
関連文献†
- 文献1:M. A. Hearst "Untangling Text Data Mining" In Proc. of the 37th Annual Meeting of the Association for Computational Linguistics, pp.3-10 (1999)
Hearstのページ
GoogleScholarAll:Untangling Text Data Mining
- 特集「テキストマイニング」人工知能学会誌, vol.16, no.2 (2001)
- 文献2:市村 由美, 長谷川 隆明, 渡部 勇, 佐藤 光弘 "テキストマイニング --- 事例紹介", pp.192-200
- 文献3:那須川 哲哉「テキストマイニングの普及に向けて ー研究を実用化につなぐ課題への取組みー」人工知能学会誌, vol.24, no.2 (2009)
- 特集「WWW上の情報の知的アクセスのためのテキスト処理」人工知能学会誌, vol.19, no.3 (2004)
- 工藤 拓, 新保 仁 "自然言語処理におけるマイニング技術の応用" 情報処理, vol.46, no.1, pp.41-45 (2005)
GoogleScholarAll:自然言語処理におけるマイニング技術の応用
- Book/Data Mining - Concepts and Techniques 10.4節
- Book/Data Mining - Practical Machine Learning Tools and Techniques 8.3節
- Book/人工知能学事典 7-25節, 13-12節