* テキストマイニング (text mining) [#jd99bfc7]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

大まかには自然言語処理とデータマイニングの技術を組み合わせて,非構造化データであるテキストから知識発見を行う技術.

文献2によれば,Herst は 文献1 で情報検索との違いを,まだ知らない知識をテキストデータから発見するものをテキストマイニング,既知の情報の位置を特定するものを情報検索であると述べている.

固有表現抽出や係り受け解析などの自然言語処理技術によって,タグや係り受けのグラフを抽出.その後,頻出パターンマイニング,相関ルール,クラス分類,クラスタリングなどを適用して知識抽出を行う.

文献3は,テキストマイニングの利用について次のような注意点を挙げている
- テキストマイニングは大量のデータを扱うことで結果を得るもの.少量のデータからの結果を,人手の作業による結果と比較して検証するのはナンセンス.
- 語彙の辞書はどれだけ整備しても,100%の精度になることはないので,辞書の整備に労力をかけ過ぎるべきではない
- 得られた結果は「気づき」を与える知識の候補であり,その検証はテキストマイニングソフトウェアではできない

> -- しましま

**関連項目 [#rd1f4063]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[text mining]]
#br
-[[データマイニング]]
-[[自然言語処理]]
-[[非構造化データ]]
-[[情報検索]]
#br
-[[検索:テキストマイニング]]

**リンク集 [#fc272c04]

//関連するWWW資源があればリンクしてください.

-[[Wikipedia:Text_mining]]

**関連文献 [#u90dd09f]

//この%項目%に関連する書籍や論文を紹介してください.

-文献1:M. A. Hearst "Untangling Text Data Mining" In Proc. of the 37th Annual Meeting of the Association for Computational Linguistics, pp.3-10 (1999)~
[[Hearstのページ>http://www.ischool.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html]]~
[[GoogleScholarAll:Untangling Text Data Mining]]
-特集「テキストマイニング」人工知能学会誌, vol.16, no.2 (2001)
--文献2:市村 由美, 長谷川 隆明, 渡部 勇, 佐藤 光弘 "テキストマイニング --- 事例紹介", pp.192-200
-文献3:那須川 哲哉「テキストマイニングの普及に向けて ー研究を実用化につなぐ課題への取組みー」人工知能学会誌, vol.24, no.2 (2009)
-特集「WWW上の情報の知的アクセスのためのテキスト処理」人工知能学会誌, vol.19, no.3 (2004)
-工藤 拓, 新保 仁 "自然言語処理におけるマイニング技術の応用" 情報処理, vol.46, no.1, pp.41-45 (2005)~
[[GoogleScholarAll:自然言語処理におけるマイニング技術の応用]]
-[[Book/Data Mining - Concepts and Techniques]] 10.4節
-[[Book/Data Mining - Practical Machine Learning Tools and Techniques]] 8.3節
-[[Book/人工知能学事典]] 7-25節, 13-12節

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS