テキストマイニング - 機械学習の「朱鷺の杜Wiki」

[ トップ ] [ 編集 | 凍結 | 差分 | 履歴 | 添付 | リロード ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ]

テキストマイニング (text mining)†

大まかには自然言語処理とデータマイニングの技術を組み合わせて，非構造化データであるテキストから知識発見を行う技術．

文献2によれば，Herst は文献1 で情報検索との違いを，まだ知らない知識をテキストデータから発見するものをテキストマイニング，既知の情報の位置を特定するものを情報検索であると述べている．

固有表現抽出や係り受け解析などの自然言語処理技術によって，タグや係り受けのグラフを抽出．その後，頻出パターンマイニング，相関ルール，クラス分類，クラスタリングなどを適用して知識抽出を行う．

文献3は，テキストマイニングの利用について次のような注意点を挙げている

テキストマイニングは大量のデータを扱うことで結果を得るもの．少量のデータからの結果を，人手の作業による結果と比較して検証するのはナンセンス．
語彙の辞書はどれだけ整備しても，100%の精度になることはないので，辞書の整備に労力をかけ過ぎるべきではない
得られた結果は「気づき」を与える知識の候補であり，その検証はテキストマイニングソフトウェアではできない

-- しましま

関連項目†

リンク集†

Wikipedia:Text_mining

関連文献†

文献1：M. A. Hearst "Untangling Text Data Mining" In Proc. of the 37th Annual Meeting of the Association for Computational Linguistics, pp.3-10 (1999)
Hearstのページ
 GoogleScholarAll:Untangling Text Data Mining
特集「テキストマイニング」人工知能学会誌, vol.16, no.2 (2001)
- 文献2：市村由美, 長谷川隆明, 渡部勇, 佐藤光弘 "テキストマイニング --- 事例紹介", pp.192-200
文献3：那須川哲哉「テキストマイニングの普及に向けてー研究を実用化につなぐ課題への取組みー」人工知能学会誌, vol.24, no.2 (2009)
特集「WWW上の情報の知的アクセスのためのテキスト処理」人工知能学会誌, vol.19, no.3 (2004)
工藤拓, 新保仁 "自然言語処理におけるマイニング技術の応用" 情報処理, vol.46, no.1, pp.41-45 (2005)
GoogleScholarAll:自然言語処理におけるマイニング技術の応用
Book/Data Mining - Concepts and Techniques 10.4節
Book/Data Mining - Practical Machine Learning Tools and Techniques 8.3節
Book/人工知能学事典 7-25節, 13-12節

朱鷺の杜Wiki

参加しよう

Wiki超入門
練習用ページ
数式の表示
こびとさん
編集用ID: ibis
パスワード: 「VC次元」のVのフルスペルで最初だけ大文字

最新の30件
2024-04-13
- python
2024-04-09
- K-NEL
- K-NEL/errata
2023-11-22
- PRML/errata2
2023-11-21
- PRML/errata1
2023-11-01
- しましま/IBIS2023
2023-10-29
- IBIS
2023-06-16
- 人工知能学会全国大会
2023-06-11
- しましま/人工知能学会全国大会2023
2023-03-28
- Book
2022-11-27
- 朱鷺の社
2022-11-24
- しましま/IBIS2022
2022-07-08
- AutoTicketLinkName
2022-06-17
- しましま/人工知能学会全国大会2022
2021-11-13
- しましま/IBIS2021
2021-10-29
- 回帰分析
2021-06-11
- しましま/人工知能学会全国大会2021
2021-03-07
- MenuBar
2021-02-15
- python/numpy
2020-12-22
- 特異値分解
2020-12-18
- complement naive Bayes
2020-11-27
- しましま/IBIS2020
2020-10-17
- Paper/bias-on-the-web
2020-07-16
- F値
2020-06-30
- DataSet
2020-06-24
- バイアス-バリアンス
2020-06-10
- Paper
2020-03-15
- PRML
- PRML/link
2020-01-13
- Wiki超入門

カウンタ

累計: 15081
今日: 2
昨日: 5

Last-modified: 2010-02-11 (木) 16:12:22