これらのキーワードがハイライトされています:テキストマイニング
コンセンサスのとれた厳密な定義はないが,だいたい,次のようなものといってよいだろう.
厳密には定義されていない構造をもち,その中にテキストなどの非構造化データを含んでいる.
例えば,XMLデータなどは,全体は木構造のタグ構造をもつが,そのタグの中身は非構造化データであるテキストである.
また,特許文書などのフォームに従った文書なども,題名,要約,本文などの構造に,文書が埋め込まれている.
-- しましま
関連項目†
リンク集†
関連文献†