コンセンサスのとれた厳密な定義はないが,だいたい,次のようなものといってよいだろう.
厳密には定義されていない構造をもち,その中にテキストなどの非構造化データを含んでいる. 例えば,XMLデータなどは,全体は木構造のタグ構造をもつが,そのタグの中身は非構造化データであるテキストである. また,特許文書などのフォームに従った文書なども,題名,要約,本文などの構造に,文書が埋め込まれている.
-- しましま