アルゴリズムへの入力で,ある対象の全ての特徴や,一部の特徴の値がない場合.
欠損していると,特徴の値は分からないが,欠損していること自体が情報となる場合もある.例えば,年齢が欠損していれば,ある程度以上の年齢と予測できる.
- 欠損値のある特徴を,全ての対象について無視したり,欠損値のある対象のデータを除外したりする
- 「欠損値」という値にする
- 手作業で適切な値を選んで補完する
- 処理するアルゴリズムで,あまり影響の出ないような定数で置換する
- 同じ特徴の欠損していない値の平均や中央値などの統計量で置換する
- 別の情報や,他の観測された情報基づきを用いて,最尤推定などの統計的推定を行う
- 欠損した特徴を潜在変数とみなし,EMアルゴリズムなどを適用
- 時系列などの場合は,前後の値から補間する
- 上記の方法とは意図が異なるが,観測値の数でバイアスが生じることがあるので,欠損した割合に基づいて重み付けする必要のある場合も
欠損が生じる原因†
- 失敗,紛失:人為的ミスや観測機器の問題で値がえられなかった
- 意図的なもの:アンケート調査で年齢を書かない.患者に負担がかかる検査は,特に疾患の疑いのある人にしか行わない.
- 対象がない:顧客数が0人のときは,顧客の平均年齢という特徴はない
-- しましま
関連項目†
リンク集†
関連文献†