文献1により,USでは,誕生日,性別,5桁郵便番号で87%の個人が識別可能との調査結果が報告された. 一見無関係なデータでも,その組み合わせによって個人が特定できる場合が指摘された. このため,データマイニング技術によるプライバシー侵害の懸念が生じた.
そこで,考案されたのがプライバシー保護データマイニングで,分散保持されたデータそのものは秘密にしたまま,それらのデータを集積してデータマイニング手法を適用したのと同等の結果をえるための手法.
同じレコードの異なる属性が分散保持されている垂直分割モデルと,同じ属性集合で記述された異なるレコードが分散保持されている水平分割モデル,および両方とも分割されている任意分割モデルなどがある.
プライバシー保護データマイニングの実現するアプローチとしては,信頼できる第3者を仮定する方法とデータの匿名化を使う方法の他に,暗号学的な方法と,ランダム化による方法とがある.
-- しましま