プライバシー保護データマイニング

プライバシー保護データマイニング (privacy preserving data mining)†

文献1により，USでは，誕生日，性別，5桁郵便番号で87%の個人が識別可能との調査結果が報告された．一見無関係なデータでも，その組み合わせによって個人が特定できる場合が指摘された．このため，データマイニング技術によるプライバシー侵害の懸念が生じた．

そこで，考案されたのがプライバシー保護データマイニングで，分散保持されたデータそのものは秘密にしたまま，それらのデータを集積してデータマイニング手法を適用したのと同等の結果をえるための手法．

同じレコードの異なる属性が分散保持されている垂直分割モデルと，同じ属性集合で記述された異なるレコードが分散保持されている水平分割モデル，および両方とも分割されている任意分割モデルなどがある．

プライバシー保護データマイニングの実現するアプローチとしては，信頼できる第3者を仮定する方法とデータの匿名化を使う方法の他に，暗号学的な方法と，ランダム化による方法とがある．

暗号学的方法では，secure multiparty computation という任意の演算を安全に計算できる技術を用いれば原理的には実現できる．しかし，計算や通信料が膨大になるため，各分析手法に合わせて，より効率的に計算できる方法が研究されている．
ランダム化は，個別のデータにランダムに変化させたデータを集める．このランダムな変化は統計的にキャンセルされるように設計されていて，データの分析ができるようになっている．