官庁などがアンケート調査などで収集した個々のデータを 個票 (microdata) という. 個票を公開する場合には,氏名や電話番号などの,個人を直接識別できる項目は取り除かれる. しかし,公開した他の項目の組み合わせが母集団の中で一意に決まり,個人が特定できてしまう場合もある. こうした開示リスクを統計的に低くするため,属性値をIDなどに変えたり,属性値をまとめたりして開示しても問題がないようにするのが 匿名化 (anonymization).
データ工学においても,文献1 のように同じ組み合わせをもつレコードが,少なくとも \(k\) 個存在するようにする \(k\)-匿名性 (\(k\)-annonimity) や,プライバシ上問題とならない属性が同じであるレコードの,問題となる特徴が \(l\) 種類以上あるようにする \(l\)-多様性 (\(l\)-diversity) の他 などの研究がある.
これらの研究をまとめてプライバシー保護データ公開 (privacy-preserving data publication) などとも呼ぶ.
-- しましま