個人情報の利活用の場面において個人情報の匿名化を避けて通ることはできないわけですが、踏み込んだ知識はデータ処理の門外漢には敷居が高く、「完璧な匿名化手法は存在しない」というかの有名な結論については理解できても、そこから進んで「どうするのがベターな匿名化手法なのか」といったことについては今ひとつ理解できずにいました。

そんな中でデータ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護の存在を知り、早速読んでみたところ、いくつか腑に落ちたことがあったのでまとめてみます。

  • 匿名化は確率的なものなので、再特定化される可能性をゼロにはできない。(上記の「完璧な匿名化手法は存在しない」と同じこと)
    生データを提供することで得られるメリットは、生データを提供することで発生するリスクとのトレードオフ。
    問題はリスクがゼロかではなく、リスクを正当化できるか。

  • データの開示方法、データの開示を受ける人が既に保有している知識や、再特定化するモチベーション・能力によって匿名化の手法やレベルが変わる
    例えば、コンテスト等のためにデータを公開する場合は厳重に匿名化を施す必要があって、再特定化禁止義務を課した研究者(再特定化モチベーションも再特定能力も高くない)にデータを開示する場合とは必要な匿名化のレベルは大きく異なる。

  • データの用途や分析方法によって、匿名化手法を変える必要がある
    わかりやすい例としては、発生順序が重要なケースにおいては、非特定化のために発生年月日をランダムに変更してしまうと、それだけで全く価値のないデータになってしまう

  • 再特定化のリスクの判断のアプローチには、最大リスク(再特定確率の最も高いレコードを全体リスクとみなす)と平均リスクがある
    公開データに対して再特定化アタックをされる可能性があるようなケースでは、攻撃者は誰か一人でもいいから特定しようと攻撃してくる以上、最大リスクアプローチでリスクを判定する必要がある。
    これに対して、「あ、これってあの人じゃん」的な再特定を防げば良い場合は平均リスクアプローチで考える。

  • ヘルスケアデータは、生データを使って分析をする強い社会的意義(疾病の防止や原因究明など)があるので、再特定化リスクをとってでも利活用するメリットを観念しやすいので、ビジネス利用というか、金儲けの場面では全く同じようには考えられないだろうな(感想)


無個性なイワシの群れを匿名化本の表紙に選んだオライリーのセンスが光るこの一冊、読むのは苦労しましたが、一歩前に進めた気がします。