Data-Mining: Ein Angriff auf die Anonymität?
BLOG: Bierologie
Nachdem ich in einem der letzten Postings hier die datenschutzkritische Spackeria vorgestellt und auf die Vorteile von elektronischen Daten, besonders in Form von Patientenakten eingegangen bin, möchte ich das gleiche Vorgehen mal aus der anderen Seite beleuchten. Anstatt solche Daten zum Nutzen von Patienten zu verwenden, lassen sich damit nämlich auch andere Dinge anstellen. Über einen potentiellen Verwendungszweck bin ich im ArXiv gestolpert. In diesem Repository findet man nicht nur jede Menge Paper aus der Physik, sondern auch spannende Veröffentlichungen aus anderen Fachbereichen. In diesem Fall: Aus der Informatik.
Der Autor Graham Cormode hat sich mit der Frage beschäftigt wie viele persönliche Daten, die eigentlich geheim gehalten werden sollten, mit Hilfe von größeren Datensätzen von ganzen Populationen, korrekt vorhergesagt werden. Das Prinzip ist dabei ähnlich wie bei dem Facebook–Gaydar, von dem vielleicht der eine oder andere schon mal gehört hat. Dabei haben es ein paar Leute vom MIT geschafft alleine aus der Freundesliste von Facebook-Usern korrekt vorherzusagen ob die betreffenden Benutzer schwul sind oder nicht. Leider habe ich deren Ergebnisse nicht direkt irgendwo finden können, falls jemand das Paper hat, würde ich mich über einen Kommentar dazu freuen.
Aber so unrealistisch wie das vielleicht klingt, ist das gar nicht. Denn wir alle neigen dazu, uns mit Gleichgesinnten zu vernetzen. Gerade in Social Networks sieht man das sehr gut. Und so wurde bei dem Gaydar einfach danach geschaut, wie viele der Freunde ihre Homosexualität bei Facebook eingetragen haben. Sind das mehr als man über den Facebook-Populationsdurchschnitt vermuten würde, dann ist das schon ein ganz guter Indikator. Und genauso könnte man bei meinem Profil aufgrund der vielen Piratenpartei-Mitglieder und der vielen Scienceblogger vermutlich beide Eigenschaften auch über mich vorhersagen. Ganz ohne, dass ich das selbst angegeben hätte.
Wie man ganz gut sehen kann, ist dieses Vorgehen genau das Selbe, welches auch bei den elektronischen Patientenakten verwendet wird. Anstatt aber aus den öffentlichen Daten herauszubekommen, ob ein Patient eine (ihm unbekannte) Krankheit hat, versucht man mit der selben Methode hier Daten vorherzusagen, die der Betroffene kennt, aber eben nicht mitteilen will. Graham Cormode hat genau diesen Ansatz mit 2 Testdatensätzen aus dem UCI Machine Learning repository ausprobiert. Seine mathematischen Modelle möchte ich hier bewusst wieder ausklammern, wer ein größeres Interesse an den Grundlagen solcher Berechnungen hat, der wird im Paper selbst fündig.
Die Genauigkeit von Cormodes Methode variiert dabei noch stark, allerdings schafft sie es nach seinen Berichten in manchen Bereichen bis zu einer 85%igen Genauigkeit und er selbst geht darauf ein, dass dies zu einem Problem werden kann, wenn man diese Art von „Angriff“ auf die Privatsphäre starten will:
For such probabilistic attacks, we must therefore decide what level of belief we can tolerate. This is naturally a function of the sensitivity of the information being inferred, and the way in which it is being used. For example, a blackmailer threatening to reveal a target’s true sexuality to their family can perhaps tolerate making a few false accusations before finding a victim, while a law enforcement organization might require a much higher degree of suspicion before being granted a warrant to investigate further.
Falsch-positive
Neben der Angabe falscher Daten dürfte wohl eine gezielte Befreundung mit einer großen Anzahl von Zufallspersonen helfen. Man muß das Rauschen so hoch schrauben das das Signal unerkennbar wird.
Müßte eigentlich die Verabredung zu so einer Rauschfreundschaft in einem anderen Medium erfolgen?
Rauscherzeugung
Zumindest sollte die Verabredung zur Rauscherzeugung zumindest nicht komplett öffentlich sein, sonst lässt sie sich ja wieder automatisiert erfassen und filtern.
Allerdings bleibt dann auch die Frage offen: Was nutzt einem ein soziales Netzwerk noch, wenn er mit jedem befreundet sein muss, damit die Daten, die man verstecken will im Rauschen untergehen?
Bzw. selbst wenn man es dann noch normal benutzen kann: Dann dürfte man einfach diejenigen anderen Nutzer, mit denen am häufigsten interagiert wird, als “echtes” Netz ansehen und in dieser Teilmenge wieder nach Auffälligkeiten schauen können.
Ich gewinne immer mehr den Eindruck, dass sich dieses Problem nicht mit vertretbarem Aufwand lösen lässt.
Gaydar-Paper
Das Gaydar-Paper müsste laut Google Scholar eigentlich dieses hier sein:
http://firstmonday.org/…le/viewArticle/2611/2302
Interessantes Thema! 🙂
Viele Grüße,
Florian
Danke für den Tipp! Das werde ich morgen mal in Ruhe lesen 🙂