SciLogs » Bierologie » Informatik » Data-Mining: Ein Angriff auf die Anonymität?

Data-Mining: Ein Angriff auf die Anonymität?

BLOG: Bierologie

Weissbier & Wissenschaft

Nachdem ich in einem der letzten Postings hier die datenschutzkritische Spackeria vorgestellt und auf die Vorteile von elektronischen Daten, besonders in Form von Patientenakten eingegangen bin, möchte ich das gleiche Vorgehen mal aus der anderen Seite beleuchten. Anstatt solche Daten zum Nutzen von Patienten zu verwenden, lassen sich damit nämlich auch andere Dinge anstellen. Über einen potentiellen Verwendungszweck bin ich im ArXiv gestolpert. In diesem Repository findet man nicht nur jede Menge Paper aus der Physik, sondern auch spannende Veröffentlichungen aus anderen Fachbereichen. In diesem Fall: Aus der Informatik.

Der Autor Graham Cormode hat sich mit der Frage beschäftigt wie viele persönliche Daten, die eigentlich geheim gehalten werden sollten, mit Hilfe von größeren Datensätzen von ganzen Populationen, korrekt vorhergesagt werden. Das Prinzip ist dabei ähnlich wie bei dem Facebook–Gaydar, von dem vielleicht der eine oder andere schon mal gehört hat. Dabei haben es ein paar Leute vom MIT geschafft alleine aus der Freundesliste von Facebook-Usern korrekt vorherzusagen ob die betreffenden Benutzer schwul sind oder nicht. Leider habe ich deren Ergebnisse nicht direkt irgendwo finden können, falls jemand das Paper hat, würde ich mich über einen Kommentar dazu freuen.

Aber so unrealistisch wie das vielleicht klingt, ist das gar nicht. Denn wir alle neigen dazu, uns mit Gleichgesinnten zu vernetzen. Gerade in Social Networks sieht man das sehr gut. Und so wurde bei dem Gaydar einfach danach geschaut, wie viele der Freunde ihre Homosexualität bei Facebook eingetragen haben. Sind das mehr als man über den Facebook-Populationsdurchschnitt vermuten würde, dann ist das schon ein ganz guter Indikator. Und genauso könnte man bei meinem Profil aufgrund der vielen Piratenpartei-Mitglieder und der vielen Scienceblogger vermutlich beide Eigenschaften auch über mich vorhersagen. Ganz ohne, dass ich das selbst angegeben hätte.

Wie man ganz gut sehen kann, ist dieses Vorgehen genau das Selbe, welches auch bei den elektronischen Patientenakten verwendet wird. Anstatt aber aus den öffentlichen Daten herauszubekommen, ob ein Patient eine (ihm unbekannte) Krankheit hat, versucht man mit der selben Methode hier Daten vorherzusagen, die der Betroffene kennt, aber eben nicht mitteilen will. Graham Cormode hat genau diesen Ansatz mit 2 Testdatensätzen aus dem UCI Machine Learning repository ausprobiert. Seine mathematischen Modelle möchte ich hier bewusst wieder ausklammern, wer ein größeres Interesse an den Grundlagen solcher Berechnungen hat, der wird im Paper selbst fündig.

Die Genauigkeit von Cormodes Methode variiert dabei noch stark, allerdings schafft sie es nach seinen Berichten in manchen Bereichen bis zu einer 85%igen Genauigkeit und er selbst geht darauf ein, dass dies zu einem Problem werden kann, wenn man diese Art von „Angriff“ auf die Privatsphäre starten will:

For such probabilistic attacks, we must therefore decide what level of belief we can tolerate. This is naturally a function of the sensitivity of the information being inferred, and the way in which it is being used. For example, a blackmailer threatening to reveal a target’s true sexuality to their family can perhaps tolerate making a few false accusations before finding a victim, while a law enforcement organization might require a much higher degree of suspicion before being granted a warrant to investigate further.

Man sieht aber hier bereits, dass solche Methoden eben nicht nur zum Patientenwohl genutzt werden können. Spannend ist dabei, dass man damit sogar falsche Angaben von einzelnen Personen mit einer recht genauen Wahrscheinlichkeit nachvollziehen kann, wenn man davon ausgeht, dass solche Falschangaben in der Gesamtpopulation nur selten vorkommen. Aber was macht man nun, mit diesem Wissen um Data-Mining, wenn wir zurück zum Beispiel von Facebook zurück gehen? NineBerry bringt in seinem Blog den Begriff des „Zwangsläufigoutings“ ins Spiel, der sich meiner Meinung nach auch auf diese Fragestellung übertragen lässt: Sobald man in sozialen Netzwerken aktiv ist, dann hilft es vermutlich nicht einmal, dass man keine oder falsche Daten einspeist, um seine Privatsphäre zu schützen. Bereits aus wenigen Informationen die angegeben sind, sowie den Freundschaftsbeziehungen die ein Nutzer hat, kann man recht gute Voraussagen dazu treffen, welche anderen Angaben wohl auf ihn treffen (Wieso muss ich dabei nur an Monty Python denken? „Ihr seid doch alle Individuen!“).

Aber was kann man dagegen unternehmen bzw. kann man das Rad überhaupt zurück drehen? Keine Freundschaften mehr über soziale Netzwerke pflegen? Nicht nur alleine falsche Daten angeben, sondern auch andere davon überzeugen, dass es sinnvoll ist Nonsense einzutragen? Ich bin da skeptisch, dass so etwas funktionieren kann. Aber vielleicht seht ihr das ja anders.

Literatur: Individual Privacy vs. Population Privacy: Learning to Attack Anonymization

Veröffentlicht von Bastian Greshake

Bastian hat seinen Bachelor in Biologie in nur 8 statt 6 Semestern abgeschlossen. Nach einem kurzen Informatik-Studiums-Intermezzo an der TU Dortmund hat es ihn eigentlich nur für ein Stipendium nach Frankfurt am Main verschlagen. Dort gestrandet studiert er dort nun im Master-Programm Ökologie und Evolution. Zumindest wenn er nicht gerade in die Lebensweise der Hessen eingeführt wird. Neben seinen Studiengebieten bloggt er über die Themen, die gerade in Paperform hochgespült werden und spannend klingen.

4 Kommentare

- Antworten
- DochFreu(n)de
- 23.03.2011, 17:12 Uhr
Falsch-positive

Neben der Angabe falscher Daten dürfte wohl eine gezielte Befreundung mit einer großen Anzahl von Zufallspersonen helfen. Man muß das Rauschen so hoch schrauben das das Signal unerkennbar wird.

Müßte eigentlich die Verabredung zu so einer Rauschfreundschaft in einem anderen Medium erfolgen?
Rauscherzeugung

Zumindest sollte die Verabredung zur Rauscherzeugung zumindest nicht komplett öffentlich sein, sonst lässt sie sich ja wieder automatisiert erfassen und filtern.

Allerdings bleibt dann auch die Frage offen: Was nutzt einem ein soziales Netzwerk noch, wenn er mit jedem befreundet sein muss, damit die Daten, die man verstecken will im Rauschen untergehen?

Bzw. selbst wenn man es dann noch normal benutzen kann: Dann dürfte man einfach diejenigen anderen Nutzer, mit denen am häufigsten interagiert wird, als “echtes” Netz ansehen und in dieser Teilmenge wieder nach Auffälligkeiten schauen können.

Ich gewinne immer mehr den Eindruck, dass sich dieses Problem nicht mit vertretbarem Aufwand lösen lässt.
- Antworten
- Florian
- 31.03.2011, 22:50 Uhr
Gaydar-Paper

Das Gaydar-Paper müsste laut Google Scholar eigentlich dieses hier sein:
http://firstmonday.org/…le/viewArticle/2611/2302

Interessantes Thema! 🙂

Viele Grüße,
Florian
- Antworten
- Bastian
- 31.03.2011, 23:15 Uhr
Danke für den Tipp! Das werde ich morgen mal in Ruhe lesen 🙂

Data-Mining: Ein Angriff auf die Anonymität?

BLOG: Bierologie

Veröffentlicht von Bastian Greshake

4 Kommentare

Schreibe einen Kommentar Antworten abbrechen