Zeig mir deine Fotos und ich zeige dir deine Freunde

BLOG: Bierologie

Weissbier & Wissenschaft
Bierologie

Ganz so einfach ist es nicht. Aber ich hatte mich auf meinem privaten Nicht-Wissenschaftsblog schon mal zumindest theoretisch mit den Möglichkeiten von Geo-Tagging über Google Latitude und Co, und den Auswirkungen auf den Begriff von Privatsphäre beschäftigt. Mit einer ähnlichen Fragestellung haben sich auch David Crandall und seine Kollegen auseinandergesetzt. Ihre Ergebnisse haben sie in den Proceedings of the National Academy of Sciences veröffentlicht. Anstatt Google Latitude oder Twitter haben sie sich mit den Datenbeständen des Foto-Social-Networks Flickr beschäftigt. Denn erfreulicherweise bietet Flickr nicht nur einen einfachen Zugang zu ihren Daten über eine Programmierschnittstelle an, sondern auch 3 wichtige Dinge für die Analysen die gemacht wurden: Neben den Fotos bekommt man nämlich auch Informationen über den Aufnahmezeitpunkt des Fotos, die Geo-Daten wo das Foto geschossen wurde und, ganz wichtig, die Freundschaftsverhältnisse zu anderen Flickr-Nutzern frei Haus geliefert.

Die Fragestellung die untersucht wurde war dabei: Kann man aus der Häufigkeit mit der 2 Benutzer vom (etwa) gleichen Ort zur (etwa) gleichen Zeit Fotos schiessen auf ihr Freundschaftsverhältnis (zumindest das bei Flickr angegebene) schliessen? Um das zu überprüfen haben sie die Datenbank von Flickr über die Programmierschnittstelle mit zufälligen Suchanfragen alle öffentlichen Fotos, die zu zufälligen Daten aufgenommen wurden, gesucht bis sie den gesamten Globus abgedeckt und alle in das Raster fallenden Fotos (gute 85 Millionen) inklusive der Daten hatten. Danach haben sie noch die Fotos rausgeworfen die entweder zu ungenaue Geo-Daten hatten oder auch falsche Zeitstempel. Nach diesem Filterungsprozess blieben dann immer noch 38 Millionen Fotos von gut 490.000 Benutzern übrig.

flickr1

Zur weiteren Untersuchung hat man dann mit 2 Parametern rumgespielt: Zum einen hat man die Welt, um die räumliche Nähe zu messen, in s*s große Patches eingeteilt und s dabei von 0,001 ° bis 10 ° variieren lassen. 2 Benutzer gelten dann am gleichen Ort, wenn sie sich in dem selben Patch aufhalten. Als zweiten Parameter hat man sich dann die Zeiten angeschaut: Dabei galt man dann zur gleichen Zeit an einem Ort wenn die Fotos zwischen "am gleichen Tag aufgenommen" bis zu "im gleichen Jahr aufgenommen" wurden. Grafisch veranschaulicht sieht man das noch einmal in der Abbildung oben.

Grundsätzlich gilt bei den betrachteten Daten: Wenn man zufällig 2 Nutzer aus dem Datensatz zieht, dann hat man eine Wahrscheinlichkeit von 0.0134%, dass die beiden befreundet sind. Diese Wahrscheinlichkeit kann man allerdings über die gemessene Anzahl von Überlappungen in Raum und Zeit drastisch erhöhen. So reichen, bei einer Patchgröße von s = 1 ° und einem Zeitabstand von einem Tag, bereits 5 gefundene Ereignisse um mit 60% Wahrscheinlichkeit sagen zu können, dass es sich bei den beiden Nutzern um Freunde handelt. Und bei den gleichen Parametern reichen bereits 8 Ereignisse aus um mit über 90% Wahrscheinlichkeit sagen zu können, dass die Nutzer befreundet sind. Weitet man den zeitlichen Rahmen auf, auf "innerhalb von 7 Tagen am gleichen Ort", dann reichen immerhin noch 15 übereinstimmende Ereignisse um wieder mit 90% Wahrscheinlichkeit davon auszugehen.

Bei dieser Form der Analyse gibt es natürlich auch noch ein paar Probleme: Zum einen gibt es viele Nutzer bei Flickr die ihre Freundesliste nicht veröffentlichen oder die Freundesfunktion gar nicht nutzen und trotzdem im analogen Leben mit anderen Benutzern befreundet sind. Unter diesem Gesichtspunkt sind die hier angegebenen Wahrscheinlichkeiten vermutlich sogar noch zu gering angegeben. Genauso vernachlässigt die Analyse mit Hilfe der Einteilung in Patches die realen Begebenheiten, nämlich die Bevölkerungsdichte. In mittleren Breitengraden entspricht s=1° schon einer Fläche von gut 80 mal 80 Kilometern. Legt man so ein Quadrat über Berlin mit seinen 3 1/2 Millionen Einwohnern ergibt sich ein ganz anderes Bild als wenn man es über dünnbesiedelte Regionen Brandenburgs ausbreitet und beeinflusst so auch die Treffer-Wahrscheinlichkeiten. Würde man den Ansatz optimieren wollen müsste man vermutlich die Bevölkerungsdichte noch mit einfliessen lassen.

Natürlich kann man die Ergebnisse dieser Veröffentlichung nicht generalisieren. Denn die Gruppe der Flickr-Nutzer die Geo-Daten an ihre Fotos hängen sind keine zufällige Stichprobe der Gesellschaft sondern finden sich dort aufgrund der gemeinsamen Interessen, Fotografie in dem Fall, zusammen. Trotzdem kann man hier schon sehen was für Konsequenzen die Veröffentlichung von kleinen Datenmengen im Internet haben kann. Zwar wird nicht jede Freundschaftsbeziehung von Nutzern so aufgedeckt werden, aber das Auftreten von räumlichen und zeitlichen Überlappungen ist in jedem Fall ein starker Indikator für eine vorhandene Freundschaftsbeziehung. Und da hilft es dann im Zweifel auch nicht mehr seine Freundesliste nicht öffentlich geschaltet zu haben.

Grafiken aus der Veröffentlichung die erfreulicherweise als Open Access-Publikation erschienen ist.

Crandall, D., Backstrom, L., Cosley, D., Suri, S., Huttenlocher, D., & Kleinberg, J. (2010). Inferring social ties from geographic coincidences Proceedings of the National Academy of Sciences DOI: 10.1073/pnas.1006155107

Flattr this

Veröffentlicht von

Bastian hat seinen Bachelor in Biologie in nur 8 statt 6 Semestern abgeschlossen. Nach einem kurzen Informatik-Studiums-Intermezzo an der TU Dortmund hat es ihn eigentlich nur für ein Stipendium nach Frankfurt am Main verschlagen. Dort gestrandet studiert er dort nun im Master-Programm Ökologie und Evolution. Zumindest wenn er nicht gerade in die Lebensweise der Hessen eingeführt wird. Neben seinen Studiengebieten bloggt er über die Themen, die gerade in Paperform hochgespült werden und spannend klingen.

1 Kommentar

  1. Erstmal vorneweg: Äußerst interessanter Artikel, dem Grundtenor würde ich durchaus zustimmen (ich hoffe, dass ich alles verstanden habe).
    Als langjähriger Flickr-Nutzer kann ich vielleicht noch ergänzen, dass die Nutzung von Flickr als soziales Netzwerk sich regional sehr stark unterscheidet. Meine us-amerikanischen Bekannten vernetzen sich etwa (in der Regel) sehr viel stärker als die deutschen Kollegen.

Schreibe einen Kommentar