Google is evil?

BLOG: Bierologie

Weissbier & Wissenschaft
Bierologie

researchblogging Bastian sagt Bastian sagt:
Das Google so ziemlich alle Nutzerdaten und Suchanfragen speichert dürfte für die meisten Leser hier ja nichts neues sein. Was für viele Menschen ein bedrohliches Big Brother-Szenario ist ignorieren andere einfach. Doch das Google damit nicht nur vermeintlich passende Werbung an den Mann bringen kann beweisen sie in einem Paper das letzte Woche in Nature erschienen ist.

Die Rede ist von den Google Flu Trends die das Ausbrechen von Grippe-Wellen beobachten. Die Grippe wird von den Influenzaviren ausgelöst und führt auch in Deutschland noch jährlich zu einigen Todesfällen.

Zur Beobachtung von Ausbrüchen haben sich die Jungs und Mädels zusammengesetzt und sich mal die Daten des US Centers for Disease Control and Prevention (CDC) und der European Influenza Surveillance Scheme (EISS) besorgt. Diese Organisation bekommen ihre Daten zum Teil auch über die Rückmeldungen von Ärzten die Grippe-Fälle weitermelden müssen.

Dann werden die Fälle gesammelt und wöchentlich veröffentlicht. Durch dieses ganze Prozedere entsteht eine Zeitverzögerung von 1-2 Wochen. Und genau hier setzt Google an, denn zu Zeiten von Grippewellen könnte man ja damit rechnen das auch im Web verstärkt nach Schlagworten gesucht wird die mit der Krankheit zusammenhängen. Um entsprechende Schlagworte zu finden hat Google die Suchdaten der letzten 5 Jahre ausgewertet zusammen mit den an die CDC gemeldeten Arztbesuche im Zusammenhang mit Grippe.

Durch diesen Vergleich wurden dann ein Set aus Suchanfragen erstellt das den höchsten Zusammenhang mit den Grippe-Daten der CDC hatte. Durch die Anzahl von Suchanfragen aus diesem Set kann dann wieder zurückgerechnet werden wieviel Prozent der Arztbesuche im Zusammenhang mit Grippe-Erkrankungen erfolgten.

Und so hat man ein Modell was prinzipiell aus der Zusammensetzung der Suchanfragen den Grippe-Status der Bevölkerung ausweisen kann. Und das dies erstaunlich gut funktioniert zeigen die Daten die Google Anfang 2008 errechnet hat: Die Werte stimmen erstaunlich gut mit den Daten der CDC überein. In der Grafik sieht man in Schwarz die von Google vorhergesagten Daten und die von der CDC erstellten Daten.

google Data

Das wäre so weit ja schön und gut. Doch nicht wirklich nützlich. Aber wie man ebenfalls aus dem Graphen sieht hat Google einen entscheidenden Vorteil:
Es ist fast 2 Wochen schneller als die CDC weil die Daten der Suchanfragen viel unmittelbarer ausgewertet werden können als wenn der Arzt erst seine Daten an die CDC schicken muss die diese dann wöchentlich veröffentlicht.

Bislang lassen sich die Daten leider nur für die USA abrufen, bleibt abzuwarten ob Google den Dienst irgendwann ausweiten wird.


Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski, Larry Brilliant (2008). Detecting influenza epidemics using search engine query data Nature, 457 (7232), 1012-1014 DOI: 10.1038/nature07634

Veröffentlicht von

Bastian hat seinen Bachelor in Biologie in nur 8 statt 6 Semestern abgeschlossen. Nach einem kurzen Informatik-Studiums-Intermezzo an der TU Dortmund hat es ihn eigentlich nur für ein Stipendium nach Frankfurt am Main verschlagen. Dort gestrandet studiert er dort nun im Master-Programm Ökologie und Evolution. Zumindest wenn er nicht gerade in die Lebensweise der Hessen eingeführt wird. Neben seinen Studiengebieten bloggt er über die Themen, die gerade in Paperform hochgespült werden und spannend klingen.

Schreibe einen Kommentar