Culturomics – Genug zu lesen
BLOG: Bierologie
Wir sind hier zwar keine Sprachexperten und unsere Grammatik, Rechtschreibung und Zeichensetzung beweisen das ja immer wieder. Und man mag es kaum glauben: Trotzdem haben sowohl Philipp als auch ich ein gewisses Grundinteresse an Sprache und Kultur. Ende des letzten Jahres erregte ein ein Science-Paper relativ viel Aufmerksamkeit (also zumindest meine) was sich mit dem Wandel von Sprache beschäftigt. Die Autoren haben, mit Hilfe der Inhalte von Google und den von ihnen digitalisierten Büchern, einen Grundstock von 4 % aller jemals veröffentlichten Bücher erstellt und mal ein paar Analysen damit gemacht. Das sind gut 5 Millionen Bücher mit über 500 Milliarden Wörtern Inhalt. Dagegen sieht der Twitter-Datensatz, den ich für den Phylomemetic Tree nutze, mit seinen 10 Millionen Einträgen, recht blass aus. Der Datensatz ist, laut Aussage der Autoren, tausend Mal länger als ein menschliches Genom und man bräuchte alleine 80 Jahre (ohne Pause für Kleinigkeiten wie Essen und Schlafen) um alle Einträge aus dem Jahr 2000 zu lesen. Kein Wunder also, dass sie ihre wissenschaftliche Disziplin auch direkt mal Culturomics getauft haben.
Die Wörter in diesem Datensatz haben die Autoren dann nicht nur nach den Jahreszahlen sortiert sondern auch in n-grams (Wörterketten, unterbrochen durch ein Leerzeichen) der Größe 1 bis 5 eingeteilt. „Test” ist also ein 1-gram, „Vereinigte Staaten von Amerika” ein 4-gram. Und diese Daten haben sie dann mal ein bisschen genauer unter die Lupe genommen. Zum Beispiel: Wie viele Wörter gibt es in der englischen Sprache? Und wie hat sich die Anzahl innerhalb der letzten 100 Jahre verändert? Dazu haben sie sich alle 1-grams der aus den Jahren 1900, 1950 und 2000 angeschaut und durch einen kleinen Test-Datensatz abgeschätzt wie viel Prozent der 1-grams keine echten Wörter sind. Übrig blieben am Ende 544000 Wörter für das Jahr 1900 und ganze 1022000 Wörter für das Jahr 2000. In den letzten 100 Jahren hat sich der Wortschatz also fast verdoppelt.
Eine andere, spannende Anwendung, ist die Evolution der Grammatik. Ein Teil der Autoren war auch an einer früheren Sprach-Untersuchung beteiligt die sich die Methoden der Evolutionsbiologie zu Nutze gemacht haben. Dabei haben sie geschaut wie sich die irregulären Verben im Englischen über die Zeit verändern. Ein ähnliches Bild fand sich nun auch in dem aktuellen Text-Korpus den sie untersucht haben, wie man in der Grafik sehen kann.
Noch spannender: Anhand der Daten kann man erkennen welche Personen (oder auch Ereignisse) zu welcher Zeit, in welcher Sprache, zensiert wurden. Dazu vergleicht man das Vorkommen von Wörtern zu einer Zeit in der einen Sprache, mit dem Vorkommen des Worts zu anderen Zeiten. Kommt es plötzlich unterdurchschnittlich wenig in der betrachteten Sprache vor, dann kann man davon ausgehen, dass hier zensiert wurde. Genauso kann man bei rapiden Anstiegen ganz gut davon ausgehen, dass hier die Machthaber erwähnt wurden. So haben sie zum Beispiel die Verwendungshäufigkeit von Persönlichkeiten während der NS-Zeit mit Zeiträumen davor und danach verglichen. Gefunden wurden dabei tatsächlich Opfer der NS-Zensur, genauso wie auf anderen Seite Nazis und ihre Unterstützer. Die Autoren schlagen dabei vor, dass Historiker mit dieser Methode es einfacher haben Zensur-Opfer-Kandidaten zu finden.
Erfreulicherweise haben die Autoren die Rohdaten des Korpus nicht nur offengelegt und bieten sie bequem als csv-Dateien zum Download an, sondern sie haben auch einen kleinen Online-Auswerter gebastelt mit dem man sehr einfach selbst kleine Analysen durchführen kann. Wer also kluge Ideen hat, was man mit so einem Schatz an Daten anstellen kann darf sich austoben.
Graphen: Aus der Publikation
Michel, J., Shen, Y., Aiden, A., Veres, A., Gray, M., , ., Pickett, J., Hoiberg, D., Clancy, D., Norvig, P., Orwant, J., Pinker, S., Nowak, M., & Aiden, E. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books Science DOI: 10.1126/science.1199644
Culturomicsund Sprachen
Jede Sprache ist “lebend” und verändert sich. Dieser Effekt ist über Jahrhunderte hin umso deutlicher fetzustellen gewesen, je mehr sich eine Sprachgruppe in einer “Insellage” befand. Durch die weltweite Kommunikationsmöglichkeiten – besonders via Internet – dürfte sich eines solcher aber zunehmend verlangsamen, jedoch umgekehrt zunehmend durch den Angliszismus beeinflusst werden,