Von Babies und Melodien unserer Sprache

Neulich verbrachte ich einen gemütlichen Abend auf der Couch, mit dem neuen Frankenstein-Film und süß-salzigem Popcorn. Plötzlich laute Stimmen. Aus dem Film stammten die allerdings nicht. Den Kopf in Richtung Wand gedreht wurde mir klar: Das sind die Nachbarn. Eine zweite Stimme erwidert laut etwas. Lachen. Die andere Person stimmt ein. Die beiden scheinen eine gute Zeit miteinander zu haben, denke ich mir. Dabei habe ich eigentlich kein einziges Wort des Gesprächs tatsächlich verstanden. Warum ist mir dennoch klar, dass die Nachbarn sich nebenan definitiv nicht die Köpfe einschlagen oder gerade den traurigsten Film aller Zeiten sehen? Die Antwort liegt wie so oft in unserem faszinierenden Denkorgan, in unserem Gehirn.
Ohne Zwischentöne der Sprachmelodie könnten wir nicht zwischen den Zeilen lesen!
Die Fähigkeit Emotionen aus der Stimme anderer zu lesen ist grundlegend für jegliche Kommunikation. Ohne sie könnten wir nicht „zwischen den Zeilen lesen“ und alle Nuancen einer sozialen Interaktion erfassen, die über das bloße Gesagte hinaus gehen. Das Geheimnis liegt in der Sprachmelodie, die wir nutzen, um etwas auszudrücken. Fachleute sprechen hier auch von Prosodie, da dieser Begriff nicht nur die Melodie umfasst, sondern auch rhythmische Feinheiten der Sprache mit einbezieht. Wie wichtig die Prosodie für uns ist, wird außerdem deutlich, wenn wir zu den Anfängen des Sprechens gehen.
Wenn Babies auf die Welt kommen, können sie noch nicht sofort sprechen. Sie geben Laute von sich, Babysprache. Schnell versuchen sie nachzuahmen, was ihnen an Sprache bei Mama oder Papa begegnet. Aber Überraschung: Selbst die noch unverständlichen Laute der Babies klingen nicht überall gleich. Ein Baby in Brasilien macht andere Laute, als es vielleicht das Baby in Korea tun würde. Während deutschsprachige Babies in einer Melodie eher mit der Stimme nach unten gehen, machen es Babies in Frankreich genau andersherum. Das liegt nicht nur an dem, was sie ab der Geburt zu hören bekommen. Nein, noch bevor sie auf der Welt sind, nehmen Säuglinge im Mutterleib schon einiges wahr. Einzelne, klare Worte dringen nicht durch den Schutz aus Bauchdecke, Gewebe und Fruchtwasser. Die Sprachmelodie allerdings schon. Sie ist also eines der ersten Dinge, die wir überhaupt an verbaler Kommunikation wahrnehmen. [1]
Fragt sich nur, wie genau unser Gehirn es schafft nur aus diesen flüchtigen akustischen Schwingungen auf eine konkrete Emotion zu schließen. Warum weiß ich sofort, dass die Nachbarn sich nicht streiten, sondern Spaß zu haben scheinen? Um das zu verstehen, müssen wir uns erst einmal anschauen, wie wir überhaupt Sprache verarbeiten.
Die neuronale Architektur der Sprache
Für die Sprachverarbeitung ist nicht ein einzelnes Areal verantwortlich, sondern ein ganzes Netzwerk. Linguisten und Neurowissenschaftler kennen es klassischerweise als das „Dual-Stream-Modell“. Denn nach dem Modell gibt es zwei Hauptpfade in unserem Gehirn, die auf verschiedene Weise Sprachsignale verarbeiten.
Da ist zum einen der ventrale Strom – der im Hirn weiter unten liegende – der sogenannte „Was-Pfad“. Er verläuft von den primären Hörzentren nach vorne in Richtung des Schläfenlappens und ist vor allem dafür zuständig, Phoneme (die Laute aus denen Wörter zusammengesetzt sind) zu erkennen und Wörter in ihre Bedeutung zu übersetzen. Zum anderen gibt es den dorsalen Strom – weiter oben liegend im Hirn – den „Wie-Pfad“. Dieser verbindet die auditiven Areale mit dem motorischen und prämotorischen Cortex. Nach dem Modell ahmt der Wie-Pfad Sprache nach oder plant die Mundbewegungen beim Sprechen. Er könnte auch das motorische Programm des Gesprochenen simulieren, um das Verstehen zu unterstützen. Mit anderen Worten: Wir hören, wie etwas gesagt wird, und unser Gehirn simuliert, wie es wäre das selbst zu sagen. Diese Simulation hilft uns dann effizienter und schneller beim Zuhören zu verstehen. [2]
Arbeitsteilung im Gehirn
Das Dual-Stream-Modell zeigt uns, wie wir das Gesprochene vom akustischen Signal in Wörter und Sätze verwandeln. Diese Aufgabe ist vornehmlich das Spezialgebiet der linken Hirnhälfte. Es gibt allerdings starke Hinweise auf ein ähnliches Netzwerk aus zwei Pfaden auch in der rechten Hirnhälfte, das einen anderen Fokus hat. Die Sprachmelodie! [3]
Diese Erkenntnis fügt sich wunderbar in weitere Funde ein, die wir zur Aufgabenteilung beim Verarbeiten akustischer Reize im Gehirn gemacht haben. Die linke Hirnhälfte ist nämlich besser darin, zeitliche Informationen akustischer Signale präzise zu entschlüsseln. Wann setzt ein Laut ein oder wie schnell ist die Abfolge von Lauten? Es geht also um schnelle Veränderungen im Sprachsignal, wie beim Hören von einzelnen Lauten, Silben oder Sprachrhythmus. Die rechte Hirnhälfte hingegen ist sensibler für spektrale Informationen, also Klangfarbe, Tonhöhe oder Melodiebögen – Merkmale, die wir zum Beispiel in der Sprachmelodie oder der Musik wahrnehmen.
Diese Spezialisierung gilt nicht nur beim Zuhören. Auch wenn wir selbst Sprache produzieren, nutzt unser Gehirn diese Aufgabenteilung, um über das Gehör unsere Aussprache laufend zu kontrollieren. Die linke Seite überwacht dabei mehr das Timing, während die rechte eher auf die Klangqualität achtet. Genau diese Melodiekurven sind das Rohmaterial, aus dem unser Gehirn später Kategorien wie „Frage“, „Befehl“ oder „Kompliment“ formt. [4]
Von der Akustik zur Emotion
Das Rohmaterial ist nun analysiert. Die Stimmen, die ich durch die Wand als akustische Signale wahrgenommen habe, hat mein Gehirn in ihre Einzelteile zerlegt und analysiert. In welcher Melodie wird gesprochen? Wie laut? Wie schnell? In welcher Intensität? Zitternd oder bestimmt? Und so weiter! Nun wissen wir aber immer noch nicht, wie aus diesen ganzen Informationen schließlich eine Bewertung wird, die uns sagt, welche Emotion wir da wahrnehmen.
Aber keine Sorge, auch hierfür hat die Wissenschaft ein Modell aufgestellt, das uns hilft zu verstehen, welche Schritte unser Hirn in den weiteren Verarbeitungsschritten durchläuft. Das Modell von Schirmer und Kotz teilt die Verarbeitung emotionaler Sprachmelodie hierfür in drei Phasen ein.
Emotionale Sprachmelodie: Drei Phasen der Verarbeitung
In der ersten Phase, etwa 100 Millisekunden nach dem ersten Laut, findet eine rein akustische Analyse statt. Das Gehirn registriert die physikalischen Parameter: Wie hoch ist die Frequenz? Wie laut ist das Signal? Wie lange dauert der Vokal? Diese Phase umfasst also all die akustischen Details, die wir uns gerade angeschaut haben.
In der zweiten Phase, nach etwa 200 Millisekunden, findet die eigentliche emotionale Identifikation statt. Nun interpretiert unser Hirn erstmals, welche Emotion zu den vorher gesammelten Informationen passen könnte. Die Zuordnungsmuster hierfür haben wir aus der Erfahrung gelernt.
In der dritten Phase, nach etwa 400 Millisekunden, Gleicht unser Gehirn die Entscheidung, welche Emotion das wohl war, noch einmal mit zusätzlichen Eindrücken der Situation ab. Passt der genervte Unterton zum Beispiel zum freundlichen Gesichtsausdruck? Könnten das Freudentränen sein oder habe ich die Person falsch verstanden und sie ist gerade eigentlich traurig? In dieser Phase wird das Gehörte bewusst bewertet und in den Kontext der Gesamtsituation eingebettet. [5]
Wenn ich allerdings auf der Couch sitze und durch die Wand höre, wie meine Nachbarn herzlich lachen, habe ich keine zusätzlichen Informationen. Schließlich kann ich schlecht durch Wände gucken. Aber schon diese minimalen Infos reichen meinem Gehirn, um einen Schluss zu ziehen! Eine Meisterleistung, die die Spracherkennung auf dem Smartphone erst einmal nachmachen muss.
Quellen
[1] Mampe, B., Friederici, A. D., Christophe, A., & Wermke, K. (2009). Newborns’ cry melody is shaped by their native language. Current Biology, 19(23), 1994–1997. https://doi.org/10.1016/j.cub.2009.09.064
[2] Hickok, G., & Poeppel, D. (2007). The cortical organization of speech processing. Nature Reviews Neuroscience, 8(5), 393–402. https://doi.org/10.1038/nrn2113
[3] Sammler, D., Grosbras, M. H., Anwander, A., Bestelmeyer, P. E., & Belin, P. (2015). Dorsal and Ventral Pathways for Prosody. Current biology : CB, 25(23), 3079–3085. https://doi.org/10.1016/j.cub.2015.10.009
[4] Albouy, P., Benjamin, L., Morillon, B., & Zatorre, R. J. (2020). Distinct sensitivity to spectrotemporal modulation supports brain asymmetry for speech and melody. Science, 367(6481), 1043–1047. https://doi.org/10.1126/science.aaz3468
[5] Schirmer, A. & Kotz, S. A. (2005). Beyond the right hemisphere: brain mechanisms mediating vocal emotional processing. Trends in Cognitive Sciences, 10(1), 24–30. https://doi.org/10.1016/j.tics.2005.11.009
Beitragsbild: Bild von senivpetro auf Freepik

