Morbider Humor, hohe Intelligenz?

Manche Studien, die ich so auf der Suche nach spannenden Nachrichten lese, geben mir Rätsel auf. Das neueste Beispiel ist die Untersuchung über Intelligenz und  Humor, die im Moment in einigen Medien auftaucht: Schwarzer Humor deute auf eine überdurchschnittlich hohe Intelligenz hin, schließt man aus der Studie einer österreichischen Arbeitsgruppe.

Die will nämlich mit 156 Versuchspersonen und 12 Cartoons des Zeichners Uli Stein herausgefunden haben, dass es im Bezug auf schwarzen Humor genau drei Sorten von Menschen gibt. Eine dieser Gruppen, daher das Medieninteresse, mag ihre Cartoons gerne morbid und ist überdurchschnittlich intelligent. Gleichzeitig, und das ist das Bemerkenswerte, gibt es laut der Studie zwischen dieser Humor-Vorliebe und Intelligenz keinen signifikanten Zusammenhang. Zitat:

“Non-significant correlations were found between black humour preference and […] nonverbal intelligence (r(156) = −.035, p = .664) as well as verbal intelligence (r(156) = −.028, p = .729)”

Ein p-Wert von 0,664 wie bei der nonverbalen Intelligenz besagt schlicht, dass ein solches oder extremeres Ergebnis auch dann, wenn es den getesteten Effekt gar nicht gibt, durch puren Zufall mit einer Wahrscheinlichkeit von zwei Dritteln auftritt. Als einigermaßen Glaubwürdig gilt ein Ergebnis bei einem p-Wert unterhalb von 0,05 – also eine Wahrscheinlichkeit von unter fünf Prozent, dass so ein Ergebnis auftritt, wenn es keinen Effekt gibt.

Doch noch signifikant

Der angebliche Zusammenhang zwischen morbidem Humor und Intelligenz taucht erst in einer weiteren Analyse auf. Die Versuchspersonen werden dabei nach den Werten ihrer verschiedenen Parameter mathematisch nach Ähnlichkeit sortiert, und diese Cluster sind nach Angaben der Arbeitsgruppe diesmal hochsignifikant. Da gibt es entgegen dem oben zitierten Befund also doch eine Gruppe, deren Mitglieder tatsächlich besonders gerne schwarzen Humor mögen und bei verbaler und nonverbaler Intelligenz besser abschneiden als der Rest.

Jetzt frage ich mich aber: Wie kann das sein? Muss ich aus dem negativen Befund zuvor nicht messerscharf folgern, dass die für die Gruppen typischen Merkmale gerade nicht zwangsläufig bei den Mitgliedern auch gemeinsam ausgeprägt sind, sondern einfach durch clevere Zusammenstellung der Gruppe ein hoher Mittelwert in beiden Merkmalen zustande kommt?[1]

Grundsätzlich bin ich im Zeitalter von p-Hacking schon misstrauisch, wenn beim Rumspielen mit sehr vielen unterschiedlichen Variablen überall die berüchtigten fünf Prozent als Signifikanzniveau verwendet werden[2]. Oder wenn eben eine komplexere Auswertung dann doch noch das ersehnte “schöne” Ergebnis bringt. Dass positive Befunde gerne mal etwas mit – wie es in hier so schön ausgedrückt wird – flexibler Datenbehandlung zu tun haben, ist ja leider keine neue Erkenntnis.

Ich will der Arbeitsgruppe hier keine unsaubere Arbeit unterstellen[3], auch wenn ich vom Ergebnis nicht so richtig überzeugt bin. Wie aber die so völlig gegensätzlichen Ergebnisse der beiden statistischen Tests im Bezug auf Intelligenz und Humorpräferenz zustande kommen, würde mich schon interessieren. Und nicht zuletzt, warum diese Diskrepanz anscheinend nicht thematisiert werden muss, weder in der Arbeit selbst, noch in den Medienberichten.
.
.
.
[1] Dem spricht immerhin entgegen, dass laut Paper die Zuordnung der einzelnen Leute zu den Gruppen zu über 90 Prozent reproduzierbar sei. Aber darf man solche Tests überhaupt mit der gleichen Gruppe machen, anhand derer man die ursprüngliche Gruppenzusammensetzung erarbeitet? In Anderen Zusammenhängen ist es jedenfalls ein klassischer Fehler, eine Hypothese mit der gleichen Stichprobe zu überprüfen, auf der sie ursprünglich basiert.

[2] Der p-Wert ist eine Wahrscheinlichkeitsaussage über die Häufigkeit von Zufallstreffern. Das heißt, je mehr man rumprobiert, desto mehr “signifikante” Ergebnisse bekommt man. In dieser Veröffentlichung sind schon auffällig viele p-Werte berechnet worden…

[3] Auch wenn weitere Fragen offen bleiben. Zum Beispiel: Warum (der ja doch recht harmlose) Uli Stein? Lag das Buch im Pausenraum rum? Wie wurden die Cartoons ausgewählt und warum? Reicht es für die Messung der Intelligenz wirklich aus, einen Zahlen- und einen Vokabeltest zu machen? Aber derlei detaillierte Methodenkritik überlasse ich den Fachleuten.

Ich bin gelernter Chemielaborant und habe ab 1999 in diesem Beruf gearbeitet. Anschliessend habe ich an der Uni Hamburg Chemie studiert. Seit dem Abschluss Ende 2006 veröffentliche ich Beiträge in meinem Fischblog und verkaufe Artikel an andere Publikationen. Seit 2008 wohne ich im Raum Heidelberg und bin bei Spektrum der Wissenschaft für das Blogportal Scilogs verantwortlich. Daneben arbeite ich als freier Journalist und Redakteur unter anderem für die digitalen Angebote von Spektrum, veröffentliche auf verschiedenen Social-Media-Plattformen und experimentiere mit Mobile Reporting. Zu meiner Webseite

9 Kommentare Schreibe einen Kommentar

  1. Pingback:[SciLogs] Morbider Humor, hohe Intelligenz? – #Intelligenz

  2. Man müsste es mal mit wirklich schwarzem Humor testen, von Tom Sharpe [besonders seine beiden Südafrika-Romane] oder Andre Franquin [https://en.wikipedia.org/wiki/Franquin%27s_Last_Laugh].

  3. Ich finde die Fussnote 3 am besten, wenn Intelligenz gemessen wird, gibt es ja doch sehr klare Vorgaben und ob es dafür reicht einen Vokabeltest zu machen oder ob eine Testbatterie besser wäre, müsste geklärt werden!

    Ich finde generell Aussagen von Interessen, Neigungen oder Vorlieben mit Intelligenz zu vergleichen als gewagt!

    • Kopiert aus der Test-Beschreibung der Website ” Testzentrale.de”:

      “Der Zahlen-Verbindungs-Test ist einfach durchzuführen, erfordert beim Probanden nur die Kenntnis des Zahlenraumes bis 90, nimmt nur wenige Minuten in Anspruch und erlaubt eine hoch zuverlässige Schätzung der „mental speed“-Komponente der Intelligenz”

      “Der Wortschatztest ermöglicht die schnelle Einschätzung des verbalen Intelligenzniveaus und die Beurteilung des Sprachverständnisses.”

      Beide Tests sind in wenigen Minuten durchführbar und erlauben eine grobe Einschätzung: Meiner Meinung nach vor allem des Sprachverständnisses und der Geschwindigkeit der Informationsverarbeitung. Will man tatsächlich einen IQ bestimmen, so ist der weltweit am häufigsten angewandte Test der Wechsler Intelligence Scale for Children (früher HAWIK), der in der Durchführung 1 – 1,5 Stunden benötigt.

  4. Hallo Herr Fischer,

    Sie haben vollkommen Recht: statistische Methoden werden häufig zu p-Wert Generierungsmaschinen missbraucht. Wenn man nur genug Hypothesen überprüft, werden schon einige signifikant sein. Erwartungsgemäß eine in 20 wenn man p=0.05 als Grenze akzeptiert. Dann ist jeder Schwachsinn möglich.
    Es gibt nur eine Möglichkeit, dem aus dem Weg zu gehen. Wer eine Untersuchung plant, solle bitte vorher seine Hypothesen bei einem Notar in einem versiegelten Umschlag hinterlegen und die Auswertung samt p-Wert Generierung nachher durch eine neutralen Instanz durchführen lassen. Bei glaubwürdiger Forschung wird das so gemacht: Der LHC suchte nach dem Higgs-Teilchen und das LIGO Experiment nach Gravitationswellen und nach nichts anderem. Außerdem sind in der Physik die p-Wert Hürden etwas höher. Man akzeptiert nur 5 Sigma Signale und das entspricht p < 0.000001.

  5. Pingback:Psiram » Psirama – Der Psiram-Wochenrückblick (KW05, 2017)

  6. Na ja, Österreicher habe per se eine Vorliebe für schwarzen Humor und können auf eine beeindruckende Tradition zurückblicken, angefangen bei den Pestpredigten eines Abraham a Santa Clara, über Raimund, Nestroy, Qualtinger bis zu Schriftstellern wir Thomas Bernhard, Elfriede Jelinek oder Sänger wie Ludwig Hirsch, Georg Danzer, STS oder Wolfgang Ambros und viele andere mehr, auch Karikaturisten wie Haderer. Diese Tradition fehlt in Deutschland fast vollständig. Dieser Humor durchdringt die Inteligenzja dort.

Schreibe einen Kommentar




Bitte ausrechnen und die Zahl (Ziffern) eingeben