Bundestagswahl und Statistik

BLOG: Heidelberg Laureate Forum

Laureates of mathematics and computer science meet the next generation
Heidelberg Laureate Forum

Eines der Themen des HLF werden die praktischen Anwendungen der Mathematik sein. Da sollten wir im Vorlauf ein ganz praktisches Beispiel nicht vergessen: Morgen ist Bundestagswahl. Umfragewerte finden sich in allen Medien, und sie werden kräftig kommentiert und haben ihren eigenen Einfluss auf das Wahlergebnis.

Wie man solche Umfragewerte sinnvoll interpretieren kann und wie nicht, sagt uns die mathematische Teildisziplin der Statistik – genauer gesagt geht es um die “induktive Statistik”, nämlich darum, aus Stichproben (dem befragten Teil der Bevölkerung) Rückschlüsse auf das Ganze (Wahlverhalten der Bevölkerung insgesamt) zu schließen.

Betrachten wir ein vereinfachtes Modell: Nehmen wir an, dass sich zum Umfragezeitpunkt tatsächlich bereits die gesamte Bevölkerung entschieden hat, wen sie am Sonntag wählt. (In Wirklichkeit sind diejenigen Wähler, die sich erst in letzter Minute entscheiden, offenbar der größte Unsicherheitsfaktor.)

Und nehmen wir außerdem an, dass wir aus unserer Stichprobe direkt auf die Gesamtheit schließen: Geben 23 Prozent der von uns Befragten bei der berühmten “Sonntagsfrage” an, die SPD wählen zu wollen, dann sind diese 23 Prozent unser Schätzwert für das Wahlergebnis der SPD am Sonntag. (Meinungsforschungsinstitute treiben da noch zusätzlichen Aufwand – bei deren Vorhersagen gehen weitere Faktoren ein, z.B. das Verhalten der Befragten bei vergangenen Wahlen.)

Dass wir den Stichprobenwert zur Abschätzung des Ergebnisses nehmen, ist naheliegend und auch statistisch gesehen in Ordnung.

Allerdings geht damit natürlich auch eine Unsicherheit einher, und die kann man recht gut abschätzen, nämlich wie folgt: Beträgt der tatsächliche Anteil der Wähler, die eine bestimmte Partei wählen, a, und befragen wir insgesamt n Wähler und bekommen bei dieser Stichprobe einen Wert A für den Anteil der Wähler jener Partei, dann liegt der Wert a mit einer Wahrscheinlichkeit von 95% im Intervall (“95%-Konfidenzintervall”)

– wobei in der Wurzel, die die Intervallbreite angibt, allerdings das unbekannte a steht. Es ist aber wiederum möglich, das Konfidenzintervall abzuschätzen, indem man a durch die Schätzung A ersetzt, also

Der Ausdruck mit dem Wurzelfaktor,

ist derjenige, der gemeint ist, wenn man sagt, der geschätzte Wert gälte “plus/minus soundsoviel Prozent”.

Zumindest einen Teil dieses Ausdrucks kann man plausibel machen. Wenn a=1 ist, dann wählt jeder Wähler die betreffende Partei; auch in unserer Stichprobe wird es zwangsläufig so sein, und deswegen schnurrt das Intervall auf Null zusammen (denn wir können absolut sicher sein, dass unsere Abschätzung exakt den richtigen Wert liefert). Analog sieht es bei a=0 aus. Dass n im Nenner steht, spiegelt wieder, dass unsere Abschätzung umso besser ist, je größer unserer Stichprobe ist.

Der Faktor 1,96 hängt direkt damit zusammen, dass wir das Intervall so wählen wollten, dass unser Ergebnis mit 95%iger Wahrscheinlichkeit darinliegt. Wer andere Wahrscheinlichkeitswerte ausprobieren möchte, findet in dieser Tabelle die richtigen Vorfaktoren – wo dort in der linken Spalte 1,959 964σ steht, steht rechts daneben 95%; daher stammt in obiger Formel der (gerundete) Wert 1,96.

So kann man auch die statistischen Fehlerangaben bei den Umfragen verstehen, dort “Fehlerbereich”, “statistische Unsicherheit” oder (was ich etwas merkwürdig finde) “Fehlertoleranz” genannt.

Bei den hier auf bild.de veröffentlichten Forsa-Zahlen vom 20.9. komme ich z.B. auf die folgenden Werte, bei einer Stichprobe von 2047 Wählern:

CDU/CSU   39 %    plus/minus    2,1 %
SPD 26 % plus/minus 1,9 %
Grüne 9 % plus/minus 1,2 %
Linke 9 % plus/minus 1,2 %
FDP 6 % plus/minus 1,0 %
AfD 4 % plus/minus 0,8 %

 

Die Umfragenmacher selbst  geben dazu an, “rund 2 Prozent für die Volksparteien und etwa 1,5 Prozent für die kleineren Parteien”. Auf der Seite der Forschungsgruppe Wahlen sind die Fehlergrenzen etwas größer als mit der obigen Formel berechnet. Von der Größenordnung her kommt es aber jedes Mal gut hin.

Mit Hilfe der Konfidenzintervalle kann man auch abschätzen, wie wahrscheinlich es ist, dass ein gewisser Prozentwert überschritten wird. Nehmen wir das Politbarometer vom Donnerstag. Die AfD ist dabei bei 4%. Wie wahrscheinlich ist es, dass die Partei die 5%-Hürde überspringt?

Naiv könnte man denken: Dort wird angegeben “Der Fehlerbereich beträgt bei einem Parteianteil von 40 Prozent rund +/- drei Prozentpunkte und bei einem Parteianteil von 10 Prozent rund +/- zwei Prozentpunkte.” – da hat eine Partei bei 4% ja vielleicht durchaus noch Chancen, ein mageres Prozent höher zu rutschen.

Der Wurzelausdruck ergibt in diesem Falle, bei 1369 Befragten,

Um von 4 Prozent auf 5 Prozent zu kommen, brauchen wir nicht 0,53 Prozentpunkte, sondern das 1,9-fache davon. Schon in der oben genannten Tabelle sehen wir, dass dieser Faktor bedeutet, dass das richtige Ergebnis mit etwas weniger als 95%er Wahrscheinlichkeit in unser Intervall fällt. Rechnet man genauer, sind es rund 94,2%. [Eine Möglichkeit: bei Wolfram Alpha “error function of ( 1.9 / sqrt(2) )” eingeben.]

Mit dieser Wahrscheinlichkeit, 94,2%, liegt das Wahlergebnis der AfD zwischen 3% und 5%. Bei den restlichen 5,8% der Fälle liegt das Wahlergebnis unterhalb von 3% oder oberhalb von 5%, nämlich außerhalb des Intervalls. In unserer Abschätzung ist die Wahrscheinlichkeitsverteilung symmetrisch. In den Bereich oberhalb von 5% kommt die AfD damit in 2,9% der Fälle. Mit dieser Wahrscheinlichkeit, 2,9%, nimmt die AfD bei den gegebenen Umfragewerten die 5-Prozent-Hürde. Anders gesagt: mit mehr als 97%iger Wahrscheinlichkeit bleibt sie unter dieser Hürde.

[Nachtrag: tk weist in seinem Kommentar zu Recht darauf hin, dass es zweifelhaft ist, hier mit den grob gerundeten Werten zu rechnen. Meine Rechnungen sollten daher nur als Hinweis gelesen werden, was man im Prinzip aus den Daten herausholen kann – wenn man die genaueren Werte zur Hand hat. Sprich:]

Gerade, wenn man die ungerundeten Daten und weitere Informationen der Umfrageinstitute zur Hand hat, stecken eine Reihe interessanter Informationen dieser Art in den Umfragewerten. Dass der Durchschnittsleser solche Rechnungen nicht selbst durchführen wird, ist klar – aber dafür sind ja eigentlich die Journalisten da: für ihre Leser die interessanten Implikationen herauszuarbeiten.

Für mich ist in diesem Zusammenhang daher immer interessant: Wieweit nutzen die Medien solche statistischen Überlegungen, die ja nicht allzu viel über das bloße Ablesen der gelieferten Umfragewerte hinausgehen?

Beim US-Präsidentschaftswahlkampf 2008 war ja geradezu legendär, wie der Statistiker/Blogger Nate Silver auf fivethirtyeight.com (später dann bei der New York Times, jetzt ist das Blog offenbar bei ESPN gelandet) gut verständliche und zuverlässige Analysen und Erklärungen zu den diversen US-Wahlen lieferte, die weit über das Angebot der Mainstream-Medien hinausgingen – und damit höchst erfolgreich war.

In Österreich gibt es das Blog wahlfang.at, betrieben von einer “Gruppe junger, internationaler Naturwissenschaftler mit starkem Österreich-Bezug”; der Hauptverantwortliche bloggt inzwischen – wiederum sowohl zu konkreten Resultaten als auch zu den Grundlagen – beim Standard.

In Deutschland scheint man da deutlich zögerlicher. (Oder ist mir ein deutscher Nate Silver entgangen? Wenn ja, dann bitte Hinweise in den Kommentaren!)

Die meisten Artikel über Umfragenergebnisse, die ich gefunden habe, machen nicht den Eindruck, als würde wer immer sie schrieb deutlich mehr wissen, als dass da eben die Wahlergebnisse geschätzt werden.

Wenn in der FAZ Ausgang der Wahl noch völlig offen beschrieben wird, dann fehlt die Information über statistische Unsicherheiten darin völlig. Obwohl die ja nun wirklich nicht unwichtig ist, will man einschätzen, wieviel die in dem Artikel erwähnten Umfragewerte denn nun offen lassen oder nicht. Dass trotzdem akribisch festgehalten wird, bei der Umfrage der Forschungsgruppe Wahlen seien 1369 Bürger befragt worden, ist der blanke Hohn.

Bei Spiegel Online ist die “statistische Fehlertoleranz” der erwähnten Forsa- und Allensbach-Umfragen zwar ganz am Ende tabellarisch aufgeführt, aber warum ist dann davon die Rede, die 5% der FDP laut Forsa-Umfrage würden “gerade noch für den Einzug in den Bundestag reichen”? Die üblichen (vereinfachten) statistischen Schwankungen sind symmetrisch nach oben oder nach unten. Damit betrüge die Chance einer Partei, die bei der Umfrage direkt auf der 5%-Grenze sitzt, gerade mal 50%. Wer die nicht gerundeten Werte hat, kann es in diesem Falle genauer sagen. Wer als Leser nur mitbekommt “gerade noch… reichen” dürfte die Unsicherheit ziemlich unterschätzen.

In der Welt wird zumindest der Emnid-Chef Klaus-Peter Schöppner mit der Aussage zitiert, der Vorsprung von schwarz-gelb sei geringer als die Fehlertoleranz der Umfrage.

Focus und Deutschlandfunk glänzen dagegen mit interaktiven Visualisierungen (von dpa-infocom), in denen bei den Umfragen die statistischen Unsicherheiten, soweit ich sehen kann, gleich mal ganz unter den Teppich gekehrt werden. Obwohl man die doch nun wirklich schön visualisieren könnte!

Einiges an frischem Wind gibt es zumindest in der ZEIT, wo Christoph Drösser und Matthias Stolz zusammen mit Helmut Küchenhoff und Andreas Bender vom Institut für Statistik der Universität München unter dem Titel Wahlistik unter Einbeziehung der statistischen Unsicherheiten berechnen, wie wahrscheinlich es ist, Mehrheiten für alle möglichen Koalitionen zusammenzubekommen. Auch da könnte ZEIT Online zwar noch einiges von den Bloggern lernen – insbesondere: Warum sind Online-Versionen von Zeitungsartikeln immer noch so verklemmt, wenn es um’s Verlinken geht? Warum steht da z.B. nicht direkt “alle, die’s genauer wissen wollen, finden die Details zum Vorgehen hier” (auf den Seiten von Küchenhoff/Bender)? Aber es ist sicher ein wichtiger Schritt in die richtige Richtung.

Auch die beim Focus wiedergegebenen Vorhersagen aus dem Wahlblog der Hertie School of Governance finde ich interessant – insbesondere den Ansatz, anders als bei der bloßen Stichprobennahme ein Trendmodel mit verschiedenen Einflussfaktoren zu bauen. Allerdings gibt es auch da Grund zum heftigen Stirnrunzeln. Eine Überschrift “Forscher sagen voraus: Union und FDP erreichen bei der Wahl exakt 47,05 Prozent”, sprich: eine Vorhersage mit zwei Nachkommastellen, während im Blogartikel der mittlere Fehler zu 1,4 Prozent abgeschätzt wird – das spricht natürlich nicht gerade für solides statistisches Grundlagenwissen. (In der Focus-Version übrigens noch als weiterer Twist: Da ist beim Kürzen in jenem Absatz, in dem es um den mittleren Prognosefehler geht, irgendwie, nun ja, die Aussage dazu weggestrichen worden, wie groß der mittlere Prognosefehler denn nun ist.)

Was lernen wir daraus für das HLF? Dass es zwar durchaus reizvoll sein wird, sich in der kommenden Woche mit den Höhenflügen der aktuellen mathematischen Forschung zu beschäftigen – mit Varadhans Aussagen dazu, wie sich winzig kleine Wahrscheinlichkeiten (noch deutlich kleiner als das obige AfD-Beispiel, aber in diese Richtung gehend!) am Rande einer Verteilung qualitativ verhalten, oder mit Wigdersons Ergebnissen dazu, warum Zufalls-Simulationen wie bei der ZEIT-Wahlistik gut funktionieren, selbst wenn der betreffende Computer nur Pseudo-Zufallszahlen generiert.

Aber gerade die jüngeren Forscher, die den größten Teil ihrer Karrieren definitionsgemäß noch vor sich haben, müssen sich bewusst sein, dass die beste mathematische Forschung Probleme bekommt, wenn die Gesellschaft, in die sie eingebettet ist, keinen rechten Sinn darin sieht, warum sie diese Forschung fördern soll. Und dazu gehört eben nicht nur die Überzeugung, dass die Ergebnisse der Forschung sinnvoll und nützlich sind, die ganz unabhängig davon sein kann, ob inwieweit man diese Ergebnisse versteht oder nicht.  Sondern die Forschung ist  im Idealfall auch Teil der Kultur; ihre Grundlagen sind ein Teil dessen, was man als gebildeter Mensch weiß.

Im Falle der Umfragenwerte und dem, was sie bedeuten, sind wir ja nun wirklich an einem für unsere Demokratie wichtigen Thema. Wir sind bei statistischen Grundlagen, die nicht schwerer zu verstehen sind als, sagen wir, die Struktur der inländischen Wirtschaft. Warum ist selbst bei denen, die sich von Berufs wegen dafür interessieren sollten – in unserem Beispiel den Journalisten, die über Wahlumfragen berichten – die Berührungsangst mit den mathematischen Themen so groß?

Ich würde mich freuen, wenn sich die HLF-Teilnehmer – je nach Neigung und Eignung, versteht sich – auch auf diesem Gebiet, also beim Mathematik-Outreach, engagieren würden. Einiges in dieser Hinsicht ist durchaus im Rahmen des HLF geplant – im Begleitprogramm etwa, oder wenn eine Reihe von Laureaten am Mittwoch vormittag lokale Schulen besuchen. Aber da sollte noch deutlich mehr möglich sein – finden wir unter den jungen Teilnehmern des HLF vielleicht nicht doch den nächsten Nate Silver?

 

 

 

Avatar photo

Markus Pössel hatte bereits während des Physikstudiums an der Universität Hamburg gemerkt: Die Herausforderung, physikalische Themen so aufzuarbeiten und darzustellen, dass sie auch für Nichtphysiker verständlich werden, war für ihn mindestens ebenso interessant wie die eigentliche Forschungsarbeit. Nach seiner Promotion am Max-Planck-Institut für Gravitationsphysik (Albert-Einstein-Institut) in Potsdam blieb er dem Institut als "Outreach scientist" erhalten, war während des Einsteinjahres 2005 an verschiedenen Ausstellungsprojekten beteiligt und schuf das Webportal Einstein Online. Ende 2007 wechselte er für ein Jahr zum World Science Festival in New York. Seit Anfang 2009 ist er wissenschaftlicher Mitarbeiter am Max-Planck-Institut für Astronomie in Heidelberg, wo er das Haus der Astronomie leitet, ein Zentrum für astronomische Öffentlichkeits- und Bildungsarbeit, seit 2010 zudem Leiter der Öffentlichkeitsarbeit am Max-Planck-Institut für Astronomie und seit 2019 Direktor des am Haus der Astronomie ansässigen Office of Astronomy for Education der Internationalen Astronomischen Union. Jenseits seines "Day jobs" ist Pössel als Wissenschaftsautor sowie wissenschaftsjournalistisch unterwegs: hier auf den SciLogs, als Autor/Koautor mehrerer Bücher und vereinzelter Zeitungsartikel (zuletzt FAZ, Tagesspiegel) sowie mit Beiträgen für die Zeitschrift Sterne und Weltraum.

7 comments

  1. Was die Schlampigkeit der Journalisten mit Umfragewerten und Wahrscheinlichkeiten angeht, so halte ich es da mit den Nachdenkseiten, die der Meinung sind, dass die Umfragen von manchen Instituten weniger dazu dienen ein echtes Stimmungsbild der Bevölkerung einzufangen, sondern eher dazu, einer bestimmten Klientel mitzuteilen, wie sie zu wählen hat, damit ihre Wunschregierung an die Macht kommt, bzw. an der Macht bleibt.

    Ansonsten ein sehr interessanter Beitrag.

  2. Etwas problematisch an diesen Rechnungen finde ich, dass die von Forsa auf ganzzahlige Prozente gerundeten Zahlen genommen werden, um dann letztlich auf das Zehntelprozent genaue Berechnungen durchzuführen. Wenn Forsa für die AfD 4 Prozent vorhersagt, dann heißt das natürlich, dass die Rohdaten zwischen 3,5 und 4,5% liegen. Im Artikel wird dann von 4,0% ausgegangen und die Wahrscheinlichkeiten für ein Erreichen der 5%-Hürde berechnet. Offensichtlich würde man eine ganz andere Wahrscheinlichkeit bekommen, wenn man von 3,5 oder 4,5 als Umfragewert ausgeht. Man bräuchte also zunächst ein auf Zehntelprozente gerundetes Umfrageergebnis von Forsa bevor man weiterrechnen kann.

  3. @tk: In der Tat, ein wichtiger Hinweis. Die hier durchgeführten Rechnungen können nur zeigen, was man im Prinzip aus den Daten herausholen kann. Wichtig wäre, dass geeignet ausgebildete Journalisten (oder beratende Statistiker, oder…) solche Rechnungen dann richtig machen – mit weniger stark gerundeten Daten.

  4. Sehe ich das richtig? Die Berechnung der Fehlertoleranz bezieht sich darauf, ob die Stichprobe tatsächlich die Gesamtmenge abbildet und nicht darauf, ob andere Einflüsse das Ergebnis bestimmen können? Dann wäre ein Ergebnis wie das niedersächsische – dort erhielt die FDP viele CDU-Stimmen, weil die CDU nur mit der FDP zusammen eine Regierung bilden konnte – mathematisch nicht darstellbar. Für heute Abend könnte dasselbe geschehen, je nachdem, ob die Zweitstimmenkampagne der FDP greift oder nicht. (Das wäre dann wohl so etwas wie Talebs Schwarzer Schwan.)

  5. @Gerald Fix: In meinem Beispiel ist der einzige Beitrag in der Tat der Abschätzungsfehler, der sich aus der Stichprobengröße und dem Häufigkeitserwartungswert ergibt. Bei den offiziellen Angaben der Umfrageinstitute ist die angegebene Fehlertoleranz nur etwas abweichend – gut möglich, dass da noch ein paar weitere Abschätzungen eingehen, z.B. dazu, ob der Wähler angibt, unentschieden zu sein, wie er oder sie bei den vorigen Wahlen gewählt hat und so weiter. Aber viel kann diese zusätzliche Fehlerabschätzung nicht beitragen; so groß ist der Unterschied zu meiner einfachen statistischen Abschätzung ja nun nicht.

  6. Aber wie man auf wahlrecht.de sehen kann, beträgt der Fehler hier bei der FDP 100% – oder 5 Prozentpunkte. Dieselbe Abweichung zeigt die CDU nach unten. Offensichtlich können Umfragen solche Effekte nicht erfassen.

    Übrigens, das genannte wahlrecht.de kommt in seinen Darstellungen und seinen Diskussionen Ihren oben genannten Forderungen doch schon ziemlich nahe.

  7. Überlegungen zu statistisch richtigen Auswertung von einer oder mehrer Umfragedaten können letztlich aber nicht erklären warum die Vorhersagekraft Nat Silvers im letzten US-Wahlkampf um so vieles besser war als sämltlicher Umfrageinstitute und Auswertungsexperten in Bezug auf die deutschen Wahlen der letzten Jahrzehnte.

    Meiner Meinung nach spielen hier die Vielfallt und die Interpretation der Datenquellen selbst eine wichtige Rolle. Im guardian-Artikel How did Nate Silver predict the US election? analysiert der Biostatistiker Bob O’Hara die Vorgehensweise Nate Silvers. Er vermutet, dass auch die zeitliche Entwicklund der Wahlabsicht eine wichtige Rolle für gute Voraussagen spielt und noch einiges mehr.
    Doch es muss nicht so sein, dass die deutschen Wahlstatistiker einfach schlechter sind, die schlechteren Daten haben oder die vorhandenen Daten nicht optimal auswerten. Es könne auch sein, dass die Wahlverhältnisse in Deutschland komplizierter sind, weil es in Deutschland mehrere Parteien gibt, weil in Deutschland ein völlig anderes Wahlverfahren zum Zuge kommt als in den USA mit ihren Wahlmännern und weil die Deutschen viel häufiger Wechselwähler sind und sich nicht voll mit einer der dominierenden Partein identifizieren könen wie das in den USA der Fall ist.

Leave a Reply


E-Mail-Benachrichtigung bei weiteren Kommentaren.
-- Auch möglich: Abo ohne Kommentar. +