Qualität der Wahlprognosen der Umfrageinstitute

Ranglisten zu den Landtagswahlen in Bayern und Hessen.

Die Landtagswahlen in Deutschland werden von uns schon seit über sechs Jahren einer ständigen Qualitätskontrolle unterzogen, wobei es aus verständlichen Gründen bei führenden Medien und großen Umfrageinstituten kaum Resonanz gibt.

Anhand von vier Fehlerkriterien, die im Anhang definiert sind und mit gleichen Gewichten verwendet werden, wird eine Rangliste für alle beteiligten Institute erstellt. Ferner haben wir auf Basis einer umfangreichen, empirischen Analyse der Prognosen aus den Landtagswahlen der letzten zehn Jahre ein Schulnotensystem für den mittleren, absoluten Fehler (MAF) entwickelt, das die Bewertung vereinfacht. Es ist im Anhang näher erläutert.

In der laufenden Serie ist dieses Notenspektrum voll ausgeschöpft worden. Nimmt man als Maß den Durchschnitt aller MAF-Werte der beteiligten Institute einer Landtagswahl, so gab es in Mecklenburg-Vorpommern 2021 mit 0,59 Prozent das beste Resultat und in Brandenburg 2019 mit 2,73 Prozent das schlechteste.

Die Wahlprognosen für Bayern sind insgesamt mit einem durchschnittlichen MAF von 0,65 Prozent sogar etwas besser als sehr gut ausgefallen. Fünf Institute waren ebenfalls besser als die 18- Uhr-Hochrechnungen von ARD und ZDF, die aus sehr großen Umfragen während der Wahl berechnet werden. Außerdem wurde bei keinem Institut ein Fehler in den Intervallprognosen registriert, was bisher in unseren Ranglisten einmalig ist. Allerdings zeigt sich hierin u.a. auch, dass unter den Instituten ein starker Herdentrieb existiert.

Wie aus der im Anhang dargestellten Rangliste ersichtlich ist, hat die Kombinationsprognose dawum knapp vor dem relativ neuen Umfrageinstitut Wahlkreisprognose gewonnen. Den dritten Platz teilen sich unsere Modellprognose Prognosy-Master-Vote und die österreichische Wahlbörse Wahlfieber. Das Mittelfeld wird angeführt von GMS, das mit der ältesten (fast 3 Wochen zurückliegenden) Voraussage einen guten fünften Rang belegt. Dahinter folgen das Wahlfieber-Team, das eine Expertenprognose darstellt sowie das umstrittene Institut prognos und Forschungsgruppe Wahlen (FGW). Im letzten Drittel sind infratest dimap, die Expertenprognose von BirnstinglausRom , INSA, Civey und Forsa zu finden.

In Hessen beteiligten sich zwei Institute weniger als in Bayern, und es wurden auch in der Vorwahlzeit weniger Schätzungen durchgeführt. Insgesamt wurde ein durchschnittlicher MAF von 1,48 Prozent erzielt, was der Schulnote befriedigend entspricht. Damit liegt diese Landtagswahl hinsichtlich der Prognosequalität im Mittelfeld.

Hier hat die Wahlbörse Wahlfieber einen geringen Vorsprung vor dem Umfrageinstitut Wahlkreisprognosen. An dritter Stelle steht FGW vor BirnstinglausRom und dem Wahlfieber-Team. Im Mittelfeld sind Prognosys-Master-Vote, dawum und prognos platziert. Mit Abstand im Schlussdrittel folgen wiederum INSA, Civey und infratest dimap.

Wenn man die beiden Wahlen zusammen betrachtet, sind das Umfrageinstitut Wahlkreisprognosen und die Wahlbörse Wahlfieber die eindeutigen Sieger. Diese beiden Institute standen schon vor den beiden Wahlen vorn und haben ihre Spitzenstellung damit bestätigt. Hingewiesen werden soll ebenfalls darauf, dass häufig – wie jetzt auch in Bayern und Hessen – INSA, Civey, Forsa und infratest dimap mit mäßigen Prognosen am Ende stehen. Das sind jedoch gerade diejenigen Institute, die in den Medien die höchste Aufmerksamkeit erhalten.

Zwei Institute standen in der Vorwahlzeit heftiger Kritik gegenüber. Bei Civey wurde gerichtlich angezweifelt, dass die verwendete Erhebungsmethode repräsentativ ist. Das anonyme Institut prognos hingegen, das nach längerer Pause nun mit Zusatzprognosen besonders aktiv ist, wurde vom Rat der Deutschen Markt- und Meinungsforschung wegen mangelnder Transparenz streng abgemahnt. Aktuell kam Civey zweimal auf den vorletzten Platz, während prognos in beiden Fällen im Mittelfeld landete.

Insgesamt war die Qualität der Prognosen bei diesen beiden Wahlen erfreulich, in Hessen befriedigend und in Bayern sehr gut, wobei dort nach Mecklenburg-Vorpommern sogar das zweitbeste Ergebnis in der laufenden Serie erreicht wurde.

MAF Schulnote

0,7% 1 (sehr gut)

1,1% 2 (gut)

1,5% 3 (befriedigend)

1,9% 4 (ausreichend)

2,3% 5 (mangelhaft)

2,7% 6 (ungenügend)

Erläuterungen zum Aufbau der Rangliste

MAF: mittlerer, absoluter Fehler

Für jedes Institut werden die absoluten Abweichungen (das heißt ohne Beachtung der Vorzeichen) zwischen Prognose und Wahlergebnis für jede Partei aufaddiert und daraus der Mittelwert berechnet.

Der MAF ist einfach interpretierbar und wird in den Medien am häufigsten verwendet.

MAPF: mittlerer, absoluter, prozentualer Fehler

Die absoluten Abweichungen zwischen Prognose und Wahlergebnis (MAF) werden bei jeder Partei durch die zugehörigen Wahlergebnisse dividiert. Diese Quotienten werden aufaddiert und daraus der Mittelwert berechnet.

Der MAPF ist eine sinnvolle Ergänzung zum MAF, da er den absoluten Fehler in Relation zum Wahlergebnis betrachtet. Es macht einen deutlichen Unterschied, ob man beispielsweise bei einem Wahlergebnis von 5% oder von 20% um absolute 2 Prozentpunkte falsch liegt. Im ersten Falle beträgt der prozentuale, absolute Fehler 40%, im zweiten nur 10%. Das bedeutet jedoch auch, dass der MAPF sehr sensibel auf eine Abweichung bei einer kleineren Partei reagieren kann.

MQF: mittlerer, quadratischer Fehler

Hier werden die einzelnen absoluten Abweichungen zwischen Prognose und Wahlergebnis für jede Partei quadriert. Diese Werte werden aufsummiert und daraus der Mittelwert bestimmt. Bisweilen wird daraus noch die Quadratwurzel gezogen, um den sogenannten root mean square error (RMSE) zu erhalten.

Der MQF bzw. RMSE ist ein natürliches Distanzmaß und liefert die Basis für statistische Tests.

MFIP95: mittlerer Fehler für Intervall-Prognosen

Für jede Partei und die Sonstigen wird auf Basis der jeweiligen Punktprognose mittels der bei Zufallsstichproben üblichen Fehlerformel ein 95%-iges Prognoseintervall berechnet. Ein Fehler liegt vor, wenn dieses Prognoseintervall den tatsächlichen Wert nicht überdeckt. Gibt es z.B. in 7 Fällen 2 Fehler, so beträgt der zug. MFIP95 hierfür 2/7=0.286.

Zu den vier Fehlermaßen werden für die Erstellung einer Gesamtrangliste aus mehreren Einzelranglisten noch drei zusätzliche Kriterien verwendet, nämlich der Top3/Flop3-Anteil sowie der mittlere Rang für die jeweilige Gruppe. Beim ersteren werden Platzierungen unter den ersten drei Rängen aller Teilnehmer positiv und unter den letzten drei Plätzen negativ bewertet. Diese Differenz zwischen der Anzahl der Top3- und der Flop3-Plätze wird noch durch die Anzahl der Teilnahmen dividiert.

Beim mittleren Rang (MR) werden die Ränge aus den Einzelranglisten gemittelt. Ferner werden nur Institute in die Gesamtrangliste aufgenommen, die an mindestens der Hälfte der Einzelwahlen teilgenommen haben.

Der Über-Durchschnitt gibt den Anteil der Fälle an, bei denen der MAF eines Instituts besser ist als der durchschnittliche MAF aller Institute bei einer Wahl.

Siehe auch: „Wahlbörsen sind mitunter besser zur Vorhersage von Wahlergebnissen geeignet“ und Wie zuverlässig sind unsere Wahlprognosen?

Prof. Dr. Walter Mohr: Studium der Mathematik und Wirtschaftswissenschaften, Lehr- und Forschungstätigkeiten an Fachhochschulen und Universitäten mit über 50 Veröffentlichungen, insbesondere in den Bereichen Zeitreihenanalyse und Wirtschafts- und Wahlprognosen sowie medizinischen Qualitätsuntersuchungen (eHealth).

Dr. Frank W. Püschel: Studium der Mathematik und Wirtschaftswissenschaften, Lehrtätigkeiten im Hochschulbereich, Forschungsschwerpunkt auf den Gebieten der Zeitreihenanalyse und Wirtschaftsprognosen. Aktuell tätig in der Geschäftsführung eines Medizinprodukteherstellers.

Walter Mohr und Frank Püschel
Prof. Dr. Walter Mohr absolvierte ein Studium der Mathematik und der Wirtschaftswissenschaften. Seine Lehr- und Forschungstätigkeiten an Fachhochschulen und Universitäten führten zu über 50 Veröffentlichungen – insbesondere in den Bereichen Zeitreihenanalyse und Wirtschaftsprognosen.

Dr. Frank W. Püschel studierte Mathematik und Wirtschaftswissenschaften. Er ging Lehrtätigkeiten im Hochschulbereich nach. Sein Forschungsschwerpunkt liegt auf den Gebieten der Zeitreihenanalyse und Wirtschaftsprognosen.
Mehr Beiträge von Walter Mohr und Frank Püschel →

5 Kommentare

Ole Bienkopp sagt:
18. November 2023 um 17:22 Uhr
Kleine Korrektur: Um 18 Uhr gibt es keine Hochrechnungen, sondern Prognosen. Die werden aus den Nach-Wahl-Umfragen in ausgesuchten Wahlkreisen vom Wahltag errechnet. Soweit stimmt der Text dann wieder.
Hochrechnungen gibt es nur mit echten Auszählungsergebnissen, meist etwa ab eine halbe Stunde nach Schließung der Wahllokale, wenn eine ausreichende Zahl an ausgezählten Wahlkreisen ihre Ergebnisse gemeldet haben.
Antworten
Zorro sagt:
18. November 2023 um 21:46 Uhr
Wer glaubt das Wahlen in Deutschland kein Wahlbetrug stattfindet kann sich die Hose gleich mit der Kneifzange anziehen.
Antworten
Karin Sasse sagt:
19. November 2023 um 9:14 Uhr
der muss jetzt sein:
eine Bekannte meinerseits hat in den 70ger Jahren mit ihrem Bruder abgesprochen, gemeinsam die DKP zu wählen – bei der anschließenden Bekanntgabe der Auszählungen in eben dem Stimmbezirk hatte die DKP 0 Stimmen –
sollte der Bruder anders gestimmte haben, hätte es mind. noch eine Stimme sein müssen
das war die Zeit der Bleistifte in den Wahlkabinen
Antworten
1. Luck sagt:
  19. November 2023 um 9:27 Uhr
  Die 2 Stimmen hätten das Kraut aber auch nicht fett gemacht.
  Sie dürften dem Lager der Ungültigen untergebuttert worden sein. So schafft man sich Probleme vom Leib und seien es auch nur eingebildete.
  Antworten
Quer und mehr sagt:
19. November 2023 um 11:25 Uhr
Es geht nicht nur um Prognosen, auch den Endergebnissen ist nicht zu trauen, da die Auswertung von einem Regime durchgeführt wird, was fest in ausländischer Hand ist.
Antworten

Qualität der Wahlprognosen der Umfrageinstitute

Erläuterungen zum Aufbau der Rangliste

MAF: mittlerer, absoluter Fehler

MAPF: mittlerer, absoluter, prozentualer Fehler

MQF: mittlerer, quadratischer Fehler

MFIP95: mittlerer Fehler für Intervall-Prognosen

Ähnliche Beiträge:

5 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Letzte Kommentare

Overton @ YouTube