Mythos: Sind Studien mit hoher Teilnehmerzahl wirklich repräsentativ?

„Studien“ eignen sich hervorragend zur Eigenwerbung. Viele Unternehmen, Marktforscher werben häufig mit großen Teilnehmerzahlen für ihre Ergebnisse. Ebenso argumentiert man mit hohen Teilnehmerzahlen bei Präsentationen: „Wie viel Leute sind denn befragt worden?“ Als Antwort kommt häufig eine Zahl über 1000 und die Bemerkung: „die Studie ist also repräsentativ“. Und schon wissen es die Eingeweihten: Der Antwortende hat keine Ahnung -denn große Teilnehmerzahlen sagen gar nichts über die Repräsentativität einer Studie aus …

..

„Studie mit 5000 Befragten: Frauen sind intelligenter als Männer“

Zuerst ein kleines gedankliches Experiment, das Ihnen zeigt, wie unwichtig die Teilnehmerzahl ist: Um festzustellen ob Frauen oder Männer intelligenter sind, könnten wir einen einfachen Intelligenztest mit beiden Geschlechtern machen. Wir legen diesen 2500 Männern und 2500 Frauen vor. Und siehe da – die Frauen sind viel intelligenter als die Männer. Ein Ergebnis mit 5000 Befragten – das muss wohl repräsentativ sein – oder nicht?.

Nehmen wir an, die männlichen Getesteten seien im Alter von 14 bis 18 und – Schüler eines Nachhilfe-Instituts. Bei den Frauen testen wir die Intelligenz von 2500 Wissenschaftlerinnen im Alter von 25-50. Man hatte für Befragungszwecke eben gerade diese beiden Gruppen zur Hand …

So eine Befragung wäre keinesfalls „repräsentativ“ – trotz der hohen Anzahl der Befragten. Die Stichproben der jungen Männer und der Wissenschaftlerinnen repräsentieren keinesfalls alle Männer bzw. Frauen in Deutschland.

Ein Blick in die Geschichte – und auch später in die Gegenwart – zeigt, dass das eben durchgeführte Gedankenexperiment nicht aus der Luft gegriffen ist:

Ein Meinungsumfragen-Desaster – mit 2,3 Millionen Befragten

Cover of the vol. 68, issue 8 (number 1609) of 19 February 1921 edition of the Literary Digest.)1936 hatten die Amerikaner die Wahl zwischen dem Amtsinhaber Roosevelt und dem Republikaner Landon. Die Wochenzeitschrift „Literary Digest“ hatte in der Vergangenheit die Ergebnisse von fünf Präsidentschaftswahlen richtig vorhergesagt. Jetzt wollte man die größte Wählerbefragung aller Zeiten durchführen. Über 2,3 Millionen(!!) Menschen beteiligten sich an dieser Befragung: Landon erhielt 1.293.669 Stimmen, Roosevelt nur 972.897. Die Zeitschrift titelte am 31. Oktober 1936: „Erdrutschsieg für Landon“. Er werde 57% der Stimmen und 370 der Wahlmänner gewinnen.

Gegen diesen damaligen Goliath der Wahlprognose trat George Gallup an. Er hatte nur 1500[1] Personen befragt. Er sagte voraus, dass Roosevelt die Wahl gewinnen werde – mit 55,7% der Stimmen. Gleichzeitig behauptete Gallup die Prognose des „Literary Digest“ für Landon sei eine große Fehleinschätzung. Gallup bekam recht: Roosevelt erhielt 61% der Wählerstimmen und ganze 98% der „Wahlmänner“. Landon erhielt nur 35% der Stimmen. Es war einer der deutlichsten Wahlsiege in der amerikanischen Geschichte. Gleichzeitig war es der Durchbruch für Gallup und das Anfang vom Ende für den „Literary Digest“.

Die Auswahl der Befragten ist entscheidend

Warum kam es zu diesem Desaster von „Literary Digest“? Zwei Fehler waren entscheidend:

1. Fehler: Es wurden nicht die typischen Wähler befragt.

  • Der Wochenzeitschrift lagen einige Monate vor der Wahl die Postkarten für die Meinungsumfrage bei. Die Leser der Wochenzeitschrift galten als einkommensstark. Damit gehörten sie traditionell eher dem republikanischen Lager an. Und so waren Sie nicht typisch für alle amerikanischen Wähler.
  • Es wurden zusätzlich Adresslisten von Telefon- und Autobesitzer genutzt. 1936 konnten sich wiederum vor allem einkommensstarke Personen Telefone und Autos leisten. Damit waren auch diese Befragten nicht typisch für alle amerikanischen Wähler.

2. Fehler: Es kam „zu Selbstselektions-Effekten“

  • Nur 20% der Leser von „Literary Digest“ sandten die Postkarten ausgefüllt zurück.. Die Stichprobe entwickelt sich in solchen Fällen gewissermaßen selbst. Dies wird Selbstselektion genannt. Auch die niedrige Response-Rate wird z. B. von Squire für die verzerrten Daten verantwortlich gemacht.

Warum aber sagte Gallup das Ergebnis so gut vorher? Gallup achtete darauf, dass die Zusammensetzung seiner Befragten möglichst genau mit der Zusammensetzung der amerikanischen Wahlberechtigten übereinstimmte. Dazu bildete er Stichproben nach bestimmten Kriterien wie Region, Alter, Geschlecht, sozialem Status usw. Er achtete darauf, dass diese Kriterien in seiner Stichprobe prozentual genauso häufig vorkamen, wie in der gesamten Wählerschaft. So waren seine Stichproben „repräsentativ“ für die gesamte US-Wählerschaft.

Repräsentativität wird durch Auswahl der Befragten hergestellt

Entscheidend für die „Repräsentativität“ einer Studie ist die Auswahl der Befragten. Dabei sollte die Stichprobe der Befragten möglichst der Gruppe ähnlich sein, für die die Aussagen gemacht werden. Um eine möglichst große Ähnlichkeit herzustellen, gibt es zwei Hauptprinzipien, von denen es wiederum viele Varianten gibt:

Quotenbildung

Ein Prinzip ist die Quotenbildung. Sie wurde von Gallup angewandt. Er stellte seine Stichproben nach Merkmalen der gesamten amerikanischen Wählerschaft her. Das Prinzip hier: Man versucht Stichproben zu bilden, die die gleichen Merkmale (Alter, Geschlecht, Wohnortgröße, usw.) haben, wie die Gruppe, für die die Aussagen gemacht werden sollen.

Zufallsauswahl

Das zweite Prinzip ist die Zufallsauswahl: Aus einer Liste aller Personen einer bestimmten Region (Deutschlands, Bayerns, …) werden per Zufall eine bestimmte Anzahl gezogen. Axel Glemser, Head of TMS Infratest, hält dies für die bevorzugte Form Repräsentativität (vgl. WPGS) herzustellen. Um repräsentative Zufallsstichproben zu gewinnen, ist in der Praxis das ADM-Master-Sample das gängige Verfahren, entwickelt vom Arbeitskreis Deutscher Marktforschungsinstitute e.V.

Verzerrungen und Selektionsfehler bei Onlinebefragung

Die Fehler aus den 30er Jahren werden auch  noch heute gemacht – vor allem bei Onlinebefragungen

Verzerrungen bei Onlinebefragungen

Hier gibt es häufig Verzerrungen in den Stichproben: Nicht alle Personen in Deutschland nutzen das Internet. 72% aller deutschen Erwachsenen benützen es laut der Forschungsgruppe Wahlen (IV. Quartal 2009). Und die restlichen 28% der Nichtnutzer müssen nicht unbedingt mit den Nutzern vergleichbar sein. Aussagen für die gesamte Bevölkerung, aufgrund einer Internetuntersuchung, sind also mit Vorsicht zu genießen.

Selbstselektionsfehler bei Onlinebefragungen

Noch häufiger ist der Selbstselektionsfehler zu finden. Er entsteht über die häufig auf Webseiten anzutreffenden Umfragen. Jeder kann daran ohne besondere Aufforderung teilnehmen. Die Befragten werden dabei nicht – wie gefordert – kontrolliert als Stichprobe aus einer Grundgesamtheit ausgewählt, sondern entschließen sich selbst zur Teilnahme. (Selbstselektion). Beispiel: Bei einer Umfrage zum Nichtraucherschutz könnten z. B. besonders viele Nichtraucher mitmachen wollen. Die Meinung der Raucher wäre dann durch die Selbstselektion unterrepräsentiert. Wissenschaftler kritisieren die mangelnde Repräsentativität solcher Auswahlverfahren, egal wie hoch die Zahl der Befragten ist.

Natürlich kann Repräsentativität auch bei Onlinebefragungen gegeben sein. Dies kann dann der Fall sein, wenn der Befragungsgegenstand selbst das Internet ist oder einen Internetzugang voraussetzt. Und wenn die Befragten über verschiedene Wege aufgefordert werden an der Untersuchung teilzunehmen. Nicht Internetbenutzer sollten mithilfe einer anderen Methode befragt werden (z. B. Fragebogen aus Papier). Um die Qualität von Onlinebefragungen zu steigern, hat der „Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute“ eine Richtlinie für Online-Befragungen herausgegeben.

Andere Probleme mit Studien

Natürlich gibt es nicht nur bei Online-Befragungen Probleme mit der Repräsentativität der Stichprobe. Häufig erhält man ja über das Internet die Ergebnisse von Marktstudien – und nur die Ergebnisse. Man versucht verzweifelt nähere Angaben zur Studie zu bekommen – nur die Anzahl der Befragten wird angegeben. Und der Verdacht liegt häufig nahe, dass man Vieles verschweigt, um die Schwächen einer Studie zu verschweigen. Doch wer will schon Entscheidungen treffen mit einer höchst unsicheren Grundlage?

Und welche Rolle spielen jetzt die Teilnehmerzahlen?

Hohe Teilnehmerzahlen sagen etwas über die Genauigkeit repräsentativer Erhebungen aus. Nach dem „Gesetz der großen Zahl“ gleichen sich Fehler in der Erhebung bei größer werdender Anzahl aus. Zur Bestimmung des optimalen Stichprobenumfangs gibt es ein übrigens ein kostenloses Tool, den SampleSizer (Download und Beschreibung).
Entscheidend zur Beurteilung der Qualität von Studien ist daher mindestens eine kurze Beschreibung des Untersuchungsvorgehens, wie z. B.:

  • Wie wurde die Stichprobe gefunden (Zufall, Quote)?
  • Wie viele Personen haben daran teilgenommen (nach Abzug der Verweigerer)?
  • Wie wurde befragt (per Internet, telefonisch, schriftlich)?
  • Wie wurden gegebenenfalls die Ergebnisse gewichtet?
  • Wie wurde die Qualität der Interviewerarbeit überprüft?
  • Und wenn die Stichprobe tatsächlich „repräsentativ“ ist, dann ist die Teilnehmerzahl interessant, da sie die Genauigkeit der Ergebnisse angibt.

.

Literatur

Squire, Peverill (1988): Why The 1936 Literary Digest Poll Failed. Public Opinion Quarterly (52),125-133.

Roth, Dieter (2008): Empirische Wahlforschung. Wiesbaden: Verlag für Sozialwissenschaften.

.


[1] Die Angaben differieren hier gewaltig. So nennt Roth in „Empirische Wahlforschung“ 1500 Befragte, ebenso F. Becker von der Wirtschaftspsychologischen Gesellschaft. 5000 Befragte nennt der Wikipedia-Artikel „George Gallup“, 50.000 der. Wikipedia-Artikel „United States presidential election, 1936“. Vermutlich stimmen die 1500 Befragten, da schon hier mit einer Prognosegenauigkeit von +/- 3% gearbeitet werden kann.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *