Kann man Menschen zu ehrlicherem Ausfüllen eines Formulars veranlassen, wenn sie die Richtigkeit ihrer Angaben am Anfang – statt wie üblich am Ende – eines auszufüllenden Dokuments bestätigen müssen? Eine solche Frage juckt heute vor allem die Verhaltensdresseure – auch bekannt als Verhaltensökonomiker. Sie hat durch Cass Sunsteins und Richard Thalers Buch «Nudging» gewaltigen Aufschwung erhalten. «Nudging» bedeutet Beeinflussen – «Schubsen» – zu einem bestimmten erwünschten Verhalten.
Die Harvard-Professorin Francesca Gino beschäftigt sich mit diesem Effekt. Sie geriet kürzlich in die Schlagzeilen, weil ihre Studien über Unehrlichkeit selber der Unehrlichkeit überführt wurden.[1] Eine Gruppe von Datenforensikern erhärtete den Verdacht auf frisierte Datensätze.[2]
Der Fall der Harvard-Professorin
Pikanterweise wirkte Frau Gino bereits 2012 in einem Autorenteam um den renommierten amerikanischen Verhaltensforscher Dan Ariely mit. Die Publikation analysierte im Auftrag einer Versicherungsfirma die jährlich zurückgelegten Strecken von über 13’000 Autofahrern. Auch hier ging es um die Frage, ob die Streckenangaben wahrheitsgetreuer waren, wenn die Zusicherung am Anfang erfolgte. Auch diese Arbeit beruhte auf geschönten Datensätzen, wie dies eine Überprüfung fast zehn Jahre später nachwies. Die Urheber der Fälschung blieben unbekannt. So oder so trägt der Ruf der Wissenschaft einen grossen Schaden davon.[3]
Statistische Detektoren
Derartige Studien sind symptomatisch für ein allgemeineres Problem im Zeitalter von Big Data: Wie kann man «ehrliche» von «unehrlichen» Datensätzen unterscheiden? Es gibt statistische Instrumente. So fahren die meisten amerikanischen Autobesitzer zwischen 2000 und 15’000 Meilen pro Jahr. An den Daten, die Arielys Team untersuchte, fiel auf, dass ungewöhnlich häufig Fahrten zwischen 40’000 und 41’000 Meilen vorkamen. Handelte es sich um «ehrliche» Zufallsdaten, wäre üblicherweise eine typische Normalverteilung zu erwarten, mit sehr wenig Extremwerten. Die Häufung der Extremwerte war Anlass zum Verdacht auf Manipulation.
Gesetze des Zufalls
Auch der Zufall unterliegt Gesetzmässigkeiten. Eine der bekanntesten ist das sogenannte Benford-Gesetz oder das Gesetz der ersten Ziffer. Es sagt etwas aus über die «natürliche» Verteilung von Ziffern in beliebigen Zahlen. Wenn man aus einem Datensatz zufällig eine Zahl auswählt, dann beginnt sie am Wahrscheinlichsten mit der Ziffer 1. Die Wahrscheinlichkeiten verringern sich für die Ziffern 2, 3 bis 9 nach einem logarithmischen Gesetz. Angenommen, bei einer politischen Wahl stösst man in fünfzig diversen Wahlkreisen auf verdächtig viele Stimmenzahlen, die mit 7, 8 oder 9 beginnen. Da riecht etwas faul.
Das Gesetz liefert allerdings keinen Beweis für Betrug. Es gilt nur unter der Bedingung, dass die Datensätze umfangreich sind und mehrere Grössenordnungen enthalten, also in unserem Beispiel Wahlkreise mit Hunderten, Tausenden, Zehntausenden von Stimmberechtigten. In Wirklichkeit bildet man Wahlkreise nicht so, deshalb eignen sie sich nicht für das Benford-Gesetz. Schon eher YouTube-Videos, mit Grössenordnungen, die sich zwischen 100 bis 200 und 1 bis 2 Millionen Aufrufen bewegen. So viel kann man sagen: Je mehr ein Datensatz von der Ideallinie des Benford-Gesetzes abweicht, desto gerechtfertigter erscheint ein zweiter genauerer Blick auf ihn.
Der Schummelfaktor gehört zur Wissenschaft
Datenintensive Forschung begünstigt den Publikationsbias. Ein originelles Resultat verführt zur vorschnellen Veröffentlichung. Es gewinnt oft grösste Aufmerksamkeit und Prominenz. Solches Rennen kann sich jedoch verrennen. Die Kognitionspsychologen Daniel Simons und Christopher Chabris konstatieren in ihrem lesenswerten Buch «Lass dich nicht täuschen. Warum wir uns immer wieder hinters Licht führen lassen» (deutsch Oktober 2023) eine Art von Wer-zuerst-kommt-mahlt-zuerst-Politik: «So problematisch dies auch ist, so betrachten doch Redaktoren und Gutachter oft die erste Studie über ein Thema als ‘richtig’, und schwächere oder widersprechende Resultate späterer Arbeiten führen sie auf methodische Fehler oder Inkompetenz zurück.»
Hinzu kommt ein Weiteres: Wir neigen dazu, in «unehrlichen» Daten die Unehrlichkeit der Wissenschaftlerin durchscheinen zu sehen. Solches Psychologisieren greift indes zu kurz. Der Schummelfaktor gehört zur Wissenschaft – seit Galilei. Der italienische Wissenschaftshistoriker Federico Di Trocchio fordert zum besseren Verständnis der Forschung sogar eine neue Disziplin namens «Defraudistik», eine Wissenschaft des wissenschaftlichen Betrugs.
«Clickbait science»
Das Problem ist ein strukturelles. Ziehen wir also nicht Frau Gino ein Statistiklehrbuch über den Schädel, sehen wir in ihr vielmehr das Symptom eines zeitgenössischen Mainstreams, vor allem in den Sozialwissenschaften. In den unermesslichen Fischgründen der Daten schwimmen so viele virtuelle Korrelationen, dass man beinahe alles mit allem «signifikant» verbinden kann. Ein gefundenes Fressen für Forschung, die Fake-Kausalitäten liefert.
Eine Art von Glamour-Wissenschaft – «clickbait science» – nimmt Gestalt an, die Verwurstung von Forschung, Show und Marketing. Motiv ist nicht primär Erkenntnisgewinn, sondern: eine steile These über einen neuen Effekt aufstellen, in der Zitationsstatistik einen Spitzenplatz erobern, einen Bestseller schreiben, und auf einem TED-Talk referieren. Die Honorare für «keynote speeches» schiessen zum Teil in obszöne Höhen.
Der Heroismus des Testens
Korrelationen sind voller Fallstricke. Die Statistiker warnen unermüdlich davor. Oft gelingt zudem die Replikation eines Experiments nicht. In gewissen Disziplinen spricht man sogar von einer Replikationskrise. Wie schrieb ein Pionier der modernen Statistik, Ronald A. Fisher: «Einen Statistiker nach Abschluss eines Experimentes um Rat zu fragen bedeutet oftmals nichts anderes, als ihn um eine Art Autopsie zu bitten – möglicherweise ist er in der Lage festzustellen, woran das Experiment gestorben ist.»
Unser Bild der Wissenschaft stützt sich einseitig auf den Heroismus aussergewöhnlicher Entdeckungen. Der Nobelpreis wird dafür verliehen. Man müsste ihm dringend – gerade im Zeitalter des Bullshits – einen Komplementärpreis zur Seite stellen für den Heroismus aussergewöhnlichen Testens in der datenintensiven Forschung von heute. Denn wer’s vergessen haben sollte: Wissenschaft heisst nicht bloss Entdecken von Neuem, sondern Prüfen von Hypothesen und Reproduzieren von Experimenten. Letzteres hat die unfaire und undankbare Nebenbedeutung der «Kärrnerarbeit», verlangt aber oft gleiche detektivische Ingeniosität und Imagination wie eine Entdeckung. Leider geistern «Entdeckungen», selbst dann, wenn sie durch Nachfolgestudien als falsch erwiesen worden sind, oft noch jahrelang durch die Literatur.
Wir brauchen eine Wissenschaft als «Vertrauenschaft»
Wir brauchen heute nicht so sehr Wissenschaft, als vielmehr «Vertrauenschaft». Eine umsichtige Forschungspolitik müsste deshalb einem Bild der Wissenschaft Vorschub leisten, das sie nicht primär als Wissens-, sondern als Glaubwürdigkeitsproduzentin hervorhebt. Denn bevor man sich auf die Wissenschaft beruft, muss man erst an sie glauben. Studien wie jene von Frau Gino und anderen sorgen für Vertrauensschwund. Und dieser Schwund kann in der Öffentlichkeit fatal rasch in Unglauben, Spott oder Ablehnung umschlagen – schlimmstenfalls in das verschwörungstheoretische Killerurteil: Wissenschaft taugt eh nichts!
Im amerikanischen Sprachgebrauch gibt es neben dem Wort «science» bereits auch «sciency»: den Eindruck von Wissenschaftlichkeit erweckend. «Sciency» klingt ja auch mehr nach «sexy». Eine neue Ära der Forschung?
[1] https://www.nzz.ch/wirtschaft/francesca-gino-harvard-professorin-verdiente-millionen-mit-ihrer-forschung-ueber-ehrlichkeit-bis-sie-selbst-betrog-ld.1746326?reduced=true
[3] https://www.faz.net/aktuell/karriere-hochschule/hoersaal/psychologie-studie-gefaelscht-relevanz-von-replikationsstudien-17524620.html