Einschlägige Forscherkreise muten dem «Verstand» der künstlich intelligenten (KI) Systeme alles nur Menschenmögliche, ja, Übermenschenmögliche zu. In der Tat ist es beeindruckend – für viele auch beängstigend –, wie eine künstliche Spezies sukzessiv menschliche Verstandestätigkeiten übernimmt.
Wir sprechen von Computern, die Muster erkennen, abschätzen, beraten, entscheiden, Entdeckungen machen. So dass man sich zu fragen beginnt: Wenn die neuesten KI-Systeme in der Lage sind, zu lernen, lernen sie auch verstehen? Und was bedeutet das überhaupt? Ich unternehme als Antwortversuch einen kurzen Streifzug durch drei exemplarische Forschungsfelder, die sich immer mehr zu einem einzigen zusammenschliessen. Das erste Feld ist ein rein technisches, das zweite ein kognitives, das dritte ein tief philosophisches.
Natürliche Sprache verstehen
Wo entwickeln sich die Fähigkeiten des Verstandes zuerst, wenn nicht in der natürliche Sprache – der Sprache, in die wir hineinwachsen? Das natürliche Sprechen ist seit langem ein hartnäckig verfolgtes Ziel der Computerwissenschaften. Man kann ziemlich klar zwei Entwicklungsphasen unterscheiden. Die erste ist bekannt unter dem Akronym GOFAI («good old fashioned artificial intelligence»); die zweite könnte man als DEEPLAI («deep learning artificial intelligence») bezeichnen. In der ersten Phase suchten die Designer dem Computer explizite einzucodieren, was es braucht, um Texte zu verstehen: all die impliziten Fakten, Regeln, Hinweise, Annahmen, auf die wir uns im Textverstehen stützen. Ein Unterfangen, das von der Annahme ausging, Sprachverstehen lasse sich vollständig formal explizieren. Sie gilt heute als überholt.
Die zweite Phase ist jene der sogenannten generativen Sprachmodelle. Man füttert künstliche neuronale Netze mit einer Riesenmenge an Trainingsdaten aus dem menschlichen Textfundus und lässt sie neue Texte generieren. Ein Hype ist zurzeit der Sprachgenerator GPT-3 («generative pretrained transformer 3»). Er wurde auf der Basis von 500 Milliarden Wörtern trainiert –, wie man vernimmt, einschliesslich der ganzen Wikipedia-Textmasse. Er schreibt verblüffend echte Texte, das heisst, er verwendet Wörter so, als verstünde er sie. Aber wie kann man herausfinden, ob er wirklich versteht, was er schreibt?
Die menschliche «Fähigkeit», getäuscht werden zu können
Die Frage führt uns zurück in die Pionierzeit des Computers, in die 1950er Jahre, als Alan Turing sein berühmtes «Imitationsspiel» ersann. Sein Trick beruht eigentlich weniger auf den kognitiven Fähigkeiten von KI-Systemen als auf der «Fähigkeit» des Menschen, getäuscht zu werden. Das heisst, die Maschine steht unter dem prinzipiellen Verdacht des Fake. Wir messen ihr kognitives Vermögen daran, dass es uns nicht gelingt, sie von einem entsprechenden menschlichen Vermögen zu unterscheiden.
Bereits zum Standard gehört das Winograd-Schema, benannt nach dem Informatiker und Philosophen Terry Winograd, einem Pionier der KI-Forschung. Ein Winograd-Schema besteht aus einem Paar von Sätzen, die sich nur durch ein Wort unterscheiden. Zum Beispiel: 1) Der Sportwagen überholte den Lieferwagen, weil er schneller war; 2) Der Sportwagen überholte den Lieferwagen, weil er langsamer war. Worauf bezieht sich das «er» in den beiden Sätzen? Ein Mensch mit normalem Sprachverständnis beantwortet diese Frage mühelos korrekt. Um das Sprachverständnis des neuronalen Netzes zu testen, setzt man ihm nun immer raffiniertere Winograd-Schemas vor und misst dieses «Verständnis» anhand der Anzahl korrekt beantworteter Fragen. Gegenwärtig existieren über 40’000 solcher Testfragen. Eines der aktuellsten generativen Sprachmodelle – SuperGlue – beantwortet bei einem ausgewählten Sample über 90 Prozent der Fragen richtig. Ein Skore, das ungefähr jenem des Menschen gleichkommt.
Verständnis testen: alles andere als unproblematisch
Heisst das, dass das KI-System ein Sprachverständnis hat? Das entpuppt sich als das haarige Problem der kognitiven Interpretation. Zunächst ist ja das Abschneiden bei spezifischen Tests eine ausgeprägte «Inselbegabung». Schlüsse von partikulären Intelligenztests auf das generelle kognitive Vermögen eines Menschen erweisen sich als notorisch heikel. Auch muss man so gut wie möglich ausschliessen, dass das KI-System die korrekte Antwort einfach «verständnislos» über einen internen Suchalgorithmus findet. Neuronale Netze können zudem immer besser Wörter korrelieren. Sie lernen über den Zufallsweg, «Sportwagen» automatisch mit «schnell» und «Lieferwagen» mit «langsam» zu verknüpfen, ohne zu verstehen, was damit gemeint ist. Das erweckt leicht den Eindruck, sie hätten ein «intuitives» Gespür für die Differenz der beiden Sätze über Sport- und Lieferwagen. Man muss also ein eliminatives Verfahren wählen: die Schemas sorgfältig und kritisch durchforsten, und jene aussondern, bei denen der Verdacht auf eine bloss maschinelle Antwort besteht. Das ist leicht formuliert und schwer durchzuführen.
Und hier liegt der Hase im Pfeffer. Wie raffiniert auch die Kriterien für allgemeines Sprachverstehen noch sein werden, die Fragen stellen sich immer dringlicher: Was misst man eigentlich an KI-Systemen, ihre Intelligenz oder ihre Künstlichkeit? Kann man Verstehen überhaupt nach dem üblichen Modus operandi der Computerwissenschaften verstehen? Kann es sein, dass sich die KI-Forschung auf eine Betrachtungsweise festgelegt hat, die entscheidende Aspekte menschlicher Kognition ausblendet? Vielleicht sogar in eine Sackgasse führt? Solche Fragen umreissen das dritte, das philosophische Problem.
«They don’t give a damn»
Wir Menschen verstehen Sprache nicht einfach dadurch, dass wir sprechen, sondern dadurch, dass wir sprechend der Welt einwohnen. Und wir tun dies körperlich. Kognitive Fähigkeiten sind immer auch körperliche Fähigkeiten. Artikulieren ist eine solche. Sprachentwicklung setzt ein, indem wir von Geburt an mit anderen Menschen Artikulationen austauschen und über sie ein ursprüngliches Weltverständnis gewinnen. Gleichzeitig werden wir auf diesem Weg zu dem, was wir sind: unverwechselbare Personen. Der Ursprung ist unser körperliches «Welthaben». Maschinen haben keine Körper, ihnen ist die Welt – wie dies der Philosoph John Haugeland unvergesslich ausdrückte – scheissegal: «They don’t give a damn».
Aber ist denn der menschliche Körper nicht auch «evolutiv programmierte» organische Materie? Gewiss, der Körper ist ein Komplex von Automatismen, die wir nach dem Erlernen ins Unbewusste sacken lassen, nicht nur die Sprachfähigkeit, sondern weite Teile unseres Verstehens. Wir verstehen mehr als das, was wir sprachlich ausdrücken können. Man nennt das auch Commonsense. Er gilt in einschlägigen Kreisen als «dunkle Materie» der KI-Forschung. Der Mensch ist ein unbegreifliches oder sagen wir optimistischer: ein nie vollständig begreifliches Programm. Unsere soziale und kulturelle Integriertheit liegt gerade darin, dass wir zur Steuerung unseres Verhaltens dieses Programm nicht ständig abrufen müssen – es sei denn, wir wären sozial gestört.
Das echte Problem sehen
Kann man KI-Systemen Verstehen beibringen? Ich will und kann diese Frage nicht beantworten. Aber ich sehe in ihr ein Memento. Wir blicken gebannt auf die künstliche Intelligenz, sie verhext uns über die Massen. Warum sind wir Menschen so verschossen in die Idee, KI-Systeme würden mit uns in eine Konversation auf gleicher kognitiver Höhe treten? Liegt es daran, dass viele von uns sich einen Roboter-Kumpel wünschen, in Ermangelung eines menschlichen? Oder ist der Verstand von vielen bereits auf ein «Maschinenniveau» gesunken? Oder will man einfach auf dem wild gewordenen Markt des smarten Schnickschnacks eine Absatznische finden? Was auch immer, am Ende riskieren wir, mit einem «Niemand» in der Maschine zu reden wie Wellensittiche, die mit ihrem Spiegelbild zirpen und balzen. Gestehen wir uns dabei ein, dass selbst Menschen miteinander konversieren können, als ob im Gesprächspartner niemand zuhause wäre. Ob nun Maschinen verstehen oder nicht – wir scheinen nicht verstanden zu haben oder verstehen zu wollen, dass die reale Herausforderung der KI darin liegt, uns die Frage abzugewöhnen, was es heisst, ein Mensch zu sein.