Mit künstlichen neuronalen Netzwerken gelingt es, aus riesigen Datenmengen «sinnvolle» Zusammenhänge herauszulesen. Dies ergibt Anwendungen, die bislang als Domäne menschlicher Intelligenz galten. – Hier als Teil 1 ein Crashkurs «Deep Learning».
Fake News, Fake Mail, Fake Identitäten, Deepfake – wir leben im Zeitalter des Fake. Ist der Mensch betrügerischer geworden? Kaum. Aber er ist blauäugig gegenüber einer Technologie, deren Design auf Täuschung beruht. Ich möchte diese These im Folgenden etwas ausführen. Und zwar tue ich das in zwei Teilen. Der erste geht kurz ein auf die neue Technologie des Deep Learning und ein paar Eigenheiten seiner Algorithmen. Der zweite Teil nimmt dann seine Anwendung im Deep Fake genauer unter die Lupe.
Überwachtes Lernen
Wie «lernt» eine Maschine? Sie verarbeitet Datenpunkte. Stellen Sie sich eine Kalkulationstabelle vor, mit Zeilen und Spalten. Die Spalten entsprechen den Variablen, zum Beispiel Körpergrösse einer Person, Gewicht, Gender und so weiter. In den Zeilen stehen die besonderen Werte der Variablen. Zeile 1 ist zum Beispiel für Paul reserviert, Zeile 2 für Vera . Bei Paul steht «Grösse 180 cm, Gewicht 80 kg, männlich», bei Vera «Grösse 165 cm, Gewicht 52 kg, weiblich». Eine Zeile ist ein «Datenpunkt»: Paul (180/80/männlich), Vera (165/52/weiblich).
Im sogenannten überwachten Lernen gibt es zwei Arten von Variablen: die Voraussagevariablen oder Prädiktoren und die Zielvariablen. Traditionell bezeichnete man erstere als unabhängig, letztere als abhängig. Eine Maschine «lernt» Abhängigkeiten vorauszusagen. Zum Beispiel die Abhängigkeit der Schuhgrösse (Zielvariable) von Körpergrösse, Gewicht und Gender (Voraussagevariablen). Man nennt dies eine Korrelation (es gibt Feinunterscheidungen, aber die interessieren hier nicht). Mit dem Datenpunkt Paul (180/80/männlich) korreliert die Schuhgrösse 43, mit dem Datenpunkt Vera (165/52/weiblich) die Schuhgrösse 39.
Training des Algorithmus
Angenommen, der Algorithmus soll «lernen», aus Körpergrösse, Gewicht, Gender verlässlich die Schuhgrösse vorauszusagen. Man füttert ihn mit Lerndaten, also mit zahlreichen Datenpunkten Paul, Vera, Emma, Pirmin und mit den entsprechenden Schuhgrössen. Wir lassen ihn vielleicht über 10’000 Datenpunkte laufen, woraus er eine interne Prozedur gewinnt, aus den Voraussagevariablen die Zielvariablen zu errechnen.
Ist der Algorithmus einmal trainiert, dann hat er ein «Modell». Wir können ihm neue Datenpunkte, also weitere Personen, eingeben, und deren Schuhgrösse bestimmen lassen. Je grösser die Datenmenge, desto grösser die Verlässlichkeit der Prognose. Es handelt sich dabei stets um Wahrscheinlichkeitsangaben, das heisst um die Schätzung des «besten» Wertes aus einer Verteilung von Schuhgrössen. Der Algorithmus sagt also nicht: «Bei diesem Datenpunkt ist die Schuhgrösse x», sondern: «Bei diesem Datenpunkt ist die Schuhgrösse x der beste Wert aus einer Verteilung».
Herumbasteln an einer gewaltigen Black Box
So formuliert, macht die Aufgabe des überwachten Lernens einen ziemlich geradlinigen und unkomplizierten Eindruck. Aber der Teufel steckt in der Durchführung. Der anspruchsvolle Teil liegt darin, eine gute Kombination von Voraussagevariablen zu finden. Sind Körpergrösse, Gewicht und Gender wirklich die zielführendsten Variablen zur Bestimmung der Schuhgrösse; fehlen da nicht noch weitere? Wir wissen es nicht. Wir können nur versuchen, anhand weiterer Variablen eine befriedigende Voraussagemaschine zu erhalten, das heisst, eine Maschine, die «in den meisten Fällen» eine passende Antwort liefert.
Dieser Versuch erweist sich als heikel, denn die Wahl von irrelevanten Voraussagevariablen – etwa Haarfarbe oder Wohnadresse – kann die Voraussagekraft des Algorithmus empfindlich schmälern. Der Commonsense sagt uns, dass Haarfarbe oder Wohnadresse nichts zu tun haben mit Schuhgrösse. Aber bei weniger vertrauten Zusammenhängen kann uns der Commonsense in die Irre führen. Das Programmieren von lernenden Maschinen ist somit eine Kunst, mit trickreichen Kombinationen die Voraussagekraft zu verbessern. All dies beruht nicht auf einem kausalen Wissen, warum die Maschine gerade bei dieser Kombination so gut funktioniert und bei einer andern versagt. Das ganze Metier ist ein Herumbasteln an einer gewaltigen Black Box.
Künstliche neuronale Netzwerke
In der Entwicklung der Voraussagemaschinen markieren künstliche neuronale Netzwerke (KNN) einen Durchbruch. Ihre Architektur besteht aus vernetzten informationsverarbeitenden Einheiten – «Neuronen» –, die sich gewichten, also «einstellen» lassen, und die je nach Gewicht Signale durchlassen oder hemmen. Sie sind miteinander über eine Hierarchie von Schichten vernetzt. Jede Schicht hat spezifische Aufgaben.
Der entscheidende «disruptive» Schritt ist das selbst- oder unüberwachte Lernen. Statt dass man dem Netz Daten in vorgegebenen Kategorien eingibt – Körpergrösse, Gewicht, Gender, Schuhgrösse –, lässt man es auf einer riesigen unkategorisierten Datenmenge «autodidaktisch» eine interne Prozedur zur Kategorisierung und Korrelation finden. Die Krux dabei ist, dass es sich in seinen tiefen Schichten weitgehend dem Blick des Programmierers entzieht. Und es könnte so aus Körpergrösse, Gewicht und Gender etwas ganz anderes als die erwünschte Schuhgrösse errechnen.
Textgeneratoren
KNN haben sich im Laufe des letzten Jahrzehnts als äusserst vielseitig anwendbar erwiesen, auch auf Feldern, die man herkömmlich der menschlichen Intelligenz vorbehielt. Zum Beispiel im Textgenerieren. Ein Textgenerator «lernt», kurz gesagt, eine Wörterfolge mit einem neuen, wenn möglich sinnvollen Wort fortzusetzen. Gibt man also etwa «Er betrat die Bäckerei, um …» ein, dann ist das Wort – die Zielvariable – «Brot» wahrscheinlich.
Die neuen Textgeneratoren, basierend auf Deep Learning, erzielen erstaunliche Resultate. Sie bilden von selbst «Sinn-Hierarchien», zuunterst die syntaktische Schicht, dann die Schicht des Satzbaus, bis hinauf zur semantischen Schicht mit Plots und erzählerischer Kontinuität. Ein auf einer hinreichend grossen Datenmenge trainierter Algorithmus extrapoliert also eine Wörterfolge «sinnvoll», braucht sie wiederum als Eingabe, setzt diese mit einem neuen Wort fort und iteriert diesen Vorgang beliebig weiter. Wie ein Mensch wählt er das neue Wort, basierend auf den bereits geschriebenen.
Das bedeutet wohlgemerkt nicht, dass der Algorithmus den Sinn der Wörter «verstünde». Er arbeitet statistisch. Er sucht das wahrscheinlichste Wort aus. Neuerdings erweckt er sogar einen «kreativen» Eindruck. Der Trick ist unscheinbar, aber entscheidend. Man baut ein Zufallselement ein. Der Textgenerator schreibt nicht immer das wahrscheinlichste Wort hin, sondern wählt aus einer Wahrscheinlichkeitsverteilung zufällig das nächste Wort aus. Auf diese Weise kommt es vor, dass der generierte Text eine ungewohnte Wendung nimmt – genau so, wie ein Schriftsteller ein Wort in ungewohnter Weise verwendet. Das nicht erwartete Wort erhält somit eine Aura der Selbständigkeit und Originalität.
Spätestens hier erreichen wir die Schwelle zur Frage des Fake. Handelt es sich bei all diesen technischen Tricks bloss um Gadgets, die tun als ob? Das ist Thema des zweiten Teils.