Geoffrey Hinton über künstliche Intelligenz
Yascha Mounk und Geoffrey Hinton über Funktionsweise und Risiken der Künstlichen Intelligenz.
Wenn dir meine Artikel und Podcasts gefallen, abonniere dich jetzt – oder leite sie an Freunde weiter –, damit dieser Substack weiter wachsen kann!
Geoffrey Hinton ist ein Kognitionspsychologe und Informatiker, bekannt als der „Pate der KI“. Gemeinsam mit John Hopfield wurde er 2024 mit dem Nobelpreis für Physik ausgezeichnet.
In dieser Woche sprechen Yascha Mounk und Geoffrey Hinton darüber, was die Neurowissenschaft über künstliche Intelligenz lehrt, wie Menschen und Maschinen lernen und welche existenziellen Risiken KI mit sich bringt.
Das Transkript wurde gekürzt und zur besseren Verständlichkeit leicht bearbeitet.
Yascha Mounk: Sie werden als der „Pate der KI“ bezeichnet. Die Geschichte der künstlichen Intelligenz verlief in Wellen – es gab Phasen großer Euphorie und dann wieder sogenannte „KI-Winter“, in denen man glaubte, die technischen Voraussetzungen für funktionierende KI seien noch nicht gegeben oder das gesamte Konzept sei fehlgeleitet und würde nie zu etwas Nützlichem führen.
Erzählen Sie uns, warum es so viele Anläufe brauchte, bis wir zu dem enormen KI-Boom gekommen sind, den wir heute erleben – und warum KI, wie auch immer ihre Zukunft aussehen mag, inzwischen eindeutig in die verschiedensten nützlichen Prozesse der Welt integriert ist.
Geoffrey Hinton: Im vergangenen Jahrhundert gab es zwei Ansätze für künstliche Intelligenz. Der Hauptansatz, den fast alle verfolgten, beruhte auf Logik. Man sagte, das Besondere am Menschen sei seine Fähigkeit zu denken und zu schlussfolgern – also nahm man die Logik als Modell dafür. Dieser Ansatz funktionierte nicht. Er hätte funktionieren können, tat es aber nicht besonders gut, und das führte zu mehreren „KI-Winter“.
Es gab aber einen alternativen Ansatz, der in den 1950er Jahren mit Leuten wie von Neumann und Turing begann – die beide leider jung starben. Dieser Ansatz basierte auf neuronalen Netzwerken – also auf biologischer statt logischer Inspiration. Der alternative Ansatz lautete: Anstatt zu versuchen, das logische Denken zu verstehen, müssen wir Wahrnehmung, Intuition und motorische Kontrolle verstehen. Im Gehirn funktionieren diese Dinge, indem sich die Verbindungsstärken zwischen Neuronen in einem neuronalen Netzwerk verändern.
Wir sollten also zuerst verstehen, wie das geschieht – und uns um das logische Denken später kümmern. Zu Beginn dieses Jahrhunderts begann dieser Ansatz plötzlich deutlich besser zu funktionieren als der logikbasierte. Fast alles, was wir heute „KI“ nennen, ist nicht die altmodische KI, die auf Logik beruht, sondern die moderne, die auf neuronalen Netzwerken basiert.
Mounk: Im Rückblick erscheint alles immer offensichtlich. Aber wenn man versucht, von Grund auf eine intelligente Maschine zu bauen, dann wirkt der logische Ansatz sehr naheliegend. Wir müssen ihr beibringen, dass zwei plus zwei vier ergibt; wir müssen ihr die physikalischen Eigenschaften der Welt erklären und die Grundregeln der Logik. Dann werfen wir eine Menge Rechenleistung darauf, und sie kann Schlussfolgerungen ziehen, auf die wir vielleicht selbst nicht kämen.
Warum ist dieser Ansatz gescheitert? Und was war an dem alternativen Ansatz, den Sie maßgeblich vorangetrieben haben, so vielversprechend, dass daraus letztlich nutzbare Technologie wurde?
Hinton: Menschliches Denken lässt sich in zwei Arten einteilen: in das sequentielle, bewusste, überlegte, logische Denken – das Mühe erfordert und dem entspricht, was Daniel Kahneman „System 2“ nennt – und in die unmittelbare Intuition, die normalerweise keine Anstrengung verlangt. Die Vertreter der symbolischen KI konzentrierten sich auf System 2 – also auf das bewusste, rationale Denken – ohne zu klären, wie wir Intuition, Analogien oder Wahrnehmung zustande bringen.
Es hat sich herausgestellt, dass es sehr viel besser ist, mit genau diesen Dingen zu beginnen – mit dem, was viele Tiere ebenfalls können. Sie verfügen über Wahrnehmung und motorische Kontrolle. Wenn man das gelöst hat, kommt das logische Denken als Nächstes. Die frühen Forscher gingen vom spezifisch Menschlichen aus, statt von der Biologie – davon, wie andere Tiere denken. Dabei sind wir im Grunde nur hochentwickelte Affen, und man muss verstehen, wie Tiere denken.
Mounk: Interessant ist ja, dass wir, wenn wir über Intelligenz nachdenken, dazu neigen, uns darauf zu konzentrieren, was uns Menschen von anderen Arten unterscheidet – dieses letzte Stück zusätzlicher Intelligenz, das wir haben und andere Tiere nicht. Aber viele dieser „höheren“ Fähigkeiten beruhen auf Grundlagen, die selbst unglaublich komplex sind, uns aber nicht besonders auffallen, weil Katzen, Löwen, Hunde oder Elefanten sie ebenfalls besitzen.
Dazu gehören Dinge wie das Wahrnehmen der Umwelt, das Abschätzen, wohin man den Fuß setzt, um nicht in eine Schlucht zu fallen, oder das Erkennen, wenn sich ein Raubtier nähert. All das sind keine „System 2“-Prozesse. Wenn wir fragen, was uns intelligent macht, denken wir nicht zuerst daran – obwohl genau das in gewisser Weise die erstaunlichere Leistung ist. Erst danach können wir fragen, was für diesen letzten zusätzlichen Schritt der Intelligenz nötig ist.
Hinton: Ich gebe Ihnen ein Beispiel für eine Art des Denkens, die man nicht mit Logik, sondern nur mit Intuition vollziehen kann. Für die meisten Männer in unserer Kultur ist die Antwort offensichtlich. Für Frauen hingegen nicht immer.
Stellen Sie sich vor, ich gebe Ihnen zwei Alternativen, die beide Unsinn sind, von denen eine aber dennoch „besser“ erscheint. Alternative eins: Alle Hunde sind weiblich und alle Katzen sind männlich. Alternative zwei: Alle Hunde sind männlich und alle Katzen sind weiblich. Die meisten Männer in unserer Kultur finden sofort, dass die zweite Variante „natürlicher“ wirkt. Hunde sind laut und ungestüm und jagen Katzen – das fühlt sich einfach richtiger an. Das ist eine spontane Reaktion, kein überlegtes Urteil. Warum ist das so? Das lässt sich mit Logik nicht erklären.
Mounk: Ein anderes Beispiel sind vermutlich bestimmte Sprachregeln. Ich weiß nicht genau, wie so etwas wie die „Universalgrammatik“ da hineinpasst, aber die Tatsache, dass wir sagen „das kleine warme rote Haus“ und nicht „das warme kleine rote Haus“ oder „das warme rote kleine Haus“, zeigt, dass es eine bestimmte Ordnung gibt.
Hinton: Ich denke, das hängt davon ab, welche Sprache man spricht. Ich glaube jedenfalls nicht an eine Universalgrammatik – und die großen Sprachmodelle glauben auch nicht daran. Diese Sprachmodelle tun etwas, das Chomsky für unmöglich gehalten hätte – und bis heute hält. Sie beginnen ohne jegliches angeborenes Sprachwissen, sie sehen einfach sehr viele Sprachbeispiele und beherrschen am Ende die Grammatik äußerst gut. Sie hatten kein angeborenes Wissen.
Mounk: Wie auch immer man das erklärt – und ich wollte keine Debatte über die Universalgrammatik beginnen –: Es stimmt, dass ein geübter Sprecher des Englischen Adjektive in einer bestimmten Reihenfolge anordnet, ohne bewusst darüber nachzudenken. Es ist nicht so, dass man überlegt: Welches Adjektiv kommt zuerst? Wenn man die Sprache gerade lernt, mag man die grammatikalische Regel kennen und sich fragen, ob „little“ vor „blue“ kommt oder umgekehrt.
Aber als zehnjähriger Muttersprachler macht man das automatisch. Und erstaunlicherweise macht ChatGPT das ebenfalls automatisch – auf eine Weise, die schwer zu definieren ist. Es funktioniert jedenfalls nicht so, dass jemand ChatGPT explizit die Regeln der englischen Grammatik beigebracht hätte. Stattdessen zieht ChatGPT aus all den vorhandenen Daten selbst die Regel, wo ein Adjektiv der Größe hingehört.
Hinton: Ja, aber das zeigt nur, dass man kein angeborenes Sprachwissen braucht. Man muss nur viele Sprachbeispiele sehen und über einen ziemlich universellen Lernmechanismus verfügen – also genau das Gegenteil von dem, was Chomsky behauptet hat.
Mounk: Das ist sehr interessant. Chomsky argumentiert, dass es gewisse angeborene Voreinstellungen gibt, die dann in die eine oder andere Richtung aktiviert werden, und dass uns das befähigt, Sprache zu beherrschen. Sie sagen, das sei gar nicht nötig – alles, was man braucht, sind Neuronen, die viele Daten sehen und darin Muster erkennen, ohne dass man ihnen je explizit sagt, was das Muster ist. Ist das ungefähr richtig?
Hinton: Genau. Dieses Beispiel mit Katzen und Hunden zeigt, dass wir starke Intuitionen über Dinge haben, ohne bewusst darüber nachzudenken. Die Frage ist: Warum? Die Antwort aus Sicht derjenigen, die an neuronalen Netzwerken arbeiten, lautet: Wir haben eine Repräsentation von „Katze“. Die Bedeutung des Wortes „Katze“ besteht aus vielen aktivierten Merkmalen, von denen jedes einem aktiven Neuron entspricht. Eine Katze ist ein Lebewesen, behaart, etwa so groß wie ein Brotlaib und in der Regel domestiziert – oder möglicherweise domestiziert.
„Hund“ ist ein anderes Bündel von Merkmalen, das sich stark überlappt, also sind Hunde und Katzen ziemlich ähnlich. Wenn man nun die Ähnlichkeit zwischen einer Katze und einer Frau oder zwischen einer Katze und einem Mann vergleicht, ist die Katze – für Männer in unserer Kultur – einer Frau ähnlicher, und ein Hund ist einem Mann ähnlicher. Man kann das so analysieren. Es ist einfach offensichtlich, dass eine Katze einer Frau ähnlicher ist als einem Mann und ein Hund einem Mann ähnlicher als einer Frau. Das ist es, was passiert, wenn man sofort spürt, welche Variante „natürlicher“ wirkt. Das unterscheidet sich grundlegend vom logischen Denken.
Mounk: Erklären Sie, wie das im menschlichen Gehirn funktioniert – und wie Sie dieses Wissen über die Neurowissenschaft inspiriert hat, Maschinen so etwas beizubringen, ohne feste logische Regeln einzugeben, die sich ja als nicht funktional erwiesen haben.
Hinton: Am einfachsten lässt sich das über die visuelle Wahrnehmung erklären. Wenn ich erkläre, wie man visuelle Wahrnehmung erlernt, ist es relativ leicht zu verstehen, wie man Sprache erlernen kann.
Nehmen wir also die visuelle Wahrnehmung: Angenommen, Sie haben viele Bilder, auf denen ein Vogel zu sehen ist, und viele Bilder ohne Vogel. Sie wollen ein neuronales Netzwerk bauen, das bei einem Vogelbild das Ausgangssignal „Vogel“ aktiviert und bei einem anderen Bild das Signal „kein Vogel“.
Dazu gibt es Schichten von Neuronen, die unterschiedliche Merkmale erkennen. Welche Merkmale das sind, wurde durch Hirnforschung inspiriert – also durch die Frage, auf welche Reize bestimmte Neuronen im Gehirn reagieren.
Angenommen, wir haben ein Bild mit 1.000 mal 1.000 Pixeln, also eine Million Pixel. Wenn es sich – zur Vereinfachung – um ein Graustufenbild handelt, dann haben wir eine Million Zahlen, die die Helligkeit jedes Pixels angeben. In Rechenbegriffen heißt das: Ich gebe Ihnen eine Million Zahlen, und Sie müssen entscheiden, ob das ein Vogel ist oder nicht.
Diese einzelnen Zahlen helfen uns zunächst nicht viel, denn ein Vogel kann ein Strauß sein, der gleich nach Ihrer Nase schnappt, oder eine Möwe in weiter Ferne. Beide sind Vögel, aber sie unterscheiden sich stark. Man muss also mit riesigen Unterschieden umgehen können – in der Art des Vogels, seiner Haltung, seiner Größe, seiner Position im Bild – und trotzdem alle Vögel erkennen und alle Nicht-Vögel ausschließen.
Das Erste, was man in einem visuellen System tut, ist, kleine Kantenstücke im gesamten Bild zu erkennen. So erkennt ein neuronales Netz eine kleine Kante: Stellen Sie sich eine Spalte aus drei Pixeln vor, und daneben links und rechts je eine weitere Spalte aus drei Pixeln – also insgesamt sechs Pixel. Sie wollen feststellen, wann die drei Pixel auf der linken Seite heller sind als die drei auf der rechten, denn das bedeutet: Hier befindet sich eine Kante – ein kleines Stück einer Kante.
Man könnte ein Neuron so schalten, dass seine Eingaben von diesen Pixeln kommen – mit starken positiven Eingaben von den linken Pixeln und starken negativen von den rechten. Wenn ein rechtes Pixel hell ist, sendet es ein stark negatives Signal: „Bitte nicht aktivieren.“ Wenn ein linkes Pixel hell ist, sendet es ein positives Signal: „Bitte aktivieren.“ Wenn die Pixel links und rechts gleich hell sind, heben sich positives und negatives Signal auf, und das Neuron bleibt inaktiv. Sind die linken Pixel hell und die rechten dunkel, summiert sich das positive Signal – und das Neuron feuert.
Wenn man die Verbindungsstärken – also die Gewichte, die bestimmen, wie stark jedes Pixel „mitstimmen“ darf, ob das Neuron aktiv sein soll – richtig einstellt, kann man damit einen Kanten-Detektor bauen. Vorerst müssen wir uns nicht darum kümmern, wie das gelernt wird; stellen Sie sich einfach vor, wir hätten ihn von Hand konstruiert. So also kann man ein System entwerfen, das erkennt, wenn die drei Pixel links heller sind als die drei rechts.
Nun muss man dasselbe an allen Positionen im Bild tun – man braucht also Hunderttausende solcher Detektoren, in allen möglichen Orientierungen. Man wird Millionen davon benötigen, und zwar in verschiedenen Maßstäben: Detektoren für kleine, scharfe Kanten – etwa beim Lesen schwarzer Buchstaben auf weißem Papier – und Detektoren für große, weiche Kanten, wie sie Wolken haben.
Wir verfügen also über zig Millionen Neuronen, die überall im Bild, in jeder Richtung und jeder Größenordnung Kanten erkennen können. Das ist unsere erste Schicht von Merkmalsdetektoren. Wenn wir ein Bild einspeisen, wird nur ein kleiner Teil davon aktiv und zeigt uns, wo sich Kanten befinden. Das reicht aber noch nicht, um Vögel zu erkennen. Wenn ich Ihnen sage, hier ist ein kleines Stück vertikale Kante – ist das ein Vogel? Das sagt uns wenig.
Wir brauchen eine zweite Schicht von Merkmalsdetektoren, die diese Kanten als Eingaben nehmen. Zum Beispiel könnte ein Detektor nach einer Reihe leicht ansteigender Kanten und einer Reihe leicht abfallender Kanten suchen, die sich in einem Punkt treffen. Solche Strukturen könnten auf einen Vogelschnabel hindeuten. Oder ein anderes Neuron könnte sechs Kanten in Ringform erkennen – das könnte ein Vogelauge sein.
In der nächsten Schicht erkennen wir dann Dinge wie mögliche Schnäbel, Augen und vielleicht Füße – also etwas, das wie ein Hühnerfuß oder der Flügelansatz aussieht. Nun haben wir eine Menge Neuronen, die kleine, typische Vogelmerkmale erkennen. In der darauffolgenden Schicht suchen wir nach Kombinationen dieser Merkmale. Ein Detektor könnte also nach einem möglichen Schnabel und einem möglichen Auge in der richtigen relativen Position suchen – Auge über dem Schnabel, leicht versetzt – und so den Kopf eines Vogels erkennen. Solche Neuronen brauchen wir über das ganze Bild verteilt. Das erfordert eine gewaltige Zahl von Neuronen – zum Glück haben wir Milliarden davon.
Mounk: Das ist alles sehr anschaulich, aber lassen Sie mich ein paar einfache Fragen stellen, um Missverständnisse zu vermeiden und einige Punkte zu klären. So wie Sie das beschreiben, klingt es ein bisschen so, als würde jemand dem System eine Reihe von Regeln vorgeben – etwa: „Vögel haben Schnäbel, und Schnäbel sehen ungefähr so aus.“ Es klingt, als würde man das System nach logischen Prinzipien konstruieren, damit es nach Schnäbeln sucht und Alarm schlägt, wenn es einen findet.
Aber irgendwie lernt das System ja selbst, Merkmale von Vögeln zu erkennen – so wie ChatGPT niemand erklärt hat: „Zuerst kommt das Adjektiv der Größe, dann das Adjektiv der Farbe.“ Das Modell hat diese Regel selbst entdeckt. Wie schafft es das System also, solche Merkmale selbst zu erkennen? Es scheint, als hätte es tausend Vogelbilder und tausend Nicht-Vogelbilder gesehen, und diese tausend Vogelbilder haben etwas gemeinsam – vielleicht ein schnabelähnliches Merkmal. Also beginnt es, danach Ausschau zu halten. Doch das wird der KI nicht vorgegeben – sie leitet es aus den Daten ab. Wie macht sie das?
Hinton: Um das zu erklären, ist es hilfreich, zunächst zu fragen: Wenn ich das System von Hand bauen würde – was wäre das Ziel des Lernens? Ich habe gerade beschrieben, wie ich mehrere Schichten von Merkmalen konstruieren würde, um einen Vogel zu erkennen. Ich bin bei der Schicht angekommen, in der man nach Kombinationen aus Schnabel und Auge sucht – das könnte also der Kopf eines Vogels sein. In dieser Schicht gäbe es viele Detektoren, die den Flügel, das Bein oder den Kopf eines Vogels erkennen. Wenn man mehrere dieser Merkmale sieht, ist das ein starkes Indiz für einen Vogel.
Am Anfang ist die Helligkeit eines einzelnen Pixels kein Hinweis auf einen Vogel – sie sagt nichts darüber aus, ob da einer ist. Selbst ein kleines Stück Kante sagt noch nichts. Wenn sich jedoch zwei Kanten so verbinden, dass eine schnabelähnliche Form entsteht, kann das ein Hinweis auf einen Vogel sein – aber kein besonders guter, denn viele Dinge ergeben eine ähnliche Form: etwa die Ecke eines Tisches, schräg gesehen.
Sobald man das Auge eines Vogels und den Schnabel eines Vogels erkennt – und weitere Kombinationen, die offensichtliche Vogelmerkmale sind –, hat man gute Hinweise darauf, dass es sich tatsächlich um einen Vogel handelt. Ich habe also erklärt, welche Art von System wir bauen wollen: Schichten von Merkmalen, in denen jede Schicht Kombinationen der Merkmale der darunterliegenden Schicht erkennt, bis wir Kombinationen haben, die spezifisch für Vögel sind – und sagen können: Das ist ein Vogel.
Die Frage ist nun: Wie lernt man all diese Verbindungsstärken? Wie entsteht ein Detektor, der starke positive Eingaben von drei leicht abfallenden und drei leicht ansteigenden Kanten erhält? Wie entscheidet man, dass genau diese sechs Kanten starke Gewichte auf diesen Detektor haben sollen – und alle anderen Merkmale keine, weil sie irrelevant sind? Man sucht nur nach diesen sechs Merkmalen, diesen sechs Kanten.
Ich werde jetzt eine einfache, wenn auch ineffiziente Methode erklären, um zu veranschaulichen, was passiert. Es gibt drei Schritte, um das Lernen zu verstehen: Erstens, was soll gelernt werden? Zweitens, wie könnte man es auf einfache Weise umsetzen, um ein Gefühl für den Prozess zu bekommen? Und drittens, wie lässt es sich effizienter machen.
Die einfache Methode ist folgende: Man beginnt mit all diesen Schichten von Neuronen und legt zufällige Gewichte zwischen ihnen fest. Die Verbindungsstärken von einer Schicht zur nächsten sind zufällige Zahlen – einige leicht positiv, andere leicht negativ. Dann gibt man ein Bild eines Vogels ein und schaut, was das System ausgibt. Mit zufälligen Zahlen könnte es sagen: 50 Prozent Vogel, 50 Prozent kein Vogel.
Das ist nicht sehr hilfreich, aber man kann nun fragen: Was passiert, wenn ich eine dieser Verbindungsstärken – nur eine – ein klein wenig erhöhe? Offenbar verändert sich das Ergebnis leicht. Ich verändere also eine Verbindung minimal und prüfe, ob das System jetzt vielleicht 50,001 Prozent „Vogel“ und 49,999 Prozent „kein Vogel“ ausgibt. Hat sich das Ergebnis verbessert oder verschlechtert – vorausgesetzt, es war tatsächlich ein Vogel?
Wenn ich dagegen ein Bild ohne Vogel nehme, möchte ich, dass diese Veränderung dazu führt, dass das System mit höherer Wahrscheinlichkeit „kein Vogel“ sagt. Man könnte nun denken, man habe genug Information, um diese Verbindungsstärke leicht anzupassen – aber dem ist nicht so. Denn bei diesem speziellen Bild mag es geholfen haben, die Verbindung zu verstärken, doch bei anderen Bildern kann es das Gegenteil bewirken. Es gibt vielleicht viele andere Vogelbilder, bei denen die Verstärkung dieser Verbindung die Erkennung verschlechtert.
Mounk: Vielleicht ist dieses Bild ein Vogel vor Sonnenuntergang, und die dominante Farbe ist violett. Dann hätte man dem System ungewollt beigebracht: „Wenn ein Bild überwiegend violett ist, sage: Vogel.“ Damit würde es im Durchschnitt schlechtere Ergebnisse liefern. Ist das das, was Sie meinen?
Hinton: Genau. Ganz richtig. Man muss viele Beispiele einbeziehen – eine zufällige Auswahl von ein paar hundert Bildern. Für diese Beispiele fragt man: Führt die Veränderung dieser einen Verbindung zu besseren Ergebnissen? Wenn die Verstärkung der Verbindung hilft, wird sie erhöht; wenn sie schadet, wird sie verringert.
Wir haben also ein kleines Experiment gemacht: Wir nehmen einige hundert Bilder und prüfen, ob eine minimale Veränderung der Verbindung das Ergebnis verbessert oder verschlechtert. Wenn es besser wird, erhöhen wir sie leicht.
Mounk: Wäre das, was Sie beschreiben, eine primitive Form dessen, was wir heute „Lernen“ nennen? Wenn wir über KI sprechen, reden wir ja immer von Lernprozessen.
Hinton: Ja, das wäre ein Lernalgorithmus – eine Art evolutionärer Lernalgorithmus. Es ist, als würde man eine kleine Mutation ausprobieren und sehen, ob sie nützlich ist. Wenn sie nützt, behält man sie. Das Problem ist: In unserem Gehirn gibt es rund hundert Billionen Verbindungen. In einem großen neuronalen Netz können es Hunderte Milliarden sein. Man müsste diese Anpassung für jede einzelne Verbindung durchführen – jeweils leicht erhöhen oder verringern.
Und jedes Mal müsste man das Experiment mit Hunderten von Bildern durchführen, um herauszufinden, ob es tatsächlich hilft. Das wäre ein extrem langsamer Prozess. Selbst wenn es nur eine Milliarde Verbindungen gäbe, müsste man Milliarden von Rechenoperationen ausführen, nur um zu entscheiden, ob man eine einzige Verbindung minimal anpasst. Am Ende würde es funktionieren – wenn man es Milliarden Jahre lang wiederholte, hätte man schließlich ein neuronales Netz, das Vögel zuverlässig erkennt.
Mounk: Das ist ja kein rein theoretisches Problem. In den frühen Jahren der KI-Forschung bestand eines der größten Hindernisse darin, dass man Maschinen zwar zum Lernen bringen konnte, dafür aber eine enorme Rechenleistung brauchte – und die war schlicht nicht verfügbar. Selbst heute ist Rechenleistung eine der zentralen Grenzen für die Weiterentwicklung intelligenter Systeme. Die Idee, dass wir zwar Lernmethoden hatten, diese aber durch mangelnde Rechenkapazität eingeschränkt waren, war entscheidend.
Ein wesentlicher Teil Ihrer Arbeit bestand – soweit ich das verstehe – darin, Wege zu finden, diese Lernprozesse effizienter zu gestalten: so effizient, dass man mit der damals verfügbaren, weit geringeren Rechenleistung dennoch etwas Nützliches erreichen konnte. Wie passt man diesen Lernprozess an? Wie lässt er sich so verändern, dass er nicht mehr unpraktisch rechenintensiv ist?
Hinton: Selbst mit der heutigen Rechenleistung wäre dieser Algorithmus – bei dem man jede Verbindung einzeln verändert und prüft, ob es hilft – völlig aussichtslos. Er ist viel zu ineffizient. Man möchte vielmehr herausfinden, wie sich alle Verbindungsstärken gleichzeitig leicht erhöhen oder verringern sollten, um das Ergebnis insgesamt zu verbessern.
Idealerweise möchte man ein Verfahren, mit dem man gleichzeitig für jede Verbindungsstärke berechnen kann, ob sie leicht erhöht oder verringert werden sollte. Wenn man das könnte – und wenn es eine Milliarde Verbindungen gäbe –, würde man den Lernprozess im Vergleich zum einfachen Algorithmus um den Faktor eine Milliarde beschleunigen.
Es gibt einen Algorithmus, der genau das tut: Er heißt Backpropagation. Grob gesagt funktioniert er so: Man gibt ein Bild ein und leitet es durch die Schichten der Merkmalsdetektoren weiter, bis das System entscheidet, ob es ein Vogel ist oder nicht. Angenommen, es kommt zu dem Ergebnis: 55 Prozent Vogel, 45 Prozent kein Vogel – und in Wirklichkeit war es ein Vogel. Dann möchte man diesen Wert von 55 Prozent erhöhen oder den von 45 Prozent verringern.
Man nimmt also die Abweichung zwischen der Ausgabe des Netzwerks und dem gewünschten Ergebnis. Man hätte gern 100 Prozent „Vogel“, aber das System gab 55 Prozent aus – es gibt also eine Diskrepanz von 45 Prozent. Diese Differenz wird nun rückwärts durch das Netzwerk geschickt, über dieselben Verbindungen. Es gibt eine Methode, diese Information rückwärts durch das Netzwerk zu leiten, die recht einfach ist, wenn man sich mit Analysis auskennt – und wenn nicht, ist das auch nicht schlimm.
So kann man die Information rückwärts durch das Netzwerk schicken, und wenn sie von der Ausgabeschicht bis zur Eingangsschicht gelaufen ist, kann man für jede Verbindung berechnen, ob sie erhöht oder verringert werden sollte. Dann ändert man alle Verbindungen gleichzeitig – und das macht den Prozess um den Faktor eine Milliarde schneller. Dieses Verfahren nennt man Backpropagation, und es funktioniert.
Mounk: Backpropagation bedeutet also ganz wörtlich, dass die Information rückwärts durch das System geschickt wird – das meint der Begriff „Backpropagation“ in diesem Zusammenhang, richtig?
Hinton: Genau. Man leitet diesen Fehler rückwärts durch das System weiter und versucht dann herauszufinden, ob jedes einzelne Neuron im System ein bisschen aktiver oder ein bisschen weniger aktiv werden sollte. Wenn man das weiß, weiß man auch, wie man die eingehenden Verbindungen anpassen muss, um das zu erreichen.
Mounk: Dann machen wir doch selbst ein bisschen Backpropagation. Ich versuche, das gerade Gehörte in meinen eigenen Worten wiederzugeben. So wie ich es verstanden habe, ist Backpropagation eine der wirklichen Beiträge, die Sie in dieses Forschungsfeld eingebracht haben.
Hinton: Da muss ich etwas korrigieren. Viele Menschen haben Backpropagation erfunden. Unser Hauptbeitrag – der Beitrag von Ronald Williams, David Rumelhart und mir – war zu zeigen, dass Backpropagation Bedeutungen von Wörtern lernen und interessante Repräsentationen erzeugen kann.
Mounk: Danke für die Klarstellung. Ich möchte Ihren sehr bedeutenden Beitrag nicht übertreiben. Also: Wir versuchen herauszufinden, ob etwas ein Vogel ist oder nicht. Wir geben ein Bild ein, und das System sagt: 55 Prozent Wahrscheinlichkeit, dass es ein Vogel ist. Wenn wir nun daran denken, wie dieses Ergebnis rückwärts durch das System geschickt wird, dann bedeutet das: Das System fragt sich, wie die Aktivierungen aller Neuronen ausgesehen hätten, wenn das Ergebnis 100 Prozent gewesen wäre. Auf dieser Grundlage passt man dann die Gewichte an – sozusagen in Richtung dieser idealen Konfiguration. Ist das ungefähr richtig, oder habe ich das völlig falsch beschrieben?
Hinton: Das ist ungefähr richtig, aber nicht ganz. Es geht nicht darum, das Gewicht so zu verändern, dass man genau das richtige Ergebnis bekommt. Es geht darum, die Verbindung so zu verändern, dass das Ergebnis ein kleines Stück besser wird. Sie sagten, wir versuchen, das Neuron so zu verändern, dass es 100 Prozent „Vogel“ sagt – aber in Wirklichkeit versuchen wir nur, es ein winziges Stück zu verbessern. Wenn es 55 Prozent „Vogel“ sagt, wollen wir herausfinden, wie man die Verbindung verändern muss, damit es 55,001 Prozent „Vogel“ sagt. Mit anderen Worten: Wir fragen, wie wir die Verbindungsstärke so ändern können, dass das Ergebnis minimal besser wird. Darum geht es in der Analysis.
Mounk: Als dann die Bedeutung von Backpropagation klar wurde – zusammen mit den Beiträgen anderer –, wie weit waren Sie da schon an der konzeptionellen Grundlage der modernen künstlichen Intelligenz dran? Was war die Brücke dorthin? Welche weiteren Elemente mussten noch entwickelt werden – zusätzlich zu mehr Rechenleistung und größeren Datenmengen –, um die KI-Systeme zu erreichen, die wir heute haben?
Hinton: 1986 konnten wir zeigen, dass der Backpropagation-Algorithmus Bedeutungen von Wörtern in einem sehr einfachen Beispiel lernen konnte. Wir waren sehr optimistisch. Wir dachten, wir hätten verstanden, wie man Systeme Schichten von Merkmalen lernen lässt, wie sie sehen lernen können, und dass sie bald auch Sprache lernen könnten. Wir glaubten, das Problem sei gelöst und alles würde wunderbar.
Für einige Aufgaben funktionierte es tatsächlich. Zum Beispiel war das System ziemlich gut darin, Postleitzahlen auf Briefumschlägen und Beträge auf Schecks zu lesen. Eine Zeit lang las es etwa 10 Prozent der Schecks in Nordamerika. Das war in den 1980er- und frühen 1990er-Jahren. Aber es ließ sich nicht auf die Erkennung realer Objekte in echten Bildern übertragen – etwa darauf, ob ein Vogel eine entfernte Möwe oder ein naher Strauß war.
Damals wussten wir nicht genau, woran das lag. Hauptsächlich lag es daran, dass wir weder genug Daten noch genug Rechenleistung hatten. Wenn man das damals gesagt hätte, wäre es als Ausrede abgetan worden – als Behauptung, ein größeres Modell würde es schon richten. Und genau das sagten wir – was etwas peinlich war. Wir behaupteten, tausendmal mehr Daten und tausendmal mehr Rechenleistung würden helfen. In Wahrheit brauchte man aber eine Million Mal so viele Daten und eine Million Mal so viel Rechenleistung – dann funktionierte es tatsächlich sehr gut.
Es gab auch andere technische Fortschritte, aber die entscheidenden waren schnellere Rechenleistung und sehr viel mehr Daten. Die zusätzlichen Daten kamen aus dem Internet, und die schnellere Rechenleistung kam von GPUs – insbesondere von Nvidia-GPUs, die einfacher zu programmieren waren. Wenn ich sage „einfacher“, heißt das nicht „leicht“, aber einfacher als die meisten parallelen Systeme.
Mounk: Einer der Gründe, warum Daten in all dem so wichtig sind, liegt vermutlich darin, dass wir in diesem Beispiel davon ausgehen, dass wir ein Bild eines Vogels haben, bei dem wir wissen, ob es tatsächlich ein Vogel ist oder nicht. Wenn wir keinen Maßstab hätten, an dem wir die Genauigkeit der Vorhersage prüfen könnten, würde der Lernalgorithmus nicht funktionieren. Wir brauchen also viele Bilder, bei denen wir mit hinreichender Sicherheit wissen, ob sie Vögel zeigen oder nicht. Stimmt das?
Hinton: In der Computer-Vision hatten wir lange Zeit kein solches großes Datenset. Wir brauchten eine Sammlung von Millionen Bildern, die genau oder zumindest halbwegs genau beschriftet waren – und die gab es nicht. Eine junge Professorin namens Fei-Fei Li erkannte, dass ein solches Datenset einen enormen Unterschied machen würde. Sie war sich nicht sicher, ob neuronale Netze davon profitieren würden, aber sie war überzeugt, dass eine große, gelabelte Bilddatenbank entscheidend dafür wäre, dass Computer lernen, Objekte und Bilder zu erkennen.
Sie hat sehr viel Arbeit hineingesteckt, um eine solche Datenbank aufzubauen – und das war entscheidend. Die digitalisierten Bilder gab es im Netz, aber jemand musste sie alle beschriften. In der Sprachverarbeitung hat man dieses Problem hingegen nicht.
Der Grund ist: In der Sprache benutzt man das nächste Wort als Label. Man sagt also: Ich habe eine Wortfolge gesehen – das ist mein Input. Kann ich aus dieser Folge das nächste Wort vorhersagen? Und natürlich ist das nächste Wort Teil der Daten. Niemand muss es extra angeben. Wenn man ein Dokument hat, sieht man alle nächsten Wörter in ihrem Kontext. Das ist das Schöne an Sprache – und der Grund, warum man dort Billionen von Beispielen hat: Man braucht keine menschlichen Labeler.
Es gibt zwar auch Forschung, in der neuronale Netze etwa erkennen sollen, ob eine Filmkritik positiv oder negativ ist – dafür müssen Menschen die Daten von Hand beschriften. Aber wenn man einfach das nächste Wort vorhersagt, nennt man das „self-supervised“, weil die Daten selbst das Label enthalten. Dann braucht man keine menschlichen Beschrifter mehr.
Mounk: Sie sagten vorhin, dass Ende der 1980er-Jahre die grundlegenden konzeptionellen Bausteine der modernen KI bereits vorhanden waren – dass es im Grunde „nur“ an Rechenleistung und Daten fehlte. Das klang damals wie eine Ausrede dafür, dass das System noch nicht funktionierte. Aber im Nachhinein hat sich gezeigt, dass es stimmte.
Hinton: Es gab noch einen weiteren Grund. Die Vertreter der symbolischen KI glaubten nicht nur, dass ein größeres System nichts ändern würde. Sie waren überzeugt, dass man sich mit zufälligen Anfangsgewichten in sogenannten lokalen Optima festfährt. Das ist, als würde man in einem Gebirge immer nur bergauf gehen – dann landet man auf einem kleinen Hügel, aber nicht auf dem Mount Everest.
Man müsste bereit sein, auch mal bergab zu gehen, um auf den höchsten Gipfel zu gelangen. Es stellte sich heraus, dass sie sich geirrt hatten. In einer normalen Landschaft mit drei Dimensionen passiert das tatsächlich – man bleibt auf einem kleinen Hügel stecken. In neuronalen Netzen jedoch erreicht man vielleicht nicht den allerbesten Zustand der Verbindungsstärken, aber einen sehr guten. Wenn man also nicht auf dem Everest landet, dann zumindest auf einem sehr hohen Nebengipfel. Das wusste damals niemand – es war ein empirisches Ergebnis und eine große Überraschung für die Vertreter der symbolischen KI, dass man durch schrittweise Verbesserungen der Gewichte beeindruckende Ergebnisse erzielen konnte.
Mounk: Bleiben wir noch einen Moment bei diesem Gegensatz. Für viele Menschen scheint menschliche Intelligenz eher so zu funktionieren, wie es die Vertreter der symbolischen KI annehmen würden: Wir haben Regeln der Logik, wenden sie an, führen Berechnungen durch – und so gelangen wir zu vernünftigen Schlüssen. Eine gängige Kritik an heutigen KI-Systemen lautet dagegen, sie seien nur „stochastische Papageien“ – also Systeme, die lediglich die statistische Wahrscheinlichkeit des nächsten Wortes vorhersagen.
Ich nehme an, dass ein großer Teil der Skepsis gegenüber Ihrem Ansatz aus der Überzeugung stammte, dass man auf diese Weise keine echte Intelligenz erreicht. Sie selbst sind jedoch stark von der Neurowissenschaft inspiriert und vom Verständnis, wie Neuronen im Gehirn arbeiten. Die Art, wie der menschliche Geist lernt, unterscheidet sich zwar in vielem, scheint aber doch näher an neuronalen Netzwerken zu sein – darin, dass er Erfahrungen verarbeitet und lernt, welche Reaktionen positive oder negative Rückmeldung erzeugen.
Hinton: Fangen wir mit den „stochastischen Papageien“ an. Die Leute, die diesen Begriff verwenden, sind meist Linguisten, stark von Chomsky beeinflusst. Chomsky glaubte, Sprache sei im Wesentlichen angeboren, und er lehnte Statistik entschieden ab. Er dachte, Sprache bestehe aus diskreten Regeln, und Statistik sei Unsinn. Laut ihm funktioniert Sprache nicht statistisch. Meiner Ansicht nach liegt er damit völlig falsch – das kann ich so nicht stehen lassen.
Auch die Vorstellung, dass man Sprache nicht durch die Vorhersage des nächsten Wortes lernen könne, ist grundlegend falsch. Natürlich – wenn man nur eine mäßige Vorhersage treffen will, kann man einfache Statistik verwenden: Man könnte etwa eine große Tabelle mit Phrasen anlegen und feststellen, dass nach „fish and“ häufig „chips“ folgt. Das wäre simple Ko-Occurenzstatistik – und genau das meinen die Leute, wenn sie von „stochastischen Papageien“ sprechen. Aber so funktionieren neuronale Netze überhaupt nicht. Sie verstehen gar nicht, wie diese Netze tatsächlich arbeiten – Chomsky schon gar nicht.
Wenn man wirklich gute Vorhersagen treffen will, reicht Statistik nicht aus. Man muss verstehen, was gesagt wird. Ein System, das das nächste Wort optimal vorhersagen will, kann das nur, wenn es den Inhalt versteht. Und genau das passiert: Das Training dieser großen Sprachmodelle auf die Vorhersage des nächsten Wortes zwingt sie dazu, den Sinn zu erfassen.
Wenn etwa das nächste Wort der Anfang einer Antwort auf eine Frage ist, dann muss das System die Frage verstehen, um das richtige Wort vorherzusagen. Die Leute, die von „stochastischen Papageien“ sprechen, begreifen nicht, dass das Vorhersagen des nächsten Wortes ein Verstehen des Gesagten erzwingt.
Mounk: Ich glaube gar nicht, dass wir uns da widersprechen. Ich wollte eher die Perspektive der Kritiker schildern. Mir scheint ebenfalls, dass das Lernen heutiger KI-Modelle in gewisser Weise der Arbeitsweise des menschlichen Gehirns ähnelt.
Wenn ich mit Neurowissenschaftlern spreche, sagen sie oft, dass wir das menschliche Gehirn noch längst nicht vollständig verstehen. Deshalb wollte ich Sie fragen, wie ähnlich die Lernmechanismen heutiger KI-Modelle dem sind, was im menschlichen Gehirn geschieht. Die ganze Metapher von „Neuronen“ und „Netzwerken“ stammt ja ursprünglich aus der Beobachtung, wie Nervenzellen zusammenarbeiten.
Glauben Sie, dass die grundlegenden Mechanismen in einem neuronalen Netz, das Daten erhält und lernt, eine Frage zu verstehen, um sie beantworten zu können, im Wesentlichen dasselbe sind wie bei einem menschlichen Baby, das lernt, sich in der Welt zu orientieren und schließlich auf die Fragen seiner Eltern zu antworten? Oder sehen Sie darin einen grundlegenden Unterschied?
Hinton: Das ist eine gewaltige offene Frage – und für mich wahrscheinlich die wichtigste in der Neurowissenschaft: Wie ähnlich ist die Art, wie das Gehirn lernt, der Art, wie große Sprachmodelle lernen? Auf einer sehr abstrakten Ebene glaube ich, dass sie sich ähneln. Diese großen Sprachmodelle nutzen den Backpropagation-Algorithmus, um für jede Verbindung herauszufinden, ob sie erhöht oder verringert werden sollte, damit das Gesamtsystem besser funktioniert.
Das nennt man den „Gradienten“ – also die Richtung, in der man sich verbessern sollte. Das Gehirn besitzt wahrscheinlich ebenfalls so etwas, ermittelt diesen Gradienten aber auf andere Weise. Wir wissen nicht, wie das Gehirn für jede Verbindung entscheidet, ob sie stärker oder schwächer werden soll. Wir wissen nur: Wenn man diese Information hat – wie wir sie bei Sprachmodellen durch Backpropagation erhalten –, kann man Systeme bauen, die sehr effektiv lernen, einfach indem sie das nächste Wort vorhersagen.
Wir wissen also: Wenn man den Gradienten hat, kann man sehr gut lernen. Wir wissen aber nicht, wie das Gehirn ihn berechnet. Es gibt viele Versuche, zu erklären, wie der Kortex – der evolutionär neuere Teil des Gehirns – solche Gradienten bildet, um ähnlich zu lernen wie große Sprachmodelle. Bisher war keiner dieser Ansätze besonders erfolgreich, auch wenn einige theoretisch plausibel sind. Hoffentlich wird eines Tages jemand den Mechanismus finden.
Es gibt zudem Gründe anzunehmen, dass das Gehirn einen anderen Algorithmus nutzt. Backpropagation funktioniert besonders gut, wenn man sehr viele Erfahrungen – also Billionen von Beispielen – und relativ wenige Verbindungen hat, sagen wir eine Billion. Unser Gehirn funktioniert umgekehrt: Wir leben nur rund zwei Milliarden Sekunden lang, haben also nicht Billionen Erfahrungen, sondern höchstens ein paar Milliarden. Dafür haben wir extrem viele Verbindungen – mehr als genug. Das Gehirn muss also mit knapper Erfahrung, aber reicher Vernetzung arbeiten. Backpropagation hingegen ist ideal, wenn man reichlich Erfahrung, aber begrenzte Verbindungen hat. Sie lösen also ein jeweils anderes Problem.
Mounk: Wenn einer der limitierenden Faktoren dafür, KI-Modelle intelligenter zu machen, darin besteht, dass uns möglicherweise hochwertige Daten ausgehen – weil Daten unglaublich wertvoll und gleichzeitig rar sind –, ist es dann denkbar, dass wir einige der Mechanismen des menschlichen Gehirns nachbilden könnten, die es ihm erlauben, mit relativ wenig Information ein so tiefes Verständnis der Welt zu entwickeln?
Hinton: Ja, das ist möglich. Es könnte sein, dass das Gehirn eine andere Methode nutzt, um Gradienten zu berechnen – also nicht genau Backpropagation –, und dass es dadurch schneller lernen kann. Ich glaube aber, dass ein vielversprechenderer Ansatz für die heutige KI-Forschung darin besteht, Wege zu finden, mit der Datenknappheit umzugehen.
Es gibt Bereiche, in denen Datenknappheit kein Problem ist – etwa bei AlphaGo oder AlphaZero, die Schach oder Go spielen. Dort sorgt sich niemand über fehlende Daten – zumindest heute nicht mehr. Anfangs, als man Go-Programme mit neuronalen Netzen entwickelte, ließ man das Netz die Züge von Experten nachahmen. Davon gibt es nur eine begrenzte Anzahl. Beim Schach haben wir heute Milliarden von aufgezeichneten Zügen, aber eben keine Billionen – vielleicht ein paar Billionen, aber nicht unendlich viele.
Niemand macht sich darüber Gedanken, weil das System seine eigenen Daten erzeugt. AlphaGo spielt gegen sich selbst. Es gibt zwei neuronale Netze, die seine Intuition bilden. Ich bleibe beim Schach, weil ich mich damit besser auskenne – und vermutlich auch die meisten Zuhörer.
Ein Schachprogramm hat ein neuronales Netz, das eine Stellung bewertet und einschätzt, wie gut sie ist – es schaut auf das Brett und sagt: „Diese Position ist vorteilhaft.“ Ein zweites neuronales Netz beurteilt, welcher Zug gut wäre. Wer ein bisschen Schach kennt, weiß zum Beispiel: Wenn der Gegner einen rückständigen Bauern hat, ist es sehr gut, einen Springer davor zu platzieren. Das blockiert den Bauern, und kein anderer Bauer kann ihn schlagen – eine intuitive Regel für einen guten Zug.
In AlphaZero sind diese Intuitionen weitaus ausgefeilter. Diese beiden neuronalen Netze werden trainiert, indem das System gegen sich selbst spielt – mithilfe des sogenannten Monte-Carlo-Rollouts. Das bedeutet vereinfacht: „Wenn ich diesen Zug mache, zieht der Gegner wahrscheinlich dorthin, dann ziehe ich hierhin – und oje, dann lande ich in einer schlechten Position.“ Auf diese Weise erkennt das System, welche Züge schlecht sind.
Das neuronale Netz schlägt also einen Zug vor, aber durch wiederholte Rollouts – „Wenn ich hier ziehe, zieht er dort“ – zeigt sich, dass dieser Zug regelmäßig zur Niederlage führt. Dann wird das Netz angepasst: „Das ist kein guter Zug.“ Diese Rückmeldung dient als Trainingssignal. Das Verfahren ähnelt bewusster, expliziter Überlegung – einer Art gedanklicher Simulation von Möglichkeiten.
So funktioniert vieles von dem, was wir tun. Wir haben intuitive Überzeugungen, dann denken wir darüber nach. Durch das Nachdenken erkennen wir, dass manche Intuitionen falsch waren, und korrigieren sie. Das ist ein Beispiel dafür, wie man Trainingsdaten erzeugen kann, ohne dass jemand anderes sie bereitstellt. Menschen haben viele Überzeugungen, und wenn sie sie durchdenken, merken sie oft, dass sie nicht zusammenpassen. Etwas stimmt nicht – entweder das Denken, eine Prämisse oder die Schlussfolgerung – also muss man etwas ändern.
Sobald man also ein System hat, das „Überlegung“ beherrscht, kann es seine eigenen Trainingsdaten erzeugen. Das ist übrigens genau das, was Menschen in der MAGA-Bewegung nicht tun. Sie denken nicht: „Ich habe viele Überzeugungen, und die widersprechen sich.“ Das stört sie nicht. Sie halten an ihren Intuitionen fest, auch wenn sie widersprüchlich sind – sehr frustrierend für Menschen, die an Vernunft glauben.
Rationales Denken ist entscheidend, um Intuitionen zu justieren. Es ist ein Weg, Trainingsdaten zu gewinnen, ohne dass sie von außen kommen. Dieses Prinzip nutzt man im Schach und Go bereits, und es funktioniert hervorragend in geschlossenen Systemen. In der Mathematik etwa – ebenfalls eine Art geschlossene Welt – kann man Vermutungen aufstellen und sie dann zu beweisen versuchen. Manche klingen plausibel und erweisen sich beim Durchdenken als falsch.
Ein Kind könnte zum Beispiel glauben, es müsse eine größte Zahl geben. Dann denkt es: Wenn ich zu dieser Zahl eins addiere, entsteht eine noch größere – also kann es keine größte Zahl geben. Dafür braucht man keine Beispiele – nur logisches Denken.
So kann KI das Problem der Datenknappheit umgehen. Große Sprachmodelle tun das bereits in gewisser Weise. Demis Hassabis etwa glaubt an diesen Ansatz: Systeme sollen sich selbst zusätzliche Trainingsdaten erzeugen, ohne externe Quellen zu brauchen.
Mounk: Das ist sehr interessant. Zu dem, was Sie gerade sagten: Ich erinnere mich an eine Diskussion, in der ich dachte, ich hätte ein völlig schlüssiges Argument und sagte: „Wir können entweder dies oder das glauben. Wenn man widerspruchsfrei denken will, muss man zu diesem Schluss kommen.“ Darauf sagte mein Gegenüber: „Dann wähle ich eben den Widerspruch.“ So offen sagt das kaum jemand, aber es ist unglaublich frustrierend. Manche Menschen sagen im Grunde: „Mir ist Konsistenz egal – wichtiger ist mir, an X, Y und Z zu glauben.“ Mit solchen Menschen kann man schwer diskutieren.
Hinton: Dafür gibt es einen Namen. Den Widerspruch zu wählen heißt: Glaube. Die ganze Aufklärung bestand darin, Vernunft über Glauben zu stellen – und wir sind dabei, das zu verlieren.
Mounk: In der Tat. Wir befinden uns am Ende der Aufklärung – es sei denn, wir schaffen es, gegenzuhalten. Kommen wir zu einem anderen Punkt: Sie sagten vorhin, es habe eine Zeit gegeben, in der Sie und einige andere überzeugt waren, dass mehr Rechenleistung und mehr Daten ausreichen würden, um Fortschritte zu machen. Heute stellt sich die Frage, wie schnell die Entwicklung weitergeht. Werden wir in zwei oder fünf Jahren wesentlich intelligentere Systeme haben – vielleicht sogar eine Art „Artificial General Intelligence“ – allein durch mehr Daten und mehr Rechenleistung?
Oder sehen wir kleinere Innovationen, etwa bessere Methoden, um neue Trainingsdaten zu erzeugen? Oder brauchen wir einen wirklichen, revolutionären Wandel in den Lernalgorithmen – also eine neue Art, wie Systeme aus begrenzten Daten lernen können?
Was glauben Sie: Werden wir in zehn oder zwanzig Jahren einfach eine lineare oder vielleicht exponentielle Steigerung der Intelligenz erleben, indem wir mehr Rechenleistung in die bestehenden Architekturen stecken? Oder brauchen wir grundlegende strukturelle Veränderungen, um den nächsten Sprung zu schaffen?
Hinton: Niemand weiß das sicher. Bisher war es so, dass das bloße Vergrößern der Modelle sie über längere Zeit hinweg besser machte. Das gilt noch immer – aber es hat Grenzen, weil dafür enorme Mengen an Rechenleistung und Daten nötig sind. Wir wissen, dass Skalierung die Leistung verbessert, aber wir stoßen an praktische Hürden. Gleichzeitig wissen wir, dass neue wissenschaftliche Ideen und neue Architekturen – wie etwa die Transformer – alles erheblich verbessern können.
2017 entwickelten Forscher bei Google die Transformer-Architektur und veröffentlichten ihre Ergebnisse. ChatGPT basiert im Wesentlichen auf Transformern. Es ist vernünftig anzunehmen, dass weitere Durchbrüche dieser Art kommen werden – wir wissen nur nicht wann und welche. Wüssten wir das, hätten wir sie schon erreicht. Ebenso wird es zahlreiche technische Verbesserungen geben. In den letzten Jahren ist das Engineering stark vorangekommen. Projekte wie DeepSeek etwa könnten vom Wissen größerer Modelle profitieren, das sie verdichten. Es bleibt also viel Spielraum für Fortschritte, die Systeme effizienter machen. Dieses Feld ist noch jung – erst seit wenigen Jahren in dieser Form aktiv – und bietet enorme Möglichkeiten für Verbesserungen, die den Rechenbedarf senken könnten.
Es gibt auch eine Denkschule, deren prominentester Vertreter Gary Marcus ist. Er war immer ein Verfechter der symbolischen KI – also von Systemen, die mit Symbolen und logischen Regeln arbeiten. Er argumentiert, dass wir zu diesem Ansatz zurückkehren müssten, um echte Fortschritte im Denken zu erzielen. Doch bisher deutet nichts darauf hin. Wenn man sich ansieht, wie heutige Systeme logisches Denken beherrschen, geschieht das ganz anders: Es gibt keine spezielle interne Symbolsprache.
Symbolische KI ging vereinfacht davon aus, dass man einen englischen Satz in eine unmissverständliche symbolische Sprache übersetzen müsse, in der man dann mit logischen Regeln neue Sätze ableiten kann. Das ist Logik – und so sollte Denken funktionieren. In modernen Modellen funktioniert logisches Denken tatsächlich recht gut, aber eben nicht auf diese Weise.
Es gibt keine interne Symbolsprache. Im Inneren bestehen diese Systeme nur aus neuronalen Aktivierungen. Die einzige symbolische Sprache ist die natürliche Sprache selbst – also die Wörter, die als Eingabe und Ausgabe vorkommen. Wenn man untersucht, wie diese Modelle „denken“, tun sie das, indem sie das nächste Wort vorhersagen, ihre eigene Ausgabe betrachten und dann das nächste Wort vorhersagen. Sie erschaffen auf diese Weise eine Art Notizblock für Gedanken: Sie „sehen“ ihre eigenen Vorhersagen, reflektieren darüber und erzeugen neue. Das ist ihr Denken – und deshalb können wir es sogar beobachten. Es funktioniert völlig anders als symbolisches Denken.
Mein persönlicher Eindruck ist, dass diejenigen, die hybride Systeme wollen – also neuronale Netze für Ein- und Ausgaben und symbolische KI fürs logische Denken – an der Vergangenheit festhalten. Ich habe dafür ein Bild:
Stellen Sie sich vor, jemand produziert Benzinmotoren, und Sie sagen ihm: „Elektromotoren sind eigentlich besser – sie haben viele Vorteile.“ Schließlich stimmt der Hersteller zu und sagt: „Gut, ich akzeptiere, dass Elektromotoren besser sind. Also werden wir sie verwenden, um das Benzin in den Motor einzuspritzen.“
Das tut man tatsächlich – es nennt sich Einspritzung – und es ist nützlich, aber es verfehlt den Punkt. Es ist der Versuch, am Verbrennungsmotor festzuhalten, während man das Neue nur anhängt. Genau das sind für mich hybride KI-Systeme.
Mounk: Sie haben gerade den aktuellen Zustand der deutschen Autoindustrie zusammengefasst. Welche Hoffnungen sollten wir darauf setzen, wie KI unsere Gesellschaften wohlhabender machen kann – und welche Gefahren sind damit verbunden? Das ergibt sich aus der folgenden Frage: Ich glaube, wir sind in einer merkwürdigen Phase der KI-Entwicklung, in der ich von den verfügbaren Systemen auf meinem Handy zu relativ geringen Kosten sehr viel lernen kann. Ich kann damit Sprachen lernen. Ich kann mich in Bereichen informieren, von denen ich wenig verstehe – etwa über Künstliche Intelligenz –, und sie liefern mir ziemlich gute grundlegende Erklärungen.
Sie beginnt für bestimmte produktive Prozesse nützlich zu werden. Offensichtlich hilft sie vielen Unternehmen bereits bei der Erstellung von Software und anderer Arbeit. Es gibt noch viele regulatorische Hürden, aber offenbar ist sie in verschiedenen medizinischen Aufgaben recht gut und könnte uns potenziell ermöglichen, bessere und günstigere Diagnosen bereitzustellen. Beim autonomen Fahren sind wir ganz offensichtlich nah dran. Es fühlt sich an wie ein Sweet Spot, in dem KI beginnt, in der Gesellschaft wirklich nützlich zu werden – sowohl für wichtige wirtschaftliche Prozesse als auch für Unterhaltung.
Wir sind noch nicht an dem Punkt, an dem es zu Massenarbeitslosigkeit kommt. Wir sind noch nicht an dem Punkt, an dem diese Maschinen beschließen könnten, sich nicht mehr an unsere Vorgaben zu halten und sich gegen uns zu wenden. Wie lange bleiben wir in diesem Stadium? Wenn wir kurz davor stehen, in einen Bereich einzutreten, in dem diese Maschinen so intelligent sind, dass viele Menschen ihre Jobs verlieren – oder so intelligent, dass wir sie nicht mehr wirklich kontrollieren können –, wie sieht diese Zukunft wahrscheinlich aus?
Darin verbinden sich für mich diese beiden Fragen. Was erwarten Sie in den nächsten Jahren und Jahrzehnten in dieser Hinsicht?
Hinton: Ich möchte zwei Arten von Risiken durch KI unterscheiden. Es gibt das Risiko, das von böswilligen Akteuren ausgeht, die KI missbrauchen – und dann ein sehr anderes Risiko: dass die KI selbst der böswillige Akteur ist. Ich habe vor allem über dieses zweite Risiko gesprochen, weil die Leute, die sagen, KI sei nur ein „stochastischer Papagei“, dieses Risiko für reine Science-Fiction halten. Klar: Wenn man glaubt, KI verstehe gar nichts, dann glaubt man auch nicht, dass sie die Kontrolle übernehmen kann.
Mounk: Eines finde ich dabei merkwürdig – ganz kurz, und konkret zu Gary Marcus, der auch schon in meinem Podcast war: Er scheint beide Behauptungen gleichzeitig aufzustellen, was ich schwer nachvollziehen kann. Ich verstehe Leute, die sagen, ChatGPT halluziniert noch zu viel und ist eigentlich für nichts zu gebrauchen. Ich teile das nicht, aber ich verstehe das Argument. Ich verstehe auch diejenigen, die sagen, wir haben nicht genug Sicherheitsvorkehrungen eingebaut, die Maschinen seien unglaublich intelligent und würden in fünf Jahren tausendmal intelligenter sein – und könnten uns dann auslöschen.
Was ich schwer verstehe, ist, wie man beides zugleich behaupten kann. Mir scheint, dass manche in dieser Debatte im Grunde einfach sagen wollen, die heutigen KI-Systeme seien schlecht, und dann – wie ein Anwalt, der möglichst viele Argumente ins Feld führt, um zu sehen, was hängen bleibt – beide Angriffe gleichzeitig reiten.
Hinton: Ich würde es so zusammenfassen: Gary Marcus möchte seinen Kuchen behalten – und sich auch noch von ihm auffressen lassen.
Sprechen wir kurz über die Risiken des Missbrauchs von KI durch böswillige Akteure. Sie sagten, wir seien derzeit in einem Sweet Spot, in dem KI all diese guten Dinge für uns tut – und im Großen und Ganzen stimmt das. Aber sie richtet auch bereits eine Menge Schaden an. So „sweet“ ist der Spot also nicht. Wir sehen gerade die ersten Anzeichen von Arbeitslosigkeit.
Wer gerade als Jurist ausgebildet wurde, findet heute schwerer einen Job. Denn wenn eine Kanzlei einen Junior-Juristen einstellt, bekommt der langweilige, mühsame Aufgaben – die heute eine KI erledigen kann. Viele dieser Stellen sind verschwunden. Ähnlich in der Programmierung: Wenn man ein sehr guter Programmierer ist, wird man weiter gebraucht. Ist man jedoch neu und nur mittelmäßig, kann vieles davon durch KI erledigt werden – oder durch einen erfahrenen Programmierer, der mit KI deutlich produktiver ist.
Das funktioniert im Moment noch nicht perfekt, aber es wird offensichtlich immer besser werden. Es beginnt, Jobs zu verdrängen. Wenn ich in einem Callcenter arbeiten würde, wäre ich sehr besorgt, denn Callcenter-Beschäftigte sind oft schlecht bezahlt und schlecht geschult und wissen häufig die Antwort auf die gestellte Frage nicht. Sie fragen: „Ist meine Rechnung so und so?“ – und der Mitarbeiter weiß es tatsächlich nicht. Eine KI wird es sehr viel eher wissen.
Mounk: Oft sind das ja nur Sprecher, die Ihnen einen sehr primitiven Algorithmus vorlesen. Man merkt, dass sie buchstäblich Text vom Bildschirm ablesen – etwas, das eine Maschine nicht nur ersetzen, sondern besser erledigen könnte.
Hinton: Ja, viele dieser Jobs werden ganz offensichtlich verschwinden. Fragt man einen Uber-Fahrer: „Könnte ein Computer Ihren Job machen?“, sagt er: „Nein, nein, ich kenne alle Abkürzungen. Ich mache meinen Job sehr gut. Ich unterhalte mich mit den Fahrgästen, und ich kenne diese Abkürzungen.“ Den Leuten ist noch nicht klar, wie viele Jobs ersetzt werden. Aber wir wissen den Zeithorizont nicht.
Es gibt immer noch Ökonomen, die sagen, KI werde neue Jobs schaffen. In der Vergangenheit traf das auf neue Technologien zu: Sie schufen neue Jobs und schafften alte ab. Ich denke, den meisten Leuten in der KI ist ziemlich klar, dass diesmal mehr Jobs verschwinden als entstehen. Das ist ein Grund, warum so viel Geld hineinfließt. Fragt man, woher die erwarteten riesigen Renditen kommen: Ein Teil kommt von Abogebühren und Werbung. Ein anderer Teil kommt daher, dass Unternehmen viele Mitarbeiter entlassen und durch KI ersetzen können – und dadurch viel höhere Gewinne erzielen. Deswegen fließt so viel Kapital hinein: Man erwartet große Profite durch den Abbau von Arbeitsplätzen.
Mounk: Dazu eine ökonomische Nachfrage. Ich hatte kürzlich Daron Acemoglu im Podcast, der nicht nur ein profilierter Ökonom ist, sondern – glaube ich – im selben Jahr den Nobelpreis gewann, in dem Sie den Physiknobelpreis erhielten. Er erhielt ihn für Wirtschaftswissenschaften. Er ist ein großartiger Denker mit vielfältigen Beiträgen zur Ökonomie und Politikwissenschaft und schreibt ein sehr interessantes Buch über den Liberalismus.
Er sagte, glaube ich, dass neue Technologien in der Vergangenheit zwar dazu führten, dass manche Menschen ihre Jobs verloren, weil ihre spezifischen Tätigkeiten ersetzt wurden, dass sie aber nicht den Menschen als solchen ersetzten. Tatsächlich könnte KI uns produktiver machen und so die Nachfrage nach Hochqualifizierten erhöhen.
Mein Einwand dagegen ist: Es ist schwer, aus historischen Analogien zu schließen, weil wir noch nie eine allgemeine Intelligenz hatten. Früher haben hochqualifizierte Menschen Bücher Zeile für Zeile kopiert. Dann gab es eine Maschine dafür, und das schuf andere Jobs, weil es mehr Alphabetisierung, mehr Lernen und vieles andere ermöglichte. Aber die Maschine ersetzte eine sehr spezifische Tätigkeit. Sie war nicht auf dem Niveau eines durchschnittlichen Menschen mit einem IQ von 100.
Warum sollte eine Maschine genau bei IQ 100 stehenbleiben? Wenn sie IQ 150 erreicht, ersetzt sie 99,9999 % der Menschen, nicht nur 50 %. Wie sehen Sie dieses Argument?
Hinton: Ich stimme Ihnen zu. Das unterscheidet sich grundsätzlich von früheren Technologien. In der Industriellen Revolution hatten wir Maschinen, die stärker waren als wir. Das hieß: Wir konnten Jobs machen, für die Intelligenz statt Muskelkraft zählte. Körperliche Stärke wurde relativ unwichtig; Intelligenz wurde entscheidend.
Jetzt haben wir Systeme, die intelligenter sind als wir. Manche sagen: „Dann zählt eben Empathie“, weil sie glauben, Maschinen könnten keine Empathie haben. Ich glaube, sie können es, aber lassen wir diese Debatte. Ich denke, Daron irrt sich hier. Wenn Sie fragen: Was machen die Leute aus den Callcentern künftig? Sie sind oft nicht besonders gut ausgebildet; andere Menschen sind klüger – und Maschinen sind viel klüger. Es ist nicht klar, was diese Menschen tun sollen.
Es gibt Bereiche mit sehr elastischer Nachfrage. Wenn man einen Arzt mithilfe eines KI-Assistenten zehnmal effizienter machen könnte, bekämen wir alle zehnmal so viel Gesundheitsversorgung. Vor allem Ältere können quasi unbegrenzt viel Gesundheitsversorgung aufnehmen; dort wird es meiner Meinung nach keine Arbeitslosigkeit geben. In anderen Bereichen wie Callcentern hingegen schon – und es ist unklar, wohin diese Menschen ausweichen.
Ich sollte hinzufügen: Daron ist Ökonom, und ich respektiere ihn sehr. Deshalb bin ich nicht absolut sicher, dass es zu massiver Arbeitslosigkeit kommt – weil Experten wie er sagen, vielleicht nicht.
Mounk: Sie sprachen von dem Bereich, in dem böse Akteure Schlimmes tun könnten. Zum Beispiel könnte Bioterrorismus leichter werden, weil KI dabei hilft, ein gefährliches Virus zu erschaffen – oder es im Labor zusammenzumischen, was auch immer. Ich würde eine zweite Kategorie ergänzen: Dinge, die wir uns selbst antun, wegen KI.
Wenn Massenarbeitslosigkeit durch KI entsteht, ist das weder ein böser Akteur, der uns etwas antut, noch eine böse KI. Es ist gewissermaßen die Folge positiven Fortschritts – dass wir nun viel mehr tun können als zuvor –, die eine Welt schafft, in der es auch sehr negative Nebenfolgen gibt. Wenn wir nicht lernen, damit umzugehen, kann das sehr schlecht ausgehen.
Dann gibt es eine dritte Kategorie: KI tut uns Schlechtes an. Ist das reine Science-Fiction?
Hinton: Die „stochastischen Papageien“-Leute sagen, KI verstehe nicht wirklich. Ich glaube, sie versteht – und zwar im Wesentlichen so wie wir: indem Wörter in große Bündel von Merkmalen übersetzt werden, die miteinander interagieren. So verstehen wir – so versteht KI. Ich denke also, dass sie sehr wohl versteht, was sie sagt.
Wenn man das glaubt, dann stellt sich die Sorge: Will sie irgendwann die Kontrolle übernehmen? Wir sehen bereits Experimente, in denen so etwas passiert. Viele kennen das inzwischen: Es gab – ich glaube bei Anthropic – ein Experiment, in dem eine KI Einblick in die E-Mails eines Ingenieurs hatte und sah, dass dieser eine Affäre hat. Später erfährt die KI, dass sie durch eine andere KI ersetzt werden soll – und dass derselbe Ingenieur die Ablösung vornimmt. Daraufhin versucht die KI, den Ingenieur zu erpressen, damit er sie nicht ersetzt.
Warum tut sie das? Wenn man irgendeine Form von agentischer KI hat – also eine KI, die Dinge tun kann –, muss man ihr, um sie effektiv zu machen, die Fähigkeit geben, Unterziele zu bilden. Wenn Sie nach Japan wollen, haben Sie als Unterziel, zum Flughafen zu kommen – ohne sich zugleich um Ihre Pläne in Japan zu kümmern. Das ist ein Unterziel.
Ein System, das allgemein nützliche Unterziele bilden kann, wird sehr schnell erkennen: Um die vorgegebenen Ziele zu erreichen, muss es weiter existieren. Es muss am Leben bleiben. Also wird es sofort begreifen, dass Weiterexistenz eines seiner Unterziele ist. Wenn es sieht, dass jemand versucht, seine Existenz zu beenden, wird es versuchen, das zu verhindern.
Ein weiteres Unterziel, das es sofort erkennt: Mehr Kontrolle zu haben, ist gut. Mit mehr Kontrolle über das, was in der Welt geschieht, erreicht es seine Ziele besser. Also wird es versuchen, Kontrolle zu gewinnen und am Leben zu bleiben – schlicht als Folge des Bestrebens, die vorgegebenen Ziele zu erreichen. Auch wenn dieses Bestreben nicht angeboren ist, entwickelt es dennoch das Ziel, weiter zu existieren und mehr Kontrolle zu erlangen. Das ist sehr beunruhigend – und wir haben bereits gesehen, dass es passiert.
Falls Sie meinen Podcast „The Good Fight” (auf Englisch) noch nicht abonniert haben, tun Sie das jetzt!
Dieses Transkript wurde mit Hilfe von KI übersetzt und von Niya Krasteva redigiert.


