Was GPT-4 wirklich besser macht - und was das für die Zukunft von ChatGPT bedeutet

Mit dem ChatGPT-Nachfolger GPT-4 macht OpenAI aktuell wieder von sich reden. Kollege Jan Stahnke hat sich bereits angeguckt, wie das Modell genau zu benutzen ist. Wir schauen für euch hier noch ein bisschen mehr hinter die Kulissen.

Im Folgenden wollen wir euch erklären, was denn nun an technischer Innovation hinter GPT-4 steckt. Wir haben uns dafür den eher kryptisch gehaltenen »Technical Report« ganz genau angesehen und erklären euch, was OpenAI auf 98 Seiten über GPT-4 verrät.

Wie funktioniert GPT-4?

Grundsätzlich funktioniert GPT-4 genauso wie ChatGPT. Es lernt, Text vorherzusagen, ähnlich wie die Vorschlagsfunktion eurer Handytastatur.

Dabei geht es natürlich um einiges cleverer vor und verwendet ein neuronales Netz - ein grob an Synapsen im menschlichen Gehirn angelehntes Gewirr aus Zahlen, die für eine Aufgabe »trainiert« werden.

Dem Netz wird anhand von Milliarden Textbausteinen beigebracht, möglichst genau das nächste Wort in einem Satz vorherzusagen. Kleines Beispiel: Auf »Skyrim erschien im Jahr« folgt vermutlich »2011«.

Um es zu einem smarten Assistenten und nicht nur einer besseren Tipphilfe zu machen, wurde das Netz dann auf Nutzerfragen und Antworten fein abgestimmt - dabei lernt es in verhältnismäßig kurzer Zeit, sein erworbenes Wissen über Wortketten einzusetzen, um Fragen möglichst gut zu beantworten.

Die Zukunft ist mehr als nur Text

Neu bei GPT-4 ist die sogenannte Multimodalität: GPT-4 kann zusätzlich zum Text auch Bilder verarbeiten!

Was erstmal unspektakulär klingt, erlaubt ganz neue Anwendungen. So zeigt das offizielle Video von OpenAI eine grob vorgekritzelte Website und die Anweisung, daraus doch bitte Code zu generieren, worauf hin GPT-4 fleißig lauffähigen Code produziert.

Ebenso lassen sich damit etwa Memes erklären oder Ratespiele lösen.

GPT-4 kann etwa auch Humor in Bildern erkennen, und beschreibt etwa, dass dieses Bild witzig ist, weil es absurd anmutet, einen klobigen, alten VGA Anschluss an ein modernes Smartphone anzuschließen. Bildquelle: https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/

OpenAI hält sich dazu mit Details bedeckt. Vermutlich steckt dahinter aber ein neuronales Netz, das gelernt hat, Bilder zusammenzufassen.

Denkbar wäre etwa, dass für das Training von GPT-4 Bilder mit Beschreibungstexten verwendet wurden. Diese Beschreibungen hat GPT-4 dann anhand des Bildes zu vervollständigen gelernt.

In der Praxis hätte das etwas so aussehen können: GPT-4 lernt, dass im Beschreibungstext auf ein Bild einer das Wort Pyramide folgt, wenn eine solche im Bild erkannt wird.

Better Call GPT-4: KI als Anwalt, Psychologe und Weinkenner

Im Ergebnis kann sich das durchaus sehen lassen. OpenAI hat besonderes Augenmerk auf verschiedene Tests gelegt, von Psychologie bis Mathematik. In diesen schlägt sich GPT-4 im Vergleich zur ChatGPT-Basis deutlich besser.

Bei der »bar examination«, einem Test für die Anwaltszulassung in den USA, landet GPT-4 nicht mehr unter den schlechtesten 10 Prozent der Teilnehmer, sondern unter den besten 10 Prozent. Die KI wäre, zumindest laut diesem Test, also ein guter Anwalt.

Ergebnisse von GPT-4 in verschiedenen Tests, etwa dem Bar Exam oder für College-Zulassungen. Quelle: OpenAI

Einige der besseren Testergebnisse im Vergleich zum Vorgänger lassen sich dadurch erklären, dass GPT-4 jetzt auch Bilder versteht, die zu den gestellten Aufgaben gehören. Aber auch ohne Bilder ist GPT-4 besser als der Vorgänger.

Das wird offensichtlich, wenn man die Bilder durch Textbeschreibungen ersetzt. Dabei lassen sich die Ergebnisse zwar verbessern, sie bleiben aber dennoch weit hinter einem natürlichen Zusammenspiel von Text und Bild zurück.

Bilder und Text gemeinsam zu betrachten, und Ersteres nicht erst mühsam in Sprache zu übersetzen, funktioniert am besten. Ein starkes Argument, dass auch künstliche Intelligenz besser lernt, wenn sie die Welt selbst versteht, statt vorgekaute Infohäppchen zu bekommen.

Größer, besser, stärker?

Bei Tieren ist ein großes Gehirn im Verhältnis zum restlichen Körper ein starkes Indiz für mehr Intelligenz. Ähnlich verhält es sich offenbar auch mit GPT-4.

Mit mehr Parametern, also mehr künstlichen Verbindungen zwischen den Neuronen von GPT-4, wächst auch die Leistung des neuronalen Netzes. Allerdings nur in Bezug auf die Fähigkeit, das nächste Wortfragment richtig zu erraten.

Das ist zwar ein wichtiges Indiz für die Fähigkeit, einen Text zu verstehen. Ein nur halb so großer Fehler muss natürlich nicht automatisch doppelt so intelligent bedeuten.

Dennoch zeigen die Experimente mit verschiedenen großen GPT-4-Varianten, dass mehr tatsächlich besser ist:

Mehr Neuronen im Netz sorgen ziemlich genau für die erwarteten Leistungsgewinne. Quelle: OpenAI

Zu der genauen Anzahl von Parametern ist nichts bekannt. ChatGPT benutzt allerdings schon etwa 175 Milliarden Parameter. Bei normalen 16-bit Gleitkommazahlen belegt dort ein Modell schon mehrere hundert Gigabyte Speicher.

Ein einzelnes Wortfragment vorherzusagen, in dem man einen Satz durch das neuronale Netz schickt, wird so unfassbar aufwändig. Und GPT-4 wird sich wohl kaum mit weniger Parametern zufriedengeben als sein Vorgänger.

Mit immer besserer Hardware könnten so auch mehr Parameter möglich werden. Selbst ohne weitere Optimierungen können die nächsten Versionen von GPT so stärker werden.

Die Schattenseiten und der problematische Umgang damit

Auch wenn GPT-4 gegenüber ChatGPT einige Fortschritte im Bereich Sicherheit und Fakten gemacht hat, kommen Falschinformationen immer noch vor.

So hat GPT-4 etwa in unseren Tests etwa steif und fest behauptet, Reinhold Messner hätte seine Finger bei einer Bergbesteigung im Himalaya verloren - und nicht, wie jeder weiß, einige seiner Zehen.

Ein wirksamer »Faktencheck« fehlt also ebenso wie eine Möglichkeit für GPT-4, auf aktuelle Inhalte zuzugreifen, obwohl dies in anderen Publikationen bereits erfolgreich demonstriert wird. Ebenso kann GPT-4 nichts wirklich außerhalb eines Gesprächsverlaufs dazu lernen.

Der problematische Umgang: OpenAIs Produkte werden mit zunehmender Marktreife immer geheimniskrämerischer werden.

Wo in früheren Veröffentlichungen noch genaue mathematische Beschreibungen, »Rezepte« für das Training und Strategien beschrieben wurden, lesen sich die 98 Seiten zu GPT-4 eher wie eine Mischung aus Werbung und Selbstbeweihräucherung.

Das liegt offenbar nicht zuletzt am Geld, das OpenAI etwa durch das 10 Milliarden Dollar Investment von Microsoft gewittert hat. Und genau hier schlägt die fehlende Transparenz dann doppelt zu Buche: Ohne zu wissen, wie GPT-4 genau funktioniert, können Dinge wie schwankender Wahrheitsgehalt schlechter eingeordnet werden.

Dem »Open« im Namen wird OpenAI damit unserer Meinung nach jedenfalls nicht mehr gerecht.

Ausblick

Bei aller Kritik an fehlender wissenschaftlicher Transparenz gibt es aber auch einiges Gutes an der Zukunft von GPT-4.

So arbeitet OpenAI jetzt mit der Bildungsorganisation Khan Academy zusammen und entwickelt einen interaktiven Lehrer. Ebenso sollen die enormen Kapazitäten von GPT-4 bald genutzt werden, um Blinden zu assistieren.

GPT bald als Lehrer bei der Khan Academy. Quelle: https://openai.com/customer-stories/khan-academy

Genau diese Anwendungen sind das eigentlich Spannende an GPT-4: Eine neue Art von Benutzereingaben verstehen zu können, schafft völlig neue Möglichkeiten.

Und auch wenn GPT-4 dabei vorerst »nur« mit Bildern arbeiten kann, zeigt es doch, dass sich Schritte in diese Richtung lohnen, damit die künstliche Intelligenz mehr von unserer Welt versteht.

Warum ihr bei allen Möglichkeiten, die euch GPT-4 bietet, ihr eure Hausaufgaben trotzdem noch selber schreiben solltet, verraten wir euch hier - das gleiche Prinzip wie für ChatGPT gilt nämlich auch für GPT-4:


	1	Call of Duty in unter einer Sekunde herunterladen: Neuer Weltrekord bei Internetgeschwindigkeit ist über 400.000-mal schneller als 1.000 Mbit/s
	2	»Erkläre dich!« - Steam-User hat eigentlich eine Frage zu Assassin's Creed, aber alle reden nur über seine runtergeladenen Spiele
	3	Jurassic Park: Wenn ihr bei 43 Minuten und 12 Sekunden anhaltet und den PC-Bildschirm anschaut, seht ihr einen versteckten Hinweis auf Spielberg
	4	The Boys: Die überraschenden Superkräfte einer Schlüsselfigur haben eine erschütternde Bedeutung
	5	30 Prozent mehr Leistung in Spielen: Nvidias Vorsprung gegenüber AMD könnte mit der RTX-5000-Reihe noch größer werden
	mehr anzeigen