Was tut sich bei KI? Forscher erklärt, warum ihr euch auf kreativere NPCs, Konkurrenz für ChatGPT und Hotdog-Tomaten freuen dürft

Was hat sich in den letzten Wochen bei Künstlicher Intelligenz getan? Unser Experte aus der Forschung fasst es für euch zusammen. Mit dabei: KI-NPCs, Samsungs Galaxy AI und ein kurioses Hähnchen.

Nach der winzigen Weihnachtspause im Dezember bringt der Januar noch mehr Neues, vor allem rund um Sprachmodelle. (Quelle: stock.adobe.com - Narumol) Nach der winzigen Weihnachtspause im Dezember bringt der Januar noch mehr Neues, vor allem rund um Sprachmodelle. (Quelle: stock.adobe.com - Narumol)

In der Welt der künstlichen Intelligenz explodieren die Fortschritte. Ich komme kaum mit dem Lesen von Veröffentlichungen hinterher, es gibt Kurioses, Praktisches und Faszinierendes im Übermaß.

Deshalb biete ich euch wieder einen kleinen Überblick und versuche, einen Mix aus den wichtigsten, skurrilsten und interessantesten Neuerungen im Bereich der KI zu zeigen.

Sprachmodelle als NPCs

Was ist passiert: Im vergangenen April berichteten wir schon einmal über ein virtuelles Dorf, das mit einem Sprachmodell simuliert wurde. Ähnlich dazu gibt es jetzt eine Herangehensweise, die Sprachmodelle in Open-World-Spiele bringt. 

Dabei trifft ein ChatGPT-ähnliches Sprachmodell die Entscheidungen eines NPCs. Mit einbezogen werden dazu eine Reihe von Umgebungsinformationen, etwa wo der NPC sich befindet und ob er eher mutig oder ängstlich ist. Das neuronale Netz im Hintergrund trifft darauf basierend eine Entscheidung, die das Sprachmodell dann beschreibt.

Übersicht über die Bestandteile des KI-NPCs. (Quelle: Ming Yan et al. in »LARP: Language-Agent Role Play for Open-World Games«) Übersicht über die Bestandteile des KI-NPCs. (Quelle: Ming Yan et al. in »LARP: Language-Agent Role Play for Open-World Games«)

Warum ist das wichtig? Habt ihr schonmal in Skyrim von der fünften Wache in Folge gesagt bekommen, dass ein Pfeil in seinem Knie die Abenteurer Karriere beendet hat? Genau so etwas lässt sich damit zukünftig vermeiden, wodurch die Spielwelten lebendiger wirken. 

Außerdem nimmt es Gamedesignern ein Stück ihrer Arbeit ab, da nicht hunderte von möglichen Interaktionen geplant werden müssen, die der Spieler am Ende womöglich nie zu Gesicht bekommt. Stattdessen übernimmt einfach ein Sprachmodell die Interaktionen. Entwickler müssen dann nur aufpassen, dass die Sprachmodelle keinen Unfug treiben.

Letztlich zeigt dieser Beitrag erneut, dass Sprachmodelle sehr allgemeine Fähigkeiten an den Tag legen, die sich für alles Mögliche nutzen lassen, von Übersetzungen und Weihnachtskarten bis zu besseren NPCs in Videospielen. Sofern die Entwickler aufpassen, dass die Sprachmodelle nicht allerlei Unfug treiben.

Tim Elsner

Nachdem Videospiele spielen zunächst kein vernünftiger Job zu sein schien, entschied sich Tim für ein Studium in Informatik. Natürlich nur, um später selbst Spiele entwickeln zu können. Nach ein paar falschen Abzweigungen im Studium ist er schließlich bei einer Doktorandenstelle in der künstlichen Intelligenz und Computergrafik gelandet und freut sich darüber, wenn er 3D-Rekonstruktionen von GTA 5 in seine Forschungsarbeiten einbauen kann. Als ihm Teile seines Umfelds Sprechverbot über künstliche Intelligenz erteilten, musste er sich ein anderes Ventil suchen, um Leute mit seiner Begeisterung für das Thema zu quälen - deshalb schreibt er jetzt darüber Artikel.

Samsung stellt neue Smartphones vor - und setzt dabei voll auf KI

Was ist passiert: Samsung hat in seiner Live-Vorstellung nicht nur das neue S24 Ultra vorgestellt, sondern setzt dabei auch voll auf KI. Unter anderem ist dafür Google als Partner mit an Bord. Nutzer können deshalb jetzt unter anderem einfach Dinge auf ihrem Bildschirm markieren, um sich von Googles KI mehr dazu erzählen zu lassen.

Außerdem gibt es etwa einen Zeitlupenmodus für Videos, der automatisch aufgenommene Videos auf mehr Bilder pro Sekunde hochrechnet, damit ihr flüssige Zeitlupenaufnahmen bekommt. Daneben zeigt Samsung auch noch eine Echtzeit-Übersetzung beim Telefonieren. 

Warum ist das wichtig? Es ist schwer zu übersehen, wie die Hersteller immer stärkeren Fokus auf KI-Features legen und diese von Spielerei zum praktischen Werkzeug weiterentwickeln. Dinge, die vor einigen Jahren noch reine Forschungsprojekte waren, finden ihren Weg in fertige Produkte.

So lassen sich mit dem von Samsung gezeigten Übersetzer auch erste Science-Fiction-Träume erfüllen. Aus der Kombination mit bereits existierender Technologie zur Stimmimitation ließe sich ein Echtzeit-Übersetzer bauen, der dem Sprachbarrieren beseitigenden Babelfisch aus »Per Anhalter durch die Galaxis« sehr nahe kommt.

So probiert ihr es aus: Die neuen KI-Features bleiben zwar vorerst Nutzern einiger ausgewählter Android-Handys  vorbehalten, aber ich würde mich schwer wundern, wenn Google und Apple entsprechende Features nicht sehr bald auf weitere Handys nachziehen würden.

Durcheinanderreden macht Sprachmodelle klüger

Was ist passiert: Jemand stellt eine Frage, und mehrere Menschen im Raum antworten abwechselnd darauf - jeweils immer mit einem Wort. Die Antwort ist besser, als sie jeder einzelne liefern könnte. Während das bei Menschen anstrengend und wenig wahrscheinlich klingt, klappt es bei Sprachmodellen in der Art von ChatGPT ganz hervorragend.

Mit abwechselnd generierten Wortfetzen konnten Forscher aus England mit drei kleineren Sprachmodellen sogar ChatGPT schlagen. Klein bedeutet hier übrigens etwa 14 Milliarden Parameter, geradezu winzig im Vergleich zu 175 Milliarden Parametern von ChatGPT oder Googles 1,6 Billionen Parameter großem Gemini. 

Mit also nicht einmal einem Zehntel der Rechenoperationen wurde ein besseres Ergebnis erzielt. 

Warum ist das wichtig? Nicht nur sind die kombinierten Modelle zusammen massiv kleiner als die aktuellen Platzhirsche, sie sind vor allem auch deutlich schneller, denn: Pro Wortfetzen muss immer nur eines der Modelle benutzt werden. Statt 175 Milliarden Rechenoperationen für den nächsten Wortfetzen wie bei ChatGPT braucht man also nicht einmal »nur« 14 Milliarden, sondern lediglich etwa 5 Milliarden Parameter. Spätestens wenn KI wie Googles Gemini auf eurem Handy laufen soll, wird euer Akku dafür danken.

So probiert ihr es aus: Ihr braucht eine Gruppe von Leuten, stellt ihnen eine Frage, und dann lasst ihr sie abwechselnd... Spaß beiseite, um so etwas auszuprobieren braucht ihr etwas praktischere Kenntnisse und müsstest selbst mehrere derartige Sprachmodelle herumliegen haben. Ich bin mir aber sicher, dass so eine Technik bald ihren Weg in eins der größeren Modelle finden wird. 

Die Spielegrafik der Zukunft wird atemberaubend - dank KI Video starten 52:00 Die Spielegrafik der Zukunft wird atemberaubend - dank KI

KI-Tool des Monats

Ihr habt direkt nach dem Zoom-Meeting schon wieder vergessen, was ihr mit eurem Chef besprochen hattet? Eure mechanische Tastatur treibt Spielpartner im Voicechat in den Wahnsinn? Ihr hättet gerne automatische Untertitel für das Video eurer Präsentation?

Genau für diese Probleme könnte euch Krisp eine Hilfe sein. Das praktische Tool schließt sich einfach zwischen eure Eingabe und Ausgabe und funktioniert damit für prinzipiell jede  Software, die über Audiokanäle läuft, etwa Zoom und Discord.

Auf Wunsch werden damit Gespräche protokolliert und zusammengefasst, Lärm sowohl in eurem Hintergrund als auch von eurem Gesprächspartner kommend unterdrückt, und vieles mehr. 

Und das Beste an dem Ganzen: Ihr könnt es in der Gratis-Version recht umfänglich nutzen, auch wenn weiterführende Funktionen wie das Zusammenfassen von mehr als zwei Meetings am Tag nur für zahlende Nutzer möglich sind.

Kurznews 

Kein genverändertes Hähnchen oder ein Hotdog-Tomaten-Hybrid, sondern einfach ein Fehler im KI-Modell: Generierte Rezeptbilder auf Instacart. (Quelle: InstacartBusiness Insider) Kein genverändertes Hähnchen oder ein Hotdog-Tomaten-Hybrid, sondern einfach ein Fehler im KI-Modell: Generierte Rezeptbilder auf Instacart. (Quelle: Instacart/Business Insider)

Abseits dieser größeren Themen gibt es noch zahlreiche kleinere Neuigkeiten:

  • Der Essenslieferdienst Instacart hat jüngst angefangen, seinen Nutzern KI-generierte Rezepte vorzuschlagen, inklusive Bild. Dabei gibt es allerdings allerlei Aussetzer, etwa Hähnchen mit zwei Körpern, wie Business Insider berichtet. Aus leidvoller Erfahrung meiner Forschung kann ich bestätigen, dass Rezepte und Bilder für Cocktails auch nicht fehlerfrei darzustellen sind.
  • Nachdem sich Nutzer beschwert hatten, dass verschiedene GPT-Varianten wie ChatGPT oder GPT-4 etwa bei der Erstellung von Codezeilen zunehmend fauler geworden sind und eine Aufgabe einfach nicht zu Ende führen würden, will OpenAI das Problem nun angehen
  • Bilder editieren soll in Zukunft noch besser werden: Eine aktuelle Technologie macht zunächst aus einem Bildteil ein 3D-Objekt, um es anschließend kontrollieren zu können. Damit kann man etwa den Arm eines Menschen in einem Foto bewegen, ohne wie vorher den Arm erst zu löschen und dann neu zu generieren und dabei Details zu verlieren.
  • Google stellt sein neues Video-Modell vor, das aus Textbeschreibungen Video generiert. Nicht nur liefert dieses Modell schärfere Videos, es kann auch gegebene Bilder animieren, etwa Gemälde oder Comics. Frei verfügbar ist es allerdings nicht.

Jobs bei GS Tech Jobs bei GS Tech

Ihr habt unseren Rückblick für den letzten Monat verpasst? Dann solltet ihr das hier nachholen:

Unser KI-Rückblick für Dezember: Schnellere Bilder, schöneres Editing für alle

Was habt ihr im Januar an KI-Neuigkeiten mitbekommen? Beeinflussen die angekündigten KI-Features von Samsung die Wahl eures nächsten Smartphones, oder findet ihr so etwas vielleicht sogar eher gruselig? Habt ihr schonmal ein KI-generiertes Rezept nachgekocht? Verratet uns eure Meinungen und Erfahrungen gern in den Kommentaren!

zu den Kommentaren (2)

Kommentare(2)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.