Roll over, Darwin: Wie die "Mind Evolution" von Google DeepMind das KI-Denken verbessern könnte
Dieser neue Ansatz, der auf natürlicher Selektion basiert, verbessert die Zuverlässigkeit großer Sprachmodelle für praktische Aufgaben wie die Reiseplanung erheblich. Und so funktioniert es.
Einer der großen Trends in der künstlichen Intelligenz im vergangenen Jahr war der Einsatz verschiedener Tricks während der Inferenz – dem Akt des Treffens von Vorhersagen – um die Genauigkeit dieser Vorhersagen drastisch zu verbessern.
Zum Beispiel kann eine Gedankenkette – wenn ein großes Sprachmodell (LLM) die Logik einer Antwort in einer Reihe von Aussagen beschreibt – zu einer höheren Genauigkeit bei Benchmark-Tests führen.
Ein solches "Denken" hat offenbar zu Durchbrüchen in der Genauigkeit bei abstrakten Tests zur Problemlösung geführt, wie z. B. die hohe Punktzahl von GPTo3 von OpenAI im letzten Monat beim ARC-AGI-Test.
Es stellt sich jedoch heraus, dass LLMs bei sehr praktischen Tests immer noch zu kurz kommen, bei etwas so Einfachem wie der Planung einer Reise.
Google DeepMind-Forscher unter der Leitung von Kuang-Huei Lee wiesen letzte Woche in einem Bericht darauf hin, dass Googles Gemini und OpenAIs GPTo1, die jeweils besten Modelle der Unternehmen, kläglich versagen, wenn sie mit TravelPlanner getestet werden, einem Benchmark-Test, der letztes Jahr von Wissenschaftlern der Fudon University, Penn State und Meta AI eingeführt wurde.
Die beiden KI-Modelle, die mit der Formulierung einer Reiseroute beauftragt waren, die Anforderungen wie besuchte Städte, verbrachte Zeit und Reisebudget erfüllte, waren nur in 5,6 % bzw. 11,7 % der Fälle erfolgreich.
Angesichts der schwachen Ergebnisse von Top-Modellen schlagen Lee und sein Team einen Fortschritt vor, der über die Gedankenkette und ähnliche Ansätze hinausgeht, von denen sie sagen, dass sie bei Tests wie TravelPlanner dramatisch genauer sind.
Der neue Ansatz, der als "Mind Evolution" bezeichnet wird, ist eine Form der Suche nach möglichen Antworten – aber mit einer Wendung.
Die Autoren verwenden einen genetisch inspirierten Algorithmus, der ein LLM, wie z. B. Gemini 1.5 Flash, dazu veranlasst, mehrere Antworten auf eine Eingabeaufforderung zu generieren, die dann ausgewertet werden, welche am besten geeignet ist, die Frage zu beantworten.
In der realen Welt geschieht die Evolution durch natürliche Selektion, bei der Entitäten auf ihre "Fitness" in ihrer Umgebung bewertet werden. Die fittesten schließen sich zusammen, um Nachkommen zu zeugen, und gelegentlich gibt es vorteilhafte genetische Mutationen. Der gesamte Prozess führt zu immer "optimaleren" Organismen.
Ebenso führt die Bewusstseinsentwicklung von Lee und seinem Team dazu, dass die Mehrfachantworten des LLM daraufhin bewertet werden, wie gut sie mit der gestellten Frage übereinstimmen. Dieser Prozess zwingt das LLM dann, seine Leistung zu modifizieren, um besser zu sein -- eine Art Rekombination und Mutation, wie sie bei der natürlichen Selektion zu beobachten ist. Gleichzeitig wird minderwertiger Output "in den Ruhestand geschickt", wie schlechte Entitäten, die durch natürliche Selektion aus der Spezies ausgemerzt werden.
Der Sinn eines solchen evolutionären Ansatzes ist, dass es schwierig ist, gute Lösungen auf einen Schlag zu finden, aber es ist relativ einfach, die schlechten auszusortieren und es erneut zu versuchen. Sie schreiben: "Dieser Ansatz nutzt die Beobachtung aus, dass es oft einfacher ist, die Qualität einer möglichen Lösung zu bewerten, als gute Lösungen für ein bestimmtes Problem zu finden."
Entscheidend ist, wie die Mehrfachantworten des KI-Modells am besten ausgewertet werden können. Dabei greifen die Autoren auf eine gut etablierte Aufforderungsstrategie zurück. Anstatt nur eine Gedankenkette zu erzeugen, lassen sie das Model eine Art Dialog führen.
Das LLM wird aufgefordert, zwei Personen im Dialog darzustellen, von denen die eine ein Kritiker und die andere ein Autor ist. Der Autor schlägt Lösungen vor, wie zum Beispiel einen Reiseplan, und der Kritiker weist darauf hin, wo es Mängel gibt.
"Wir nutzen ein LLM, um eine verbesserte Lösung zu generieren, indem wir ein kritisches Gespräch zwischen einem 'Kritiker' und einem 'Autor'-Charakter organisieren", schreiben Lee und sein Team. "Jede Gesprächsrunde ist als ein aufforderungsgesteuerter Prozess strukturiert, bei dem Lösungen auf der Grundlage von kritischem Feedback verfeinert werden", schreiben sie.
Es werden ziemlich lange Eingabeaufforderungen verwendet, die den LLM-Beispielen für vorgeschlagene Lösungen zeigen und wo sie auf Probleme gestoßen sind. Die Aufforderung gibt dem Modell Anweisungen, wie es die beiden Rollen spielen soll, wie z. B. "Jane, denk daran, dass du die Beste der Welt bist, wenn es darum geht, fehlerhafte Reisepläne zu analysieren" und "John, denk daran, dass du der Beste der Welt bist, wenn es darum geht, Budget-Reisepläne auf der Grundlage von Janes Analysen zu schreiben."
Der Gemini 1.5 Flash wurde anhand mehrerer Planungsbenchmarks getestet. Auf TravelPlanner steigt Zwillinge mit dem Mind Evolution-Ansatz über die typische Erfolgsquote von 5,6 % und erreicht 95,2 %, wie sie berichten. Und wenn sie das leistungsstärkere Gemini Pro-Modell verwenden, ist es mit 99,9 % nahezu perfekt.
Die Ergebnisse, schreiben Lee und sein Team, zeigen "einen klaren Vorteil einer evolutionären Strategie", die sowohl die Suche nach möglichen Lösungen im weitesten Sinne als auch die Verwendung des Sprachmodells zur Verfeinerung dieser Lösungen mit den Rollen des Autors und Kritikers kombiniert.
Die schlechte Nachricht ist, dass die Evolution des Geistes viel mehr Rechenleistung erfordert als der normale Gemini-Ansatz. Die Flash-Version mit Mind Evolution führt 167 API-Aufrufe an das Modell durch, im Gegensatz zu einem einzelnen Aufruf, wenn Flash normal funktioniert. Mind Evolution verschlingt auch drei Millionen Token wegen der sehr langen Aufforderungen im Vergleich zu 9.000 für normale Zwillinge.
Die gute Nachricht ist, dass die Bewusstseinsevolution zwar mehr Rechenleistung erfordert, aber immer noch effizienter ist als andere Arten von Suchstrategien, die viele mögliche Antworten aus dem KI-Modell untersuchen.
Tatsächlich wird die Evolution des Geistes stetig besser, je mehr mögliche Ergebnisse sie bewertet, wie man es von etwas erwarten würde, das sich angeblich weiterentwickelt, um fitter zu sein. Es scheint, dass der wiederholte kritische Dialog in irgendeiner konkreten Weise dazu beiträgt.
"Die Bewusstseinsevolution ist durchweg effektiver als die Basisstrategien in Bezug auf die Anzahl der möglichen Lösungen, die erforderlich sind, um ein bestimmtes Maß an Erfolgsquote (oder durchschnittlicher Aufgabenleistung) zu erreichen", stellen die Autoren fest.
In einer lustigen Wendung fügen Lee und sein Team dem Mix ihren eigenen neuartigen Maßstab namens StegPoet hinzu, der die Fähigkeit von Zwillingen testet, Steganographie durchzuführen, die Praxis, eine Nachricht in einem Textblock zu verstecken. (Nicht zu verwechseln mit "Stenografie", der Praxis, Sprache durch Stenografie zu transkribieren.)
In der Autorenversion der Steganographie muss man gewöhnlichen Wörtern jeweils eine Reihe von zweistelligen Zahlen zuordnen, und dann müssen die Wörter zu einem Gedicht zusammengesetzt werden, um den Zahlencode zu verbergen. Das Problem wird schwieriger, je länger die Zahlenfolge wird und je öfter jede Zahl wiederholt wird.
Interessanterweise erweist sich StegPoet selbst für die Bewusstseinsevolution als eine ziemliche Herausforderung. Gemini Flash liegt mit dem Evolutionstrick nur in 43,3 % der Fälle richtig, weniger als der Zufall. Und Gemini Pro erreicht nur 79 %. Beide sind jedoch weitaus besser als Gemini ohne Hilfe oder die typischen Suchstrategien.
Die wichtigste Beobachtung der Denkevolution von Lee und seinem Team ist, dass Inferenz ein reichhaltiges Feld an Erfindungen ist, das neue Wege findet, um bessere Ergebnisse zu erzielen, die über die bloße Erstellung besserer Eingabeaufforderungen hinausgehen.
Eine wichtige Lücke in der Arbeit der Autoren besteht darin, wie man das sehr große Rechenbudget der Bewusstseinsevolution nehmen und es verschlanken kann. Jeder neue Ansatz, der komplexe Eingabeaufforderungen mit Millionen von Token erstellt, erhöht nur die Kosten für bessere Antworten. Irgendwann wird es wichtig, all das in ein Budget zu stecken.