3 Minuten
Das Machine-Learning-Team von Apple veröffentlichte kürzlich ein aufsehenerregendes Forschungspapier mit dem Titel „The Illusion of Thinking“, das intensive Diskussionen in der künstlichen Intelligenz Community auslöste. Die Forscher argumentieren darin, dass aktuelle große Sprachmodelle im Kern kein eigenständiges logisches Denken oder echte Schlussfolgerungen anstellen. Eine neue Erwiderung aus der KI-Forschung stellt nun jedoch Apples weitreichende Schlussfolgerungen infrage und entfacht eine lebhafte Debatte über die tatsächlichen Grenzen sowie das Potenzial moderner KI-Modelle.
Zentrale Argumente: Sind heutige KI-Modelle wirklich begrenzt?
Ellen Lason, Forscherin bei Open Philanthropy, hat eine Gegenstudie mit dem Titel „The Illusion of the Illusion of Thinking“ veröffentlicht und widerspricht darin Apples Aussagen direkt. Lason verweist insbesondere auf das fortschrittliche Claude-Opus-Modell von Anthropic. Sie argumentiert, dass Apples Ergebnisse weniger auf grundlegende Schwächen beim KI-Schlussfolgern, sondern vielmehr auf Designfehler zurückzuführen sind. Laut Lason sind vor allem technische und konfigurationstechnische Beschränkungen für die von Apple hervorgehobenen Schwächen der KI-Modelle verantwortlich.
Wichtige Kritikpunkte an Apples Methodik
Lason hebt drei wesentliche Kritikpunkte an Apples Bewertungsansatz hervor:
- Token-Beschränkungen ignoriert: Lason betont, dass Apples Modelle bestimmte Logikrätsel nicht wegen mangelnder Denkfähigkeit scheiterten, sondern weil Ausgabelängen strikt begrenzt wurden und somit Antworten abgeschnitten wurden.
- Unlösbare Aufgaben als Fehler gewertet: Bei Rätseln wie Varianten des „River Crossing“-Problems galten auch von vornherein unlösbare Fälle als Fehler, was die Modelle unfair benachteiligte.
- Limitierte Auswertungspipeline: Apples Bewertungssystem akzeptierte ausschließlich komplett ausgearbeitete Schritt-für-Schritt-Lösungen. Teilantworten oder strategisch richtige Ansätze — auch wenn argumentativ korrekt — wurden als Misserfolg gewertet, was nicht zwischen Denkfehler und Ausgabelimitierung unterschied.
Zur Untermauerung ihrer Argumentation führte Lason Apples Tests erneut durch, verzichtete dabei jedoch auf die Ausgabe-Einschränkungen. Die Ergebnisse zeigten: Wenn künstliche Begrenzungen aufgehoben werden, können geprüfte Sprachmodelle durchaus komplexe Logikaufgaben lösen — ein deutlicher Hinweis auf tatsächliche Denkfähigkeit, sofern die Systeme adäquat konfiguriert sind.

KI im Test mit klassischen Logikrätseln
Apples ursprüngliche Forschung prüfte die Fähigkeit von Sprachmodellen an vier bekannten Logikherausforderungen: dem Turm von Hanoi (siehe Bild oben), Blocks World, dem River Crossing Puzzle sowie Sprungzügen im Dame-Spiel. Solche Aufgaben sind fest im Bereich der Kognitionswissenschaften und KI-Forschung verankert und gewinnen durch zusätzliche Schritte und Einschränkungen erheblich an Komplexität — was von jedem KI-System mehrstufiges Planen erfordert.
Apple verlangte von den Modellen, nicht nur die richtige Lösung zu präsentieren, sondern auch nachvollziehbar die gedankliche Herleitung („Chain of Thought“) zu dokumentieren. So sollte die Bewertung möglichst aussagekräftig und streng gestaltet werden.
Leistungseinbrüche bei steigender Komplexität
Laut Apple zeigte sich, dass mit zunehmender Schwierigkeit der Puzzles die Lösungsgenauigkeit der Sprachmodelle rapide sank. Bei den komplexesten Aufgaben lag die Erfolgsquote bei null. Dies deutete Apple als grundlegendes Versagen aktueller KI beim schlussfolgernden Denken.
Gegenwind aus der Forschung: Denkproblem oder Ausgabelimit?
KI-Experten und die Community merkten jedoch schnell an, dass viele vermeintliche Fehler auf methodische Schwächen in Apples Testdesign zurückzuführen sind. Viele Modelle lieferten korrekte Denkansätze, konnten aufgrund von Token-Beschränkungen aber keine vollständigen Lösungen darstellen. Auch die Berücksichtigung unlösbarer Aufgaben als Fehlschläge wurde vielfach kritisiert und wirft Fragen zur Fairness auf.
Bedeutung für Zukunft von Sprachmodellen und KI
Diese Debatte hat weitreichende Auswirkungen auf die Weiterentwicklung generativer KI, moderner Sprachmodelle und KI-Assistenten. Da Unternehmen KI-Systeme entwickeln, die echte, mehrstufige Schlussfolgerungen leisten sollen — etwa für autonome Systeme, intelligente Suche oder komplexe Programmierung — ist ein klares Verständnis der Stärken und Schwächen heutiger Sprachmodelle entscheidend.
Die Analysen von Apple und Lason machen deutlich: Die Gestaltung von Testmethoden und Evaluationsumgebungen ist maßgeblich für die Bewertung von KI. Mit dem Fortschritt generativer KI wird es immer wichtiger, faire, transparente und robuste Benchmarks zu schaffen, um die Problemlösefähigkeiten moderner KI objektiv zu messen und gezielt weiterzuentwickeln.
Quelle: arxiv
Kommentare