Reasoning oder Raten mit Stil? Apples KI-Studie im Detail

Wenn selbst Apple Reasoning in Frage stellt

Mit viel medialem Nachhall hat Apple kürzlich eine Studie veröffentlicht, die angeblich belegt: Moderne KI-Modelle wie ChatGPT, Claude oder Gemini versagen beim echten Denken. Die Rede ist von einem „fundamentalen Hindernis“. Die Schlagzeile: Reasoning-Modelle seien ein leeres Versprechen. Ein Frontalangriff auf die jüngste Entwicklung der KI-Branche - oder doch eher ein geschickter PR-Schachzug?

Ich habe mir die Studie genau angesehen und kommen zu einem anderen Urteil: Nicht das Reasoning steht vor dem Kollaps, sondern Apples Testdesign.

Die Kernthese: Reasoning-Modelle versagen bei echten Denkaufgaben

Apple hat in der Studie mehrere LLMs mit sogenannten mathematisch-logischen Puzzleaufgaben konfrontiert. Darunter Tower of Hanoi, Gleichungsaufgaben, Textaufgaben mit algorithmischem Aufbau.
Das Ergebnis: Bei steigender Komplexität sinkt die Trefferquote dramatisch, teils auf nahezu 0 %.

Selbst dann, wenn der Algorithmus zur Lösung vorgegeben war, konnten die Modelle oft keine korrekten Antworten liefern oder den einmal gefundenen Lösungsweg konsistent replizieren.

Die Schlussfolgerung der Apple-Forscher: Reasoning scheint ein bloßes Benchmark-Phänomen zu sein, aber in echten, schwierigen Aufgaben weitgehend wirkungslos. Ihre Formulierung:
„Selbst mit Self-Reflection oder Tool-Nutzung gelingt keine Verallgemeinerung über das Niveau hinaus.“

Die unbequeme Wahrheit: Die Studie zeigt ein reales Problem - aber nur in einem engen Korridor

1. Die Aufgaben

Die Studie setzt stark auf logisch präzise Puzzles, die extrem token-sensitiv sind. Schon kleine Veränderungen im Prompt führen zu völlig anderen Ausgaben.
Diese Form von „Reasoning“ ist vor allem symbolisch-formal - also weit entfernt von dem, was KI in echten Geschäftsanwendungen tut:
Planung, Koordination, Code-Refactoring, Systemanalyse.

Was sie testen, ist: „Kann ein LLM ein Puzzle lösen wie ein Mensch?“ Aber was sie eigentlich behaupten, ist: „LLMs können generell nicht denken.“
Das ist ein gefährlicher Fehlschluss.

2. Hardware & Token-Limits

Die Tests liefen laut Apple auf M1/M2‑Chips mit stark begrenzten Ressourcen. Prompt‑Token, Memory-Window und Chain-of-Thought-Länge wurden nicht maximal ausgereizt – also weit entfernt von der Produktionsrealität bei OpenAI oder Anthropic.

Dass ein 10 Mrd.-Parameter-Modell wie DeepSeek-R1 auf Consumer-Hardware komplexe Chain-of-Thought-Aufgaben nicht lösen kann, überrascht niemanden, der sich mit LLM-Architektur auskennt.

3. Reasoning ≠ Mathematik

Die Studie testet logische Spielereien, nicht praktisches Reasoning im Alltag:

Entscheidungen unter Unsicherheit
Analyse widersprüchlicher Informationen
Planen über mehrere Schritte

All das sind Reasoning-Fähigkeiten, bei denen LLMs - in richtigen Use-Cases - durchaus performen.
Das wird hier aber nicht getestet. Stattdessen: Tower-of-Hanoi unter Laborbedingungen.

4. Das Framing: „Alle versagen, also ist das Konzept Quatsch“

Ein oft genutztes Argumentationsmuster in der Studie (und der Berichterstattung):
Wenn alle Modelle ähnliche Schwächen zeigen, muss das Modellparadigma falsch sein.

Das ist allerdings wie zu sagen:
„Alle E-Autos schaffen bei -30 °C keine 500 km Reichweite, also ist Elektromobilität eine Sackgasse.“

Die Realität ist: Es ist eine technische Herausforderung, kein philosophisches Scheitern.

Warum die Studie trotzdem wertvoll ist

Trotz aller Kritik enthält die Studie wichtige Erkenntnisse:

Die Grenzen aktueller Prompting- und Reflection-Methoden bei hohem Komplexitätsgrad sind real.
LLMs neigen dazu, Rechenlogik abzukürzen, sobald das Problem schwer wird - ein Verhalten, das in der Praxis gefährlich sein kann.
Tool-Integration (z. B. Scratchpad, ReAct) reicht nicht aus, um echtes algorithmisches Verständnis zu erzeugen.

Das sind ernsthafte Probleme, vor allem für kritische Anwendungsbereiche wie Finanzen, Recht oder medizinische Analytik.

Aber: Das ist keine Absage an Reasoning, sondern ein Call für bessere Modelle, robustere Methodik und ehrlicheres Benchmarking.

Apples Paper ist wichtig, aber nicht das, was viele draus machen

Ja, LLMs sind (noch) keine AGIs.
Nein, Reasoning ist nicht gelöst.
Aber auch: Das Paper beweist nicht, dass LLMs gar nicht denken können - es zeigt nur, dass sie unter sehr speziellen Bedingungen nicht so denken wie Menschen. Und das wussten wir eigentlich längst.

Ein echter Fortschritt entsteht nicht durch Hype - aber auch nicht durch Alarmismus.