Reasoning oder Raten mit Stil? Apples KI-Studie im Detail
Apple warnt: KI kann nicht wirklich denken. Doch stimmt das? Eine neue Studie stellt Reasoning-Modelle wie ChatGPT, Claude oder Gemini bloß. Aber nicht alles daran hält, was die Schlagzeilen versprechen.
Wenn selbst Apple Reasoning in Frage stellt
Mit viel medialem Nachhall hat Apple kürzlich eine Studie veröffentlicht, die angeblich belegt: Moderne KI-Modelle wie ChatGPT, Claude oder Gemini versagen beim echten Denken. Die Rede ist von einem „fundamentalen Hindernis“. Die Schlagzeile: Reasoning-Modelle seien ein leeres Versprechen. Ein Frontalangriff auf die jüngste Entwicklung der KI-Branche - oder doch eher ein geschickter PR-Schachzug?
Ich habe mir die Studie genau angesehen und kommen zu einem anderen Urteil: Nicht das Reasoning steht vor dem Kollaps, sondern Apples Testdesign.
Die Kernthese: Reasoning-Modelle versagen bei echten Denkaufgaben
Apple hat in der Studie mehrere LLMs mit sogenannten mathematisch-logischen Puzzleaufgaben konfrontiert. Darunter Tower of Hanoi, Gleichungsaufgaben, Textaufgaben mit algorithmischem Aufbau.
Das Ergebnis: Bei steigender Komplexität sinkt die Trefferquote dramatisch, teils auf nahezu 0 %.
Selbst dann, wenn der Algorithmus zur Lösung vorgegeben war, konnten die Modelle oft keine korrekten Antworten liefern oder den einmal gefundenen Lösungsweg konsistent replizieren.
Die Schlussfolgerung der Apple-Forscher: Reasoning scheint ein bloßes Benchmark-Phänomen zu sein, aber in echten, schwierigen Aufgaben weitgehend wirkungslos. Ihre Formulierung:
„Selbst mit Self-Reflection oder Tool-Nutzung gelingt keine Verallgemeinerung über das Niveau hinaus.“
Die unbequeme Wahrheit: Die Studie zeigt ein reales Problem - aber nur in einem engen Korridor
1. Die Aufgaben
Die Studie setzt stark auf logisch präzise Puzzles, die extrem token-sensitiv sind. Schon kleine Veränderungen im Prompt führen zu völlig anderen Ausgaben.
Diese Form von „Reasoning“ ist vor allem symbolisch-formal - also weit entfernt von dem, was KI in echten Geschäftsanwendungen tut:
Planung, Koordination, Code-Refactoring, Systemanalyse.
Was sie testen, ist: „Kann ein LLM ein Puzzle lösen wie ein Mensch?“
Aber was sie eigentlich behaupten, ist: „LLMs können generell nicht denken.“
Das ist ein gefährlicher Fehlschluss.
2. Hardware & Token-Limits
Die Tests liefen laut Apple auf M1/M2‑Chips mit stark begrenzten Ressourcen. Prompt‑Token, Memory-Window und Chain-of-Thought-Länge wurden nicht maximal ausgereizt – also weit entfernt von der Produktionsrealität bei OpenAI oder Anthropic.
Dass ein 10 Mrd.-Parameter-Modell wie DeepSeek-R1 auf Consumer-Hardware komplexe Chain-of-Thought-Aufgaben nicht lösen kann, überrascht niemanden, der sich mit LLM-Architektur auskennt.
3. Reasoning ≠ Mathematik
Die Studie testet logische Spielereien, nicht praktisches Reasoning im Alltag:
- Entscheidungen unter Unsicherheit
- Analyse widersprüchlicher Informationen
- Planen über mehrere Schritte
All das sind Reasoning-Fähigkeiten, bei denen LLMs - in richtigen Use-Cases - durchaus performen.
Das wird hier aber nicht getestet. Stattdessen: Tower-of-Hanoi unter Laborbedingungen.
4. Das Framing: „Alle versagen, also ist das Konzept Quatsch“
Ein oft genutztes Argumentationsmuster in der Studie (und der Berichterstattung):
Wenn alle Modelle ähnliche Schwächen zeigen, muss das Modellparadigma falsch sein.
Das ist allerdings wie zu sagen:
„Alle E-Autos schaffen bei -30 °C keine 500 km Reichweite, also ist Elektromobilität eine Sackgasse.“
Die Realität ist: Es ist eine technische Herausforderung, kein philosophisches Scheitern.
Warum die Studie trotzdem wertvoll ist
Trotz aller Kritik enthält die Studie wichtige Erkenntnisse:
- Die Grenzen aktueller Prompting- und Reflection-Methoden bei hohem Komplexitätsgrad sind real.
- LLMs neigen dazu, Rechenlogik abzukürzen, sobald das Problem schwer wird - ein Verhalten, das in der Praxis gefährlich sein kann.
- Tool-Integration (z. B. Scratchpad, ReAct) reicht nicht aus, um echtes algorithmisches Verständnis zu erzeugen.
Das sind ernsthafte Probleme, vor allem für kritische Anwendungsbereiche wie Finanzen, Recht oder medizinische Analytik.
Aber: Das ist keine Absage an Reasoning, sondern ein Call für bessere Modelle, robustere Methodik und ehrlicheres Benchmarking.
Apples Paper ist wichtig, aber nicht das, was viele draus machen
Ja, LLMs sind (noch) keine AGIs.
Nein, Reasoning ist nicht gelöst.
Aber auch: Das Paper beweist nicht, dass LLMs gar nicht denken können - es zeigt nur, dass sie unter sehr speziellen Bedingungen nicht so denken wie Menschen. Und das wussten wir eigentlich längst.
Ein echter Fortschritt entsteht nicht durch Hype - aber auch nicht durch Alarmismus.
Themen
Über den Author
Christian
Ich bin Christian Seip - Softwareentwickler mit Schwerpunkt auf Web-Technologien. In den letzten Jahren war ich unter anderem als Lead Developer und Datenschutzkoordinator bei der Ströer-Gruppe tätig. Davor habe ich bei Amazon Games gearbeitet.
Ich schreibe hier, weil ich Dinge hinterfrage. Weil ich wissen will, was unter der Oberfläche steckt - technisch, gesellschaftlich und sprachlich. Und weil ich glaube, dass es nicht reicht, Dinge nur zu tun, ohne darüber zu reden.
Dieser Blog ist kein Tutorial-Archiv und keine Selbstvermarktung. Er ist mein Versuch, klare Gedanken zu formulieren und Position zu beziehen auch wenn es unbequem ist. Mal technisch, mal kritisch, mal persönlich.