Reasoning oder Raten mit Stil? Apples KI-Studie im Detail

Apple warnt: KI kann nicht wirklich denken. Doch stimmt das? Eine neue Studie stellt Reasoning-Modelle wie ChatGPT, Claude oder Gemini bloß. Aber nicht alles daran hält, was die Schlagzeilen versprechen.

24.06.2025 11:28 von Christian

Wenn selbst Apple Reasoning in Frage stellt

Mit viel medialem Nachhall hat Apple kürzlich eine Studie veröffentlicht, die angeblich belegt: Moderne KI-Modelle wie ChatGPT, Claude oder Gemini versagen beim echten Denken. Die Rede ist von einem „fundamentalen Hindernis“. Die Schlagzeile: Reasoning-Modelle seien ein leeres Versprechen. Ein Frontalangriff auf die jüngste Entwicklung der KI-Branche - oder doch eher ein geschickter PR-Schachzug?

Ich habe mir die Studie genau angesehen und kommen zu einem anderen Urteil: Nicht das Reasoning steht vor dem Kollaps, sondern Apples Testdesign.

Die Kernthese: Reasoning-Modelle versagen bei echten Denkaufgaben

Apple hat in der Studie mehrere LLMs mit sogenannten mathematisch-logischen Puzzleaufgaben konfrontiert. Darunter Tower of Hanoi, Gleichungsaufgaben, Textaufgaben mit algorithmischem Aufbau.
Das Ergebnis: Bei steigender Komplexität sinkt die Trefferquote dramatisch, teils auf nahezu 0 %.

Selbst dann, wenn der Algorithmus zur Lösung vorgegeben war, konnten die Modelle oft keine korrekten Antworten liefern oder den einmal gefundenen Lösungsweg konsistent replizieren.

Die Schlussfolgerung der Apple-Forscher: Reasoning scheint ein bloßes Benchmark-Phänomen zu sein, aber in echten, schwierigen Aufgaben weitgehend wirkungslos. Ihre Formulierung:
„Selbst mit Self-Reflection oder Tool-Nutzung gelingt keine Verallgemeinerung über das Niveau hinaus.“

Die unbequeme Wahrheit: Die Studie zeigt ein reales Problem - aber nur in einem engen Korridor

1. Die Aufgaben

Die Studie setzt stark auf logisch präzise Puzzles, die extrem token-sensitiv sind. Schon kleine Veränderungen im Prompt führen zu völlig anderen Ausgaben.
Diese Form von „Reasoning“ ist vor allem symbolisch-formal - also weit entfernt von dem, was KI in echten Geschäftsanwendungen tut:
Planung, Koordination, Code-Refactoring, Systemanalyse.

Was sie testen, ist: „Kann ein LLM ein Puzzle lösen wie ein Mensch?“ Aber was sie eigentlich behaupten, ist: „LLMs können generell nicht denken.“
Das ist ein gefährlicher Fehlschluss.

2. Hardware & Token-Limits

Die Tests liefen laut Apple auf M1/M2‑Chips mit stark begrenzten Ressourcen. Prompt‑Token, Memory-Window und Chain-of-Thought-Länge wurden nicht maximal ausgereizt – also weit entfernt von der Produktionsrealität bei OpenAI oder Anthropic.

Dass ein 10 Mrd.-Parameter-Modell wie DeepSeek-R1 auf Consumer-Hardware komplexe Chain-of-Thought-Aufgaben nicht lösen kann, überrascht niemanden, der sich mit LLM-Architektur auskennt.

3. Reasoning ≠ Mathematik

Die Studie testet logische Spielereien, nicht praktisches Reasoning im Alltag:

All das sind Reasoning-Fähigkeiten, bei denen LLMs - in richtigen Use-Cases - durchaus performen.
Das wird hier aber nicht getestet. Stattdessen: Tower-of-Hanoi unter Laborbedingungen.

4. Das Framing: „Alle versagen, also ist das Konzept Quatsch“

Ein oft genutztes Argumentationsmuster in der Studie (und der Berichterstattung):
Wenn alle Modelle ähnliche Schwächen zeigen, muss das Modellparadigma falsch sein.

Das ist allerdings wie zu sagen:
„Alle E-Autos schaffen bei -30 °C keine 500 km Reichweite, also ist Elektromobilität eine Sackgasse.“

Die Realität ist: Es ist eine technische Herausforderung, kein philosophisches Scheitern.

Warum die Studie trotzdem wertvoll ist

Trotz aller Kritik enthält die Studie wichtige Erkenntnisse:

Das sind ernsthafte Probleme, vor allem für kritische Anwendungsbereiche wie Finanzen, Recht oder medizinische Analytik.

Aber: Das ist keine Absage an Reasoning, sondern ein Call für bessere Modelle, robustere Methodik und ehrlicheres Benchmarking.

Apples Paper ist wichtig, aber nicht das, was viele draus machen

Ja, LLMs sind (noch) keine AGIs.
Nein, Reasoning ist nicht gelöst.
Aber auch: Das Paper beweist nicht, dass LLMs gar nicht denken können - es zeigt nur, dass sie unter sehr speziellen Bedingungen nicht so denken wie Menschen. Und das wussten wir eigentlich längst.

Ein echter Fortschritt entsteht nicht durch Hype - aber auch nicht durch Alarmismus.

Themen

Über den Author

Christian

Ich bin Christian Seip - Softwareentwickler mit Schwerpunkt auf Web-Technologien. In den letzten Jahren war ich unter anderem als Lead Developer und Datenschutzkoordinator bei der Ströer-Gruppe tätig. Davor habe ich bei Amazon Games gearbeitet.

Ich schreibe hier, weil ich Dinge hinterfrage. Weil ich wissen will, was unter der Oberfläche steckt - technisch, gesellschaftlich und sprachlich. Und weil ich glaube, dass es nicht reicht, Dinge nur zu tun, ohne darüber zu reden.

Dieser Blog ist kein Tutorial-Archiv und keine Selbstvermarktung. Er ist mein Versuch, klare Gedanken zu formulieren und Position zu beziehen auch wenn es unbequem ist. Mal technisch, mal kritisch, mal persönlich.