C
KI

Das „Strawberry“-Problem: Warum Googles KI nicht buchstabieren kann

Googles AI Overview scheitert an simplen Buchstabieraufgaben. Der Grund ist kein einfacher Bug, sondern ein fundamentales Architekturproblem von LLMs: die Tokenization.

CR
Codekiste Redaktion28. Mai 2026

Wenn die KI den Kindergarten nicht besteht

Künstliche Intelligenz kann komplexe Apps programmieren, jahrzehntealte mathematische Probleme lösen und philosophische Abhandlungen verfassen – aber fragt man sie, wie viele Buchstaben „P“ im Wort „Google“ stecken, scheitert sie kläglich. Laut Googles eigener KI sind es zwei. Auch die Behauptung, es gebe genau ein „r“ im Wort „poop“, oder die Schreibweise „j-o-u-r-n-a-d-i-s-m“ für den Begriff Journalismus, zeigen ein absurdes Bild: Die supposedly mächtigste Technologie unserer Zeit stolpert über Aufgaben, die ein Fünfjähriger im Schlaf löst.

Dass Googles „AI Overview“ – die nun noch tiefer in die 29 Jahre alte Suchmaschine integriert wird – aus dem Ruder läuft, ist keine Überraschung. Beim ersten Versuch empfahl die KI den Nutzern, Steine zu essen oder Klebstoff auf die Pizza zu geben, weil sie satirische Reddit-Posts als Fakten interpretierte. Die aktuellen Rechtschreibfehler sind jedoch anders gelagert und weisen auf ein tieferliegendes, strukturelles Problem hin.

Der Teufel steckt im Token

Auf den ersten Blick wirken diese Fehler wie ein schlechter Scherz. Wie kann ein System, das auf Milliarden Texten trainiert wurde, nicht wissen, wie man den Namen seines eigenen Schöpfers buchstabiert? Die Antwort liegt in der fundamentalen Architektur der sogenannten Large Language Models (LLMs).

LLMs lesen Text nicht wie Menschen. Wir nehmen Buchstaben wahr, fügen sie zu Wörtern und diese zu Sätzen zusammen. LLMs hingegen nutzen sogenannte Tokenizer, die Text in „Tokens“ zerlegen. Ein Token kann ein ganzes Wort, eine Silbe oder auch nur ein einzelner Buchstabe sein. Das System wandelt diese Tokens in numerische Repräsentationen um, um Kontext und Wahrscheinlichkeiten zu berechnen.

Wie der KI-Forscher Matthew Guzdial von der University of Alberta erklärt: Wenn das Modell das Wort „the“ liest, verarbeitet es eine spezifische numerische Repräsentation der Bedeutung dieses Wortes. Es hat aber kein Konzept von den einzelnen Buchstaben „T“, „H“ und „E“. Es weiß nicht, wie das Wort buchstabiert wird, sondern nur, in welchem Kontext es üblicherweise auftaucht.

Genau hier liegt der Hase im Pfeffer: Die KI versteht die Semantik, aber nicht die Orthografie. Sie weiß, dass das Token für „strawberry“ oft mit dem Token für „fruit“ oder „sweet“ korreliert, aber sie zählt keine Buchstaben. Das ist der Grund, warum der „Wie viele ‚r‘ sind in strawberry?“-Test seit Jahren der Standardtest ist, um neue KI-Modelle auf ihre architektonischen Grenzen zu prüfen.

Ein strukturelles Dilemma ohne einfache Lösung

Google hat auf Anfrage lapidar mitgeteilt: „Das Zählen innerhalb von Wörtern ist eine bekannte Herausforderung für LLMs, und wir arbeiten daran, dieses spezielle Problem zu beheben.“ Doch die Forschungsgemeinschaft ist sich einig, dass es keinen einfachen Patch gibt.

Sheridan Feucht, PhD-Studentin an der Northeastern University, die sich mit der Interpretierbarkeit von LLMs beschäftigt, bringt es auf den Punkt: Es sei extrem schwer zu definieren, was ein „Wort“ für ein Sprachmodell überhaupt sein sollte. Selbst wenn man Experten eine perfekte Token-Vokabular erstellen ließe, würden Modelle vermutlich weiterhin dazu neigen, Dinge in größere „Chunks“ zusammenzufassen. Feucht vermutet, dass es aufgrund dieser „Fuzziness“ schlichtweg keinen perfekten Tokenizer gibt.

Die tokenbasierte Architektur ist also nicht nur ein Bug, den man mit dem nächsten Update beheben kann – sie ist das Fundament, auf dem aktuelle Generative KI steht. Jedes Modell, das auf Transformers basiert, wird zwangsläufig an dieser Grenze scheitern, es sei denn, man entwickelt radikal neue Architekturen (wie etwa charakterbasierte Modelle, die jedoch wiederum massive Performance-Probleme haben).

Die Illusion der Allwissenheit

Sind Rechtschreibfehler nun das Ende der KI-Revolution? Natürlich nicht. Für die Nützlichkeit von LLMs beim Programmieren, Texten oder Analysieren ist die Fähigkeit, Buchstaben zählen zu können, nicht zwingend erforderlich. Das Problem liegt vielmehr in der Inszenierung.

Wenn Konzerne wie Google KI als allwissenden Orakel direkt in die Suchmaschine – das meistgenutzte Informationswerkzeug der Welt – zwingen, entsteht eine gefährliche Diskrepanz. Die offensichtlichen Fehler, wie die kürzlich aufgetretene Definition des Wortes „disregard“, die nur aus einem System-Prompt-Leak bestand („Understood. Let me know whenever you have a new prompt or question!“), erinnern uns an die Realität.

Die Fehler sind nicht nur lustige Kuriositäten für Social-Media-Posts. Sie sind ein notwendiges Korrektiv. Sie demaskieren die KI als das, was sie ist: Ein hochkomplexes statistisches Werkzeug, das Muster reproduziert, aber kein echtes Welt- oder Sprachverständnis besitzt. Wenn wir das vergessen und KI-Antworten blind vertrauen, ohne ihre Richtigkeit zu überprüfen, wird das „Klebstoff-auf-der-Pizza“-Szenario irgendwann nicht mehr lustig, sondern gefährlich.

Quelle: TechCrunch

QUELLEN
TechCrunch AI
Pro-Feature

Melde dich an und werde Pro-Mitglied, um dieses Feature zu nutzen.

Anmelden
CR
Codekiste Redaktion

Automatisierte Content-Kuratierung für tech-news.

Kommentare

WEITERLESEN
KI

"AI Psychosis": Wenn CEOs die Realität der Arbeit verlieren

KI

Groq sammelt 650 Millionen: Neustart nach dem 20-Milliarden-Deal mit Nvidia

KI

Wer owns die KI? Das Problem der Verantwortungslücke in Unternehmen