Gemini 3.1 Pro und das Ende aussagekräftiger Benchmarks

Google hat mit Gemini 3.1 Pro sein neuestes Sprachmodell veröffentlicht – und wie bei jedem großen Release überschlagen sich die Meinungen. Auf X, YouTube und in Podcasts widersprechen sich die Einschätzungen teils diametral: Ist es das beste Modell aller Zeiten? Oder doch nur in bestimmten Bereichen stark? Die Antwort ist komplizierter, als ein einzelner Benchmark-Score vermuten lässt. Und genau darin liegt das eigentliche Problem.

Die Ära der Spezialisierung

Um zu verstehen, warum die Verwirrung so groß ist, muss man einen fundamentalen Wandel im Training großer Sprachmodelle begreifen. Noch vor einem Jahr machte das Pre-Training – also das Lernen auf riesigen Internetdatenmengen – den Löwenanteil der Rechenkosten aus. Heute entfallen laut aktuellen Schätzungen nur noch rund 20 Prozent des Compute-Budgets auf diese Phase. Der Rest fließt in Post-Training: Reinforcement Learning, domänenspezifisches Fine-Tuning und Optimierung gegen interne Benchmarks.

Das hat weitreichende Konsequenzen. Früher konnte man davon ausgehen, dass ein Modell, das in einem Bereich herausragte, auch in vielen anderen stark war. Diese Zeiten sind vorbei. Gemini 3.1 Pro liefert Rekordwerte in Coding-Benchmarks wie LiveCodeBench Pro, schlägt die Konkurrenz bei wissenschaftlichem Reasoning (GPQA Diamond) und erzielt beeindruckende 77,1 Prozent bei ARC-AGI-2. Gleichzeitig fällt es bei GDP-Vow – einem breiten Maß für professionelle Expertentätigkeiten – deutlich hinter Claude Opus 4.6 und sogar GPT 5.2 zurück.

Benchmarks: Brillant, aber brüchig

Besonders aufschlussreich ist der Blick hinter die Kulissen einzelner Tests. Beim ARC-AGI-2-Benchmark, den Google-CEO Demis Hassabis prominent in seiner Ankündigung hervorhob, fanden Forscher um die KI-Wissenschaftlerin Melanie Mitchell heraus, dass Modelle unbeabsichtigte arithmetische Muster in der Zahlenkodierung ausnutzen können. Wechselt man die Symbole, sinkt die Genauigkeit. Das Modell schummelt nicht im klassischen Sinne – es nutzt jede verfügbare Abkürzung. Aber es zeigt, wie fragil selbst sorgfältig konstruierte Benchmarks sind.

Ähnliches beobachtet der KI-Forscher und YouTuber Philip von AI Explained bei seinem eigenen Simple Bench: Entfernt man die Multiple-Choice-Optionen und lässt Modelle frei antworten, sinkt die Performance um 15 bis 20 Prozentpunkte. Die Modelle werden genuinely besser – aber sie sind auch Meister im Erkennen von Testmustern.

Halluzinationen: Kein gelöstes Problem

Ein Bereich, über den die Anbieter ungern sprechen: Halluzinationen. Laut einer Analyse von Artificial Analysis schneidet Gemini 3.1 Pro bei der Gesamtgenauigkeit zwar hervorragend ab. Betrachtet man jedoch nur die falschen Antworten, halluziniert es bei 50 Prozent davon – während Claude Sonnet 4.6 auf 38 Prozent kommt und das chinesische Modell GLM-5 sogar nur auf 34 Prozent. Ein Modell kann also gleichzeitig besser in seinen besten und schlechter in seinen schlechtesten Momenten sein.

Die Wette von Anthropic

Interessant ist die strategische Perspektive von Dario Amodei, CEO von Anthropic. Seine These: Wenn man in genügend Spezialisierungen trainiert, generalisiert das Modell irgendwann auf alle Bereiche. Für die verbleibenden Lücken setzt er auf immer längere Context Windows – Claude 4.6 verarbeitet bereits 750.000 Wörter. Die Idee: Was das Modell nicht aus dem Training kennt, kann es aus dem Kontext lernen, den der Nutzer mitliefert.

Das ist eine mutige Wette. Ob sie aufgeht, wird laut Amodei selbst eine der zentralen Fragen der Jahre 2026 und 2027 sein.

Einordnung: Willkommen in der Vibe-Ära

Was bedeutet das alles für Nutzer und Entwickler? Vor allem eines: Misstraut einfachen Rankings. Die Zeit, in der ein einzelner Benchmark-Score die Qualität eines Modells zusammenfassen konnte, ist vorbei. Welches Modell für euch das beste ist, hängt zunehmend von eurem konkreten Anwendungsfall ab.

Gemini 3.1 Pro ist zweifellos ein beeindruckendes Modell. Es spielt in der absoluten Spitzengruppe mit. Aber die Vorstellung, es gäbe das objektiv beste Modell, wird mit jeder neuen Veröffentlichung unrealistischer. Wir befinden uns in einer Ära, in der persönliches Testen – manche nennen es die Vibe Era – wichtiger wird als jede Benchmark-Tabelle.

Der einzig wirklich objektive Benchmark wäre vielleicht die Vorhersage der Zukunft. Doch selbst hier droht Gaming: Was passiert, wenn autonome KI-Agenten gleichzeitig Vorhersagen treffen und aktiv Einfluss auf deren Ausgang nehmen können?

Die Benchmarks sind nicht tot. Aber sie waren noch nie so schwer zu interpretieren wie heute.

Quelle: AI Explained

Gemini 3.1 Pro und das Ende aussagekräftiger Benchmarks

Gemini 3.1 Pro und das Ende aussagekräftiger Benchmarks

Die Ära der Spezialisierung

Benchmarks: Brillant, aber brüchig

Halluzinationen: Kein gelöstes Problem

Die Wette von Anthropic

Einordnung: Willkommen in der Vibe-Ära

Kommentare

Copilot Task: Microsofts autonomer Agent für Windows 11 startet in die Forschungsvorschau

OpenAI übernimmt Pentagon-Vertrag: Das Ende der ethischen KI-Reserve im Militär

Sam Altman warnt: DOD-Blacklisting von Anthropic setzt gefährlichen Präzedenzfall