Gemini 3.1 Pro und das Ende aussagekräftiger Benchmarks

Google hat mit Gemini 3.1 Pro sein neuestes Sprachmodell veröffentlicht – und wie bei jedem großen Release überschlagen sich die Meinungen. Je nachdem, welchen Post auf X, welches YouTube-Video oder welchen Podcast man konsumiert, ist das Modell entweder ein historischer Durchbruch oder eine Enttäuschung. Doch hinter dieser Verwirrung steckt kein bloßer Hype-Zyklus, sondern ein strukturelles Problem: Benchmarks haben ihre Aussagekraft verloren.

Warum sich alle widersprechen

Der Grund für die widersprüchlichen Einschätzungen ist technischer Natur und betrifft die gesamte Branche. Noch vor einem Jahr entfiel der Großteil des Trainingsaufwands auf das Pre-Training – das Lernen aus riesigen Internetdatenmengen. Heute macht dieser Schritt nur noch rund 20 Prozent der gesamten Rechenleistung aus. Die restlichen 80 Prozent fließen ins Post-Training: Reinforcement Learning, domänenspezifische Feinabstimmung, Optimierung auf interne Benchmarks.

Das hat eine weitreichende Konsequenz: Ein Modell, das in einem Bereich brilliert, ist nicht mehr automatisch in allen anderen Bereichen überlegen. In der alten Welt der generalistischen Vortrainierung war das noch anders. Heute können Labs gezielt auf bestimmte Benchmarks hin optimieren – und genau das tun sie auch.

Gemini 3.1 Pro illustriert das perfekt. Es schlägt die Konkurrenz in Coding-Benchmarks wie LiveCodeBench Pro, in wissenschaftlichem Reasoning (GPQA Diamond) und in Mustererkennungstests wie ARC-AGI 2. Gleichzeitig fällt es bei GAIA – einem breiten Test für professionelle Aufgaben – deutlich hinter Claude Opus 4.6 und sogar GPT 5.2 zurück. Welches Ergebnis zählt? Das hängt davon ab, was man mit dem Modell vorhat.

Benchmarks: Gut gemeint, leicht zu manipulieren

Besonders aufschlussreich ist der Fall ARC-AGI 2, den Google-CEO Demis Hassabis prominent in seiner Ankündigung hervorhob. Gemini 3.1 Pro erreicht dort 77,1 Prozent – weit vor Claudes 69 Prozent. Doch die KI-Forscherin Melanie Mitchell wies nach, dass die Ergebnisse einbrechen, wenn man die Zahlenkodierung der Puzzles durch andere Symbole ersetzt. Die Modelle finden offenbar arithmetische Abkürzungen, die nichts mit echtem Musterverständnis zu tun haben.

Das ist kein Einzelfall. Auch bei Simple Bench, einem privaten Benchmark des YouTubers AI Explained, zeigt sich: Werden Multiple-Choice-Optionen durch offene Fragen ersetzt, sinkt die Leistung um 15 bis 20 Prozentpunkte. Die Modelle werden nicht dümmer – sie verlieren lediglich ihre Abkürzungen.

Halluzinationen: Das ungelöste Problem

Ein Thema, das Google in seiner Ankündigung weitgehend ausklammerte: Halluzinationen. Laut einer Analyse von Artificial Analysis produziert Gemini 3.1 Pro bei 50 Prozent seiner falschen Antworten halluzinierte Inhalte. Claude Sonnet 4.6 liegt bei 38 Prozent, das chinesische Modell GLM 5 sogar bei nur 34 Prozent. Wer also ein Modell sucht, das bei Unsicherheit lieber zugibt, etwas nicht zu wissen, ist bei der Konkurrenz besser aufgehoben.

Das passt zu einer unbequemen Wahrheit: Ein Modell, das an seiner Spitze besser ist, kann an seinen Schwachstellen gleichzeitig schlechter sein. Optimierung ist kein Nullsummenspiel – sie verschiebt Stärken und Schwächen.

Die eigentliche Frage: Reicht Spezialisierung für AGI?

Anthropic-CEO Dario Amodei formulierte kürzlich eine These, die den strategischen Kern hinter all dem offenlegt: Wenn man in genügend Spezialgebieten trainiert, generalisiert das Modell irgendwann auf alle Bereiche. Die verbleibenden Lücken ließen sich durch längere Context Windows schließen – Claude 4.6 verarbeitet bereits 750.000 Wörter.

Ob diese Wette aufgeht, wird laut Amodei eine der zentralen Fragen der Jahre 2026 und 2027 sein. Für Nutzer bedeutet das: Das "beste" Modell gibt es nicht mehr. Es gibt nur noch das beste Modell für den eigenen Anwendungsfall.

Einordnung

Der Release von Gemini 3.1 Pro markiert weniger einen klaren Generationssprung als vielmehr das Ende einer Ära, in der Benchmarks als verlässlicher Kompass dienten. Die Labs optimieren auf Metriken, die sie teilweise selbst erstellen – und die kleinen, unabhängigen Teams, die objektivere Tests entwickeln könnten, haben weder das Budget noch die Ressourcen dafür.

Für Entwickler und Unternehmen heißt das konkret: Eigene Evaluierung ist Pflicht. Wer sich auf öffentliche Ranglisten verlässt, vergleicht Äpfel mit Birnen. Die Zukunft der Modellauswahl ist weniger eine Frage der Benchmarks und mehr eine Frage des eigenen Kontexts – oder, wie es im Englischen treffend heißt: Willkommen in der Vibe Era der KI.

Quelle: AI Explained

Gemini 3.1 Pro und das Ende aussagekräftiger Benchmarks

Gemini 3.1 Pro und das Ende aussagekräftiger Benchmarks

Warum sich alle widersprechen

Benchmarks: Gut gemeint, leicht zu manipulieren

Halluzinationen: Das ungelöste Problem

Die eigentliche Frage: Reicht Spezialisierung für AGI?

Einordnung

Kommentare

Copilot Task: Microsofts autonomer Agent für Windows 11 startet in die Forschungsvorschau

OpenAI übernimmt Pentagon-Vertrag: Das Ende der ethischen KI-Reserve im Militär

Sam Altman warnt: DOD-Blacklisting von Anthropic setzt gefährlichen Präzedenzfall