Anthropic: Der Weg vom OpenAI-Spin-off zur KI-Sicherheitsmacht

Die Geburtsstunde – Ein Bruch mit OpenAI

Die Geschichte von Anthropic beginnt mit einem Konflikt. Im Jahr 2021 verließen Dario Amodei, damals VP of Research bei OpenAI, und seine Schwester Daniela Amodei, die für Operations zuständig war, das Unternehmen – zusammen mit einem knappen Dutzend weiterer hochrangiger Mitarbeiter. Der Auslöser: fundamentale Meinungsverschiedenheiten über die Richtung, in die sich OpenAI entwickelte, und darüber, wie ernsthaft das Thema KI-Sicherheit verfolgt werden sollte.

Dario Amodei hatte bei OpenAI maßgeblich an GPT-2 und GPT-3 mitgearbeitet und sah in der rasant wachsenden Leistungsfähigkeit dieser Modelle nicht nur Potential, sondern auch ernsthafte Risiken. Die zunehmende Kommerzialisierung bei OpenAI – befeuert durch die milliardenschwere Microsoft-Beteiligung – kollidierte mit seiner Überzeugung, dass Sicherheitsforschung gleichberechtigt neben der Produktentwicklung stehen müsse.

Gründung mit klarer Mission

Im Herbst 2021 gründeten die Amodeis gemeinsam mit Kollegen wie Tom Brown, Chris Olah, Sam McCandlish und Jack Clark das Unternehmen Anthropic in San Francisco. Die Mission war von Anfang an klar definiert: KI-Sicherheitsforschung in den Mittelpunkt stellen – nicht als Nebenprojekt, sondern als Kerngeschäft.

Das Ziel war es, zu verstehen, wie große Sprachmodelle funktionieren, warum sie manchmal fehlschlagen, und wie man sie zuverlässig, interpretierbar und sicher machen kann. Anthropic positionierte sich damit bewusst als „safety-first"-Alternative zu den damaligen Playern im Markt.

Constitutional AI – Ein neuer Ansatz

Eine der bedeutendsten frühen Veröffentlichungen war das Konzept des Constitutional AI (CAI), das Anthropic 2022 vorstellte. Anstatt Modelle ausschließlich durch menschliches Feedback zu trainieren (RLHF), entwickelte Anthropic eine Methode, bei der ein KI-Modell anhand eines Sets von Prinzipien – einer „Verfassung" – sich selbst bewertet und korrigiert.

Dieser Ansatz war ein direktes Produkt der Sicherheitsphilosophie: Wenn ein Modell internalisierte Werte hat und nach diesen urteilen kann, ist es weniger abhängig von menschlichen Bewertern, die möglicherweise inkonsistent oder fehlbar sind.

Claude – Das Flaggschiff-Modell

Mit Claude brachte Anthropic 2023 sein erstes öffentliches Sprachmodell auf den Markt – benannt in Anlehnung an den Mathematiker Claude Shannon. Das Modell sollte von Grund auf sicherer, hilfreicher und ehrlicher sein als die Konkurrenz. Diese drei Eigenschaften – Helpful, Harmless, Honest (HHH) – wurden zum Leitmotiv der Claude-Modellreihe.

Seitdem hat Anthropic mehrere Generationen veröffentlicht:

Claude 1 (2023): Erster öffentlicher Launch, Fokus auf langen Kontextfenstern und sicherem Verhalten
Claude 2 (2023): Deutlich verbesserte Reasoning-Fähigkeiten, 100k Token Kontextfenster
Claude 3 (2024): Drei-Tier-Modell mit Haiku, Sonnet und Opus – erstmals konkurrenzfähig mit GPT-4
Claude 4 (2025): Erneute Leistungssteigerung, tiefere Tool-Integration und verbessertes Reasoning

Finanzierung und strategische Partnerschaften

Anthropic hat in kurzer Zeit immense Investitionen angezogen. Google und Amazon (AWS) haben jeweils mehrere Milliarden Dollar investiert – was nicht nur Kapital bringt, sondern auch Zugang zu der enormen Recheninfrastruktur, die das Training großer Modelle erfordert. Claude-Modelle sind tief in die AWS-Cloud-Infrastruktur integriert und über Google Cloud verfügbar.

Sicherheitsforschung als Differenzierungsmerkmal

Was Anthropic von vielen Konkurrenten unterscheidet, ist der ernsthafte wissenschaftliche Beitrag zur KI-Sicherheitsforschung. Das Unternehmen veröffentlicht regelmäßig Arbeiten zu Mechanistic Interpretability (was passiert intern in neuronalen Netzen?), Alignment und Robustheit. Mitgründer Chris Olah gilt als einer der weltweit führenden Forscher im Bereich der Netzwerk-Interpretierbarkeit.