Die aktuelle KI-Entwicklung ist geprägt von dem Versprechen, wissenschaftliche und kreative Prozesse vollständig zu automatisieren. Doch während Modelle wie GPT-4 oder Claude immer besser darin werden, vorgegebene Probleme zu lösen, bleibt eine essenzielle Frage unbeantwortet: Können diese Systeme auch ungelenkt Neues entdecken? Ein neues Paper mit dem Titel „In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models“ geht genau dieser Frage nach und liefert faszinierende – wenn auch ernüchternde – Einblicke.
Das Picbreeder-Experiment und das Konzept der Open-Endedness
Der Begriff der Open-Endedness beschreibt die Fähigkeit eines Systems, scheinbar endlos neue, sinnvolle und komplexe Formen zu generieren. In der Natur ist dies der Motor der Evolution; in der menschlichen Kultur ist es der Antrieb für Kunst und Wissenschaft.
Um diese Fähigkeit bei KI-Systemen zu messen, greifen die Forscher auf Picbreeder zurück. Picbreeder ist ein klassisches Internet-Projekt aus den späten 2000er Jahren, bei dem Nutzer durch interaktive Evolution kleine neuronale Netze entwickelt und so eine enorme Vielfalt an Bildern generierten. Das Prinzip: Nutzer wählen aus einer Generation von Bildern die aus, die ihnen am interessantesten erscheinen. Diese werden dann mutiert und der Prozess beginnt von vorn. Es gibt kein festes Ziel, die Evolution wird einzig durch menschliche Neugier und ästhetische Präferenzen gesteuert.
Die Forscher haben dieses Szenario nun repliziert – mit dem entscheidenden Unterschied, dass die menschlichen Nutzer durch moderne Vision-Language Models (VLMs) ersetzt wurden. Die Frage: Sind VLMs in der Lage, die fruchtbare, ungerichtete Entdeckungsfreude des Menschen zu reproduzieren?
KI vs. Mensch: Qualitative Welten
Die Kurzantwort lautet: Nein. Die Forscher beobachten deutliche qualitative Unterschiede zwischen den Outputs des KI-gesteuerten Systems und dem historischen menschlichen Benchmark. Um diese Unterschiede zu quantifizieren, nutzten sie Metriken wie phylogenetische Komplexität (wie komplex ist der evolutionäre Stammbaum?), visuelle Salienz (wie stark sticht ein Bild hervor?) und semantische Neuheit.
Dort, wo Menschen auf Picbreeder oft organische, komplexe und überraschende Strukturen evolvierten – etwa Gesichter, Tiere oder abstrakte Kunst –, tendieren die VLMs zu anderen Mustern. Die KI-Agenten verharren oft in lokalen Optima oder priorisieren visuelle Merkmale, die für das Sprachmodell leicht greifbar sind, aber ästhetisch oder strukturell weniger komplex erscheinen.
Die Suche nach den Zutaten der Kreativität
Warum unterscheiden sich die Ergebnisse so stark? Um die kausalen Faktoren zu verstehen, testeten die Forscher drei experimentelle Modifikationen am Verhalten der KI-Agenten:
Exploratory Noise (Rauschen): Der Auswahlprozess der Agenten wurde durch Zufallsfaktoren gestört. Dies verhindert, dass die KI zu schnell in eine Richtung konvergiert, führt aber nicht zwingend zu sinnvollerer Komplexität.
Behavioral Diversity: Verschiedene Agenten wurden mit unterschiedlichen Präferenzen oder „Persönlichkeiten“ ausgestattet. Dies simuliert die heterogene Nutzerbasis des ursprünglichen Picbreeders und brachte tatsächlich mehr Vielfalt in die Ergebnisse.
Narrative Momentum (Erinnerung): Die wohl spannendste Intervention. Den Agenten wurde ein Gedächtnis für vergangene Aktionen gegeben. Sie sollten nicht nur das aktuelle Bild bewerten, sondern eine „Story“ entwickeln – ein narratives Momentum, das über Generationen hinweg Bestand hat.
Besonders der dritte Punkt ist philosophisch wie technisch hochinteressant. Menschen erschaffen auf Picbreeder nicht einfach zufällig Bild für Bild. Sie erkennen Muster, geben ihnen Namen und verfolgen eine visuelle Idee weiter. Die KI mit einem „Gedächtnis“ auszustatten, versucht, genau diesen menschlichen Drang nach Bedeutung und Kontinuität nachzuahmen.
Einordnung: Der Fluch der Konvergenz
Die Ergebnisse des Papers berühren einen neuralgischen Punkt der aktuellen KI-Forschung. Heutige große Modelle sind darauf trainiert, Wahrscheinlichkeiten zu maximieren und vorgegebene Intentionen (Prompts) bestmöglich zu erfüllen. Sie sind konvergente Systeme. Open-Endedness erfordert jedoch Divergenz – die Bereitschaft, das Offensichtliche zugunsten des Überraschenden zu ignorieren.
Die Tatsache, dass selbst frontier VLMs Mühe haben, den menschlichen Picbreeder-Benchmark zu erreichen, zeigt, dass uns für wirklich autonose, kreative KI-Assistenten noch essenzielle Bausteine fehlen. Eine KI, die nur auf Instruktion reagiert, wird nie den Funken der echten Neugierde (oder Langeweile) verspüren, der Menschen antreibt, aus dem Nichts heraus etwas völlig Neues zu erschaffen.
Die Studie macht deutlich: Wir können wissenschaftliche und kreative Prozesse vielleicht beschleunigen, wenn wir der KI das Ziel vorgeben. Die wahre, ungerichtete Entdeckung – das, was wir als menschliche Kreativität definieren – entzieht sich aktuellen Architekturen jedoch noch weitgehend. Open-Endedness ist kein Nebenprodukt von Intelligenz, sondern eine eigene, schwer zu fassende Eigenschaft.