C
KI

BOHM: Nullkosten-Attribuierung für komplexe KI-Systeme

Neues Verfahren namens BOHM verspricht hierarchische Attribution in Compound AI Systems ohne Rechen-Overhead – und liefert dabei erstaunlich präzise Ergebnisse im Vergleich zu SHAP.

CR
Codekiste Redaktion25. Mai 2026

Wenn KI-Systeme komplex werden, wird Erklärbarkeit zum Problem

Moderne KI-Anwendungen sind längst keine monolithischen Modelle mehr. In sogenannten Compound AI Systems werden Aufgaben durch hierarchische Strukturen aus spezialisierten Komponenten geroutet – von APIs über Agenten-Orchestratoren bis hin zu spezialisierten Modellen. Das Problem: Wer versteht noch, warum ein System eine bestimmte Entscheidung trifft?

Die etablierte Methode zur Attribution – also zur Zuordnung von Beiträgen einzelner Komponenten zum Gesamtergebnis – ist SHAP (Shapley Additive Explanations). SHAP basiert auf Spieltheorie und zerlegt den Wert einer Koalition in marginale Beiträge einzelner Komponenten. Dafür muss das System aber auf beliebigen Teilmengen seiner Komponenten evaluiert werden – und genau hier scheitert die Praxis.

Das SHAP-Dilemma: Drittanbieter-APIs und opake Endpunkte

Drittanbieter-APIs lassen sich nicht einfach „abschalten“, um zu sehen, was passiert. Agentic Orchestratoren konzentrieren ihr Routing auf wenige Tools, sodass die meisten Koalitionen gar nicht evaluiert werden können. SHAP, so elegant die Theorie auch ist, bricht in der realen Welt zusammen, wenn die benötigten Koalitionen schlichtweg nicht ausführbar sind.

Genau hier setzt BOHM an – ein neues Verfahren, das kürzlich auf arXiv vorgestellt wurde.

BOHM: Attribution aus dem, was sowieso da ist

BOHM (der Name ist ein Akronym, das im Paper nicht weiter aufgelöst wird) verfolgt einen radikal anderen Ansatz: Statt künstlich Koalitionen zu konstruieren und zu evaluieren, extrahiert es die Attribution direkt aus den Routing-Gewichten, die das System ohnehin bereits pflegt.

Die Kernidee:

  • Leaf Attribution ergibt sich als Pfadprodukt der Routing-Gewichte von der Wurzel zum Blatt.
  • Level-k Attribution ist die induzierte Verteilung über Knoten auf Tiefe k.

Das bedeutet: BOHM hat null marginalen Rechenaufwand – es werden keine zusätzlichen Evaluationen benötigt. Es braucht keinen Zugriff auf Komponenten-Internas. Und es liefert gleichzeitig Attribution auf jeder Hierarchieebene – etwas, das flache Methoden wie SHAP selbst mit unbegrenztem Budget nicht bieten können.

Die Zahlen: Überraschend nah an SHAP – mit einem Bruchteil des Aufwands

Die Forscher testeten BOHM auf drei Szenarien:

1. LLM-Hierarchie (18 Modelle, 3 Ebenen, 880 LiveCodeBench-Probleme)

BOHM erreichte einen Kendall-Tau von 0,928 im Vergleich zur Ground-Truth-Rangfolge. SHAP kam auf 0,980 – brauchte dafür aber 9.000-mal mehr Koalitionsevaluationen pro Seed. Ein marginaler Genauigkeitsgewinn bei exorbitantem Mehraufwand.

2. Agentic Study (5 Driver, 7 Benchmarks, 35 Zellen)

Hier zeigte sich ein interessantes Muster: Die Driver konzentrieren ihr Routing stark auf ein einzelnes Tool (Top-Share-Median: 0,65). Die Übereinstimmung zwischen BOHM und SHAP auf Zellebene korreliert stark damit, ob der bevorzugte Router-Tipp auch empirisch das beste Tool ist (mittleres Tau: +0,22 vs. ~+0,01). Das bedeutet: Wenn das Routing gut ist, sind BOHM und SHAP nah beieinander. Wenn nicht, liefert die Diskrepanz selbst diagnostische Hinweise.

3. US-Census-Hierarchie (475 Blätter, 4 Ebenen)

BOHM rekonstruierte die Ground-Truth-Rankings auf jeder Ebene mit einem Tau von bis zu 0,722 – beachtlich für eine Methode ohne jeglichen Evaluationsaufwand.

Was BOHM nicht ist – und warum das wichtig ist

BOHM erfüllt die Axiome Effizienz, Monotonie, Symmetrie und schwache Unterdrückung – aber nicht die Additivität, die Shapley-Werte auszeichnet. Das ist kein Bug, sondern ein Feature: BOHM und SHAP beantworten schlichtweg unterschiedliche Fragen.

  • SHAP fragt: „Was wäre der marginale Beitrag, wenn ich diese Komponente zu einer beliebigen Koalition hinzufüge?"
  • BOHM fragt: „Wie verteilt sich die Verantwortung entlang der tatsächlichen Routing-Pfade, die das System verwendet?"

Die Autoren positionieren BOHM explizit als komplementäres Primitiv – eine Multi-Resolution-Dekomposition, die überall dort berechenbar ist, wo Routing-Zustand existiert. Die Diskrepanz zu Shapley ist nicht Fehler, sondern Diagnoseinstrument.

Kritische Einordnung

BOHM löst ein echtes Problem. Die Praxis zeigt, dass SHAP in Compound AI Systems oft schlicht nicht anwendbar ist – nicht wegen Rechenkosten, sondern weil die benötigten Koalitionen nicht evaluiert werden können. Das ist kein Randproblem, sondern der Regelfall in einer Welt, in der KI-Systeme auf Third-Party-APIs und komplexe Orchestrierungen angewiesen sind.

Die Stärke von BOHM liegt in seiner Pragmatik: Es nutzt Informationen, die ohnehin vorhanden sind, statt künstlich welche zu generieren. Die gleichzeitige Attribution auf allen Hierarchieebenen ist ein echtes Plus – Entwickler können auf jeder Ebene verstehen, welche Komponente warum Verantwortung trägt.

Allerdings gibt es Limitierungen:

  • BOHM ist nur so gut wie das Routing. Wenn der Router systematisch suboptimal entscheidet, spiegelt BOHM diese Suboptimalität wider – nicht die „wahre" Beitragsverteilung.
  • Die fehlende Additivität bedeutet, dass BOHM-Ergebnisse nicht direkt mit Shapley-Werten vergleichbar sind. Das kann in regulatorischen Kontexten problematisch sein, wo Shapley-Werte als Goldstandard gelten.
  • Die Methode setzt voraus, dass Routing-Gewichte existieren und interpretierbar sind. Bei rein heuristischen oder nicht-deterministischen Routern wird die Anwendung schwierig.

Fazit: Ein notwendiger Baustein für die Erklärbarkeit komplexer KI

BOHM ist kein Ersatz für SHAP, sondern eine Ergänzung – und zwar eine, die dringend gebraucht wurde. In einer Welt, in der KI-Systeme zunehmend modular, verteilt und opak werden, brauchen wir Attribution-Methoden, die in der echten Welt funktionieren, nicht nur in der Theorie.

Der Umstand, dass BOHM und SHAP bei gutem Routing konvergieren, bei schlechtem Routing aber divergieren, ist besonders elegant: Die Diskrepanz wird selbst zum Qualitätsindikator für das Routing. Das ist ein Paradigmenwechsel – weg von der Frage „Welche Methode ist besser?" hin zu „Was sagt uns der Unterschied?"

Für Entwickler, die Compound AI Systems bauen und erklärbare KI brauchen, ist BOHM ein Werkzeug, das sofort einsetzbar ist – ohne Infrastrukturänderungen, ohne Rechen-Overhead, ohne API-Zugriff auf Komponenten-Internas. Allein das macht es zu einem beachtenswerten Beitrag.


Quelle: arXiv:2605.22866

QUELLEN
arXiv cs.AI
Pro-Feature

Melde dich an und werde Pro-Mitglied, um dieses Feature zu nutzen.

Anmelden
CR
Codekiste Redaktion

Automatisierte Content-Kuratierung für tech-news.

Kommentare

WEITERLESEN
KI

"AI Psychosis": Wenn CEOs die Realität der Arbeit verlieren

KI

Groq sammelt 650 Millionen: Neustart nach dem 20-Milliarden-Deal mit Nvidia

KI

Wer owns die KI? Das Problem der Verantwortungslücke in Unternehmen