DepescheForschung2. Juli 2026neu

Apple-Studie: Multi-Agenten-Teams bremsen ihren besten Experten aus

Apple-ML-Forschende zeigen, dass selbstorganisierende LLM-Teams die Leistung ihres stärksten Mitglieds nicht erreichen – selbst wenn ihnen ausdrücklich gesagt wird, wer der Experte ist. Auf ML-Benchmarks verlieren die Teams bis zu 41,1 Prozent gegenüber dem Experten-Agenten allein.

Die Studie testete selbstorganisierende LLM-Teams – Agenten, die frei interagieren, statt einem fest vorgegebenen Ablauf zu folgen – auf menschlich inspirierten wie aktuellen ML-Benchmarks. Kernbefund: Die Teams erreichen die Leistung ihres Experten-Agenten durchweg nicht, selbst wenn ihnen explizit mitgeteilt wird, wer der Experte ist; auf ML-Benchmarks summieren sich die Verluste auf bis zu 41,1 Prozent.

Als Ursache benennen die Forschenden nicht das Identifizieren, sondern das Ausschöpfen von Kompetenz: Die Teams zeigen einen „integrativen Kompromiss“ – sie mitteln Experten- und Nicht-Experten-Sichten, statt Expertise angemessen höher zu gewichten. Dieser Hang zum Konsens verstärkt sich, je größer das Team wird.

Einordnung: Die Konsens-Neigung ist nicht nur Nachteil – sie macht Teams robuster gegen einzelne feindselige oder fehlerhafte Agenten. Doch der Preis für kollektives Problemlösen ist hoch. Für den Bau von Multi-Agenten-Systemen heißt das: Unbeschränkte Koordination verschlechtert die Leistung, weil sie Konsens über Kompetenz stellt; nötig sind Mechanismen, die Experten-Beiträge gezielt priorisieren.