Modelle22. Juni 2026neu

Sakana Fugu: Orchestrator soll mit einem Team fremder Modelle auf Frontier-Niveau kommen

Das japanische Start-up Sakana AI hat am 22. Juni 2026 „Fugu“ vorgestellt – kein eigenes Sprachmodell, sondern ein Multi-Agenten-System, das sich nach außen wie ein einzelnes Modell verhält und je Aufgabe ein Team aus öffentlich zugänglichen Frontier-Modellen (u. a. Claude Opus 4.8, Gemini 3.1 Pro, GPT-5.5) dynamisch zusammenstellt, koordiniert und deren Antworten zu einem Ergebnis verschmilzt. Sakana behauptet, die Top-Variante „Fugu Ultra“ stehe über mehrere Engineering-, Wissenschafts- und Reasoning-Benchmarks „auf Augenhöhe“ mit Anthropics Fable 5 und Mythos Preview.

Sakana AI beschreibt Fugu als „Multi-Agenten-System, das sich wie ein einzelnes Modell verhält“: Es entscheidet je Anfrage, ob es die Aufgabe direkt löst oder ein Team spezialisierter Modelle zusammenstellt; Modellauswahl, Delegation, Verifikation und Synthese laufen intern ab, nach außen gibt es eine einzige API. Anthropics Fable 5 und Mythos Preview sind laut Sakana ausdrücklich nicht Teil des Agenten-Pools, da sie nicht öffentlich zugänglich sind.

Für die Spitzenvariante Fugu Ultra nennt The Decoder – die Werte den Grafiken der Sakana-Ankündigung entnommen – unter anderem 73,7 Punkte auf SWE-Bench Pro (gegenüber 69,2 bei den Anthropic-Vergleichsmodellen), 95,5 auf GPQA-Diamond (92,0–94,3) und 93,6 auf MRCRv2 (87,9–94,8). Sakana fasst das als „Schulter an Schulter“ mit Fable 5 und Mythos Preview über die anspruchsvollsten Engineering-, Wissenschafts- und Reasoning-Benchmarks zusammen.

Fugu Ultra ist bereits über Vercels AI Gateway unter der Kennung `sakana/fugu-ultra` verfügbar und im Model-Playground testbar; laut Vercel routet das System je nach Problem an ein bis drei Agenten und kombiniert deren Ergebnisse. Das Gateway gibt die Anbieterpreise ohne Aufschlag und ohne eigene Plattformgebühr auf die Inferenz weiter. Technische Details liegen in einem Report im Sakana-GitHub.

Einordnung: Die Leistungsangaben stammen aus Sakanas eigener Evaluation und sind unabhängig noch nicht bestätigt. Bemerkenswert ist der methodische Ansatz – ein Orchestrator, der die Antwort eines Aufgaben-spezifisch ausgewählten Modell-Teams synthetisiert, statt sich auf ein einzelnes Modell zu verlassen. Der wirtschaftliche Haken: Weil der Pool aus den teuren öffentlichen Spitzenmodellen besteht, verschiebt Fugu die Frage von „welches Modell ist das beste?“ zu „lohnt der Orchestrierungs-Aufwand gegenüber dem direkten Griff zum besten Einzelmodell?“.