Modelle25. Juni 2026neu

Alibaba veröffentlicht Qwen-AgentWorld – ein „Sprach-Weltmodell“ für Agenten

Alibabas Qwen-Team hat am 25. Juni 2026 Qwen-AgentWorld vorgestellt, ein als „Language World Model“ bezeichnetes Modell, das die Reaktionen von Werkzeugen und Umgebungen simuliert, damit Agenten in einer synthetischen Sandbox getestet werden können – statt auf einem echten Terminal oder Browser. Ein Modell deckt sieben Domänen ab (MCP, Search, Terminal, SWE sowie die grafischen Umgebungen Web, OS, Android). Die offene Variante Qwen-AgentWorld-35B-A3B steht auf Hugging Face und ModelScope bereit.

Qwen-AgentWorld ist nach Alibabas Darstellung ein „Language World Model“: Statt eine Aufgabe zu lösen, simuliert es, was Werkzeuge und Umgebungen einem Agenten auf eine Aktion hin zurückgeben würden. Damit lassen sich autonome Agenten in einer synthetischen Sandbox stressen, ohne sie auf ein echtes Terminal, einen echten Browser oder ein echtes Betriebssystem loszulassen. Ein einziges Modell deckt sieben Domänen ab – textbasiert MCP, Search, Terminal und SWE, grafisch Web, OS und Android –, wobei Wissen laut Anbieter zwischen den Domänen übertragen wird.

Veröffentlicht wurden zwei Größen: das Flaggschiff Qwen-AgentWorld-397B-A17B (Mixture-of-Experts, rund 397 Mrd. Parameter, davon ca. 17 Mrd. aktiv) und die quelloffene Variante Qwen-AgentWorld-35B-A3B (35 Mrd. gesamt, 3 Mrd. aktiv). Beide arbeiten mit 256K Kontext. Auf Hugging Face ist bislang die 35B-Variante gelistet (Qwen/Qwen-AgentWorld-35B-A3B, zugehöriges Paper arXiv 2606.24597); das Training stützt sich laut Anbieter auf über 10 Mio. reale Interaktions-Trajektorien aus den sieben Umgebungen.

Zur Leistung nennt Alibaba Werte auf dem zugleich veröffentlichten AgentWorldBench: Das 397B-Modell erreiche den höchsten Gesamtschnitt (58,71) und liege damit knapp vor GPT-5.4 (58,25); die offene 35B-Variante komme auf 56,39 und übertreffe Claude Sonnet 4.6 (56,04). Wichtig: AgentWorldBench ist der eigene Benchmark des Anbieters, die Bestplatzierung also Anbieter-Eigenwerbung und keine unabhängige Messung – die Zahlen taugen zur Einordnung der Größenordnung, nicht als belastbares Ranking. Unabhängig (VentureBeat) hervorgehoben wird vor allem die Methode: Das Modell wurde nicht als Agent trainiert, verbessert aber die Agentenleistung über mehrere Benchmarks, indem es als Umgebungssimulator dient.

Einordnung: AgentWorld zielt nicht auf Endnutzer, die „welches Modell wofür“ fragen, sondern auf Teams, die Agenten bauen und evaluieren – es gehört in die Werkzeugkette rund um Agent-Harnesses und Eval-Sandboxes. Der Schritt passt zu Alibabas breiter Qwen-Offensive der vergangenen Wochen; eine unabhängige Bestätigung der Benchmark-Behauptungen steht aus, die Existenz der offenen 35B-Variante ist über die Hugging-Face-Modellkarte primär belegt.