Qwen-AgentWorld ist nach Alibabas Darstellung ein „Language World Model“: Statt eine Aufgabe zu lösen, simuliert es, was Werkzeuge und Umgebungen einem Agenten auf eine Aktion hin zurückgeben würden. Damit lassen sich autonome Agenten in einer synthetischen Sandbox stressen, ohne sie auf ein echtes Terminal, einen echten Browser oder ein echtes Betriebssystem loszulassen. Ein einziges Modell deckt sieben Domänen ab – textbasiert MCP, Search, Terminal und SWE, grafisch Web, OS und Android –, wobei Wissen laut Anbieter zwischen den Domänen übertragen wird.
Veröffentlicht wurden zwei Größen: das Flaggschiff Qwen-AgentWorld-397B-A17B (Mixture-of-Experts, rund 397 Mrd. Parameter, davon ca. 17 Mrd. aktiv) und die quelloffene Variante Qwen-AgentWorld-35B-A3B (35 Mrd. gesamt, 3 Mrd. aktiv). Beide arbeiten mit 256K Kontext. Auf Hugging Face ist bislang die 35B-Variante gelistet (Qwen/Qwen-AgentWorld-35B-A3B, zugehöriges Paper arXiv 2606.24597); das Training stützt sich laut Anbieter auf über 10 Mio. reale Interaktions-Trajektorien aus den sieben Umgebungen.
Zur Leistung nennt Alibaba Werte auf dem zugleich veröffentlichten AgentWorldBench: Das 397B-Modell erreiche den höchsten Gesamtschnitt (58,71) und liege damit knapp vor GPT-5.4 (58,25); die offene 35B-Variante komme auf 56,39 und übertreffe Claude Sonnet 4.6 (56,04). Wichtig: AgentWorldBench ist der eigene Benchmark des Anbieters, die Bestplatzierung also Anbieter-Eigenwerbung und keine unabhängige Messung – die Zahlen taugen zur Einordnung der Größenordnung, nicht als belastbares Ranking. Unabhängig (VentureBeat) hervorgehoben wird vor allem die Methode: Das Modell wurde nicht als Agent trainiert, verbessert aber die Agentenleistung über mehrere Benchmarks, indem es als Umgebungssimulator dient.
Einordnung: AgentWorld zielt nicht auf Endnutzer, die „welches Modell wofür“ fragen, sondern auf Teams, die Agenten bauen und evaluieren – es gehört in die Werkzeugkette rund um Agent-Harnesses und Eval-Sandboxes. Der Schritt passt zu Alibabas breiter Qwen-Offensive der vergangenen Wochen; eine unabhängige Bestätigung der Benchmark-Behauptungen steht aus, die Existenz der offenen 35B-Variante ist über die Hugging-Face-Modellkarte primär belegt.