DepescheForschung3. Juli 2026neu

Thinking Machines Lab und Bridgewater: feinjustiertes Qwen3-235B schlägt Frontier-Modelle bei Finanz-Urteilen – zu einem Vierzehntel der Kosten

Thinking Machines Lab – das Start-up der früheren OpenAI-Technikchefin Mira Murati – hat am 30. Juni 2026 gemeinsam mit dem Hedgefonds Bridgewater ein auf Finanzaufgaben feinjustiertes Modell auf Basis des offenen Qwen3-235B vorgestellt. Bei der Bewertung, wie relevant Nachrichten, Notenbank-Dokumente und Research-Berichte für Investitionsentscheidungen sind, erreicht es nach eigener Auswertung 84,7 Prozent Treffsicherheit gegenüber 78,2 Prozent des besten kommerziellen Modells – bei rund 14-mal niedrigeren Inferenzkosten je Aufgabe.

Aussagen gegen die Quellen geprüft · 3. Juli 2026

Thinking Machines Lab und die Forschungseinheit AIA Labs des Hedgefonds Bridgewater haben am 30. Juni 2026 einen gemeinsamen Bericht („Learning to replicate expert judgment in financial tasks“) veröffentlicht. Aufgabe war, Dokumente – Nachrichtenartikel, Zentralbank-Papiere, Research-Berichte – danach zu klassifizieren, wie relevant sie für eine Investitionsentscheidung sind; die Referenz bildeten von Bridgewater-Fachleuten annotierte Beispiele.

Als Basis diente das offene Modell Qwen3-235B, das per Fine-Tuning auf die Aufgabe spezialisiert wurde. Nach der veröffentlichten Auswertung erreicht das trainierte Modell 84,7 Prozent Treffsicherheit gegenüber 78,2 Prozent beim besten kommerziellen Frontier-Modell – das entspricht laut Bericht rund 29,8 Prozent weniger Fehlern – und das bei einer etwa 13,8-fachen Reduktion der Inferenzkosten je Aufgabe. Große Modelle wie Gemini, Claude und GPT lagen ohne Anpassung zunächst deutlich niedriger und erreichten erst mit gezieltem Prompting die mittleren 70er-Prozentwerte.

Methodisch nennt der Bericht mehrere Bausteine (u. a. eine spezielle Batching-Strategie, eine angepasste Trainingsverlustfunktion mit asymmetrischem Clipping sowie On-Policy-Distillation von starken Lehrmodellen) und ein Verifikationsschema zur Bereinigung fehlerhafter Trainingsdaten. Die zentrale Botschaft: Nicht ins Training eingeflossenes Fachwissen aus Unternehmen ist eine reale Quelle zusätzlicher Leistung.

Einordnung: Die Zahlen stammen aus dem gemeinsamen Bericht der beiden Unternehmen (Primärquelle) und sind selbstberichtet. Der Bericht selbst hält fest, dass es sich nicht um einen wirklich unabhängigen Vergleich handelt, da beide Seiten ein Interesse an einem vorteilhaften Ergebnis haben. Die Aussagekraft bezieht sich auf die eng umrissene Finanz-Klassifikationsaufgabe, nicht auf allgemeine Modellgüte.