Thinking Machines Lab und die Forschungseinheit AIA Labs des Hedgefonds Bridgewater haben am 30. Juni 2026 einen gemeinsamen Bericht („Learning to replicate expert judgment in financial tasks“) veröffentlicht. Aufgabe war, Dokumente – Nachrichtenartikel, Zentralbank-Papiere, Research-Berichte – danach zu klassifizieren, wie relevant sie für eine Investitionsentscheidung sind; die Referenz bildeten von Bridgewater-Fachleuten annotierte Beispiele.
Als Basis diente das offene Modell Qwen3-235B, das per Fine-Tuning auf die Aufgabe spezialisiert wurde. Nach der veröffentlichten Auswertung erreicht das trainierte Modell 84,7 Prozent Treffsicherheit gegenüber 78,2 Prozent beim besten kommerziellen Frontier-Modell – das entspricht laut Bericht rund 29,8 Prozent weniger Fehlern – und das bei einer etwa 13,8-fachen Reduktion der Inferenzkosten je Aufgabe. Große Modelle wie Gemini, Claude und GPT lagen ohne Anpassung zunächst deutlich niedriger und erreichten erst mit gezieltem Prompting die mittleren 70er-Prozentwerte.
Methodisch nennt der Bericht mehrere Bausteine (u. a. eine spezielle Batching-Strategie, eine angepasste Trainingsverlustfunktion mit asymmetrischem Clipping sowie On-Policy-Distillation von starken Lehrmodellen) und ein Verifikationsschema zur Bereinigung fehlerhafter Trainingsdaten. Die zentrale Botschaft: Nicht ins Training eingeflossenes Fachwissen aus Unternehmen ist eine reale Quelle zusätzlicher Leistung.
Einordnung: Die Zahlen stammen aus dem gemeinsamen Bericht der beiden Unternehmen (Primärquelle) und sind selbstberichtet. Der Bericht selbst hält fest, dass es sich nicht um einen wirklich unabhängigen Vergleich handelt, da beide Seiten ein Interesse an einem vorteilhaften Ergebnis haben. Die Aussagekraft bezieht sich auf die eng umrissene Finanz-Klassifikationsaufgabe, nicht auf allgemeine Modellgüte.