← Alle Depeschen

Modelleneu

Gemini 3.5 Flash bekommt „Computer Use“ als eingebautes Werkzeug

Google hat am 24. Juni 2026 „Computer Use“ als integriertes Tool in Gemini 3.5 Flash freigegeben. Entwickler können damit Agenten bauen, die Browser-, Mobil- und Desktop-Oberflächen sehen, interpretieren und bedienen (Klicks, Eingaben, Navigation). Google bezeichnet es als seine bislang beste Leistung für agentische Computer-Use-Aufgaben und zielt auf Langhorizont-Automatisierung wie fortlaufendes Software-Testing und Wissensarbeit. Verfügbar über die Gemini API und die Gemini Enterprise Agent Platform; eine Demo läuft über Browserbase.

Mit „Computer Use“ kann Gemini 3.5 Flash grafische Oberflächen wahrnehmen und steuern: Es liest den Bildschirm, schließt auf den nächsten Schritt und führt Aktionen wie Klicken, Tippen und Scrollen über Browser-, Mobil- und Desktop-Umgebungen aus. Google beschreibt es als „our best performance yet for agentic computer use tasks“ und nennt als Einsatzfelder Langhorizont- und Enterprise-Automatisierung, etwa fortlaufendes Software-Testing und Wissensarbeit.

Die Funktion ist als eingebautes Werkzeug umgesetzt, nicht als separates Modell, und über die Gemini API sowie die Gemini Enterprise Agent Platform erreichbar; eine interaktive Demo wird über Browserbase bereitgestellt. Indem Google die Fähigkeit ins kostengünstige Flash-Modell statt ins Pro-Flaggschiff integriert, adressiert es ausdrücklich Dauerbetrieb-Szenarien, bei denen die Kosten pro Schritt entscheiden.

Einordnung: Bildschirm-steuernde Agenten sind ein zentrales Schlachtfeld – Anthropic (Computer Use) und OpenAI (Operator/Agent) verfolgen denselben Ansatz, ein Modell stellvertretend eine Software bedienen zu lassen. Die Belastbarkeit solcher Agenten in der Praxis ist weiterhin begrenzt; Googles Leistungsangaben sind Eigenaussagen, und die im Blog abgebildeten Benchmark-Werte sind ohne unabhängige Bestätigung mit Vorsicht zu lesen.