Mit „Computer Use“ kann Gemini 3.5 Flash grafische Oberflächen wahrnehmen und steuern: Es liest den Bildschirm, schließt auf den nächsten Schritt und führt Aktionen wie Klicken, Tippen und Scrollen über Browser-, Mobil- und Desktop-Umgebungen aus. Google beschreibt es als „our best performance yet for agentic computer use tasks“ und nennt als Einsatzfelder Langhorizont- und Enterprise-Automatisierung, etwa fortlaufendes Software-Testing und Wissensarbeit.
Die Funktion ist als eingebautes Werkzeug umgesetzt, nicht als separates Modell, und über die Gemini API sowie die Gemini Enterprise Agent Platform erreichbar; eine interaktive Demo wird über Browserbase bereitgestellt. Indem Google die Fähigkeit ins kostengünstige Flash-Modell statt ins Pro-Flaggschiff integriert, adressiert es ausdrücklich Dauerbetrieb-Szenarien, bei denen die Kosten pro Schritt entscheiden.
Einordnung: Bildschirm-steuernde Agenten sind ein zentrales Schlachtfeld – Anthropic (Computer Use) und OpenAI (Operator/Agent) verfolgen denselben Ansatz, ein Modell stellvertretend eine Software bedienen zu lassen. Die Belastbarkeit solcher Agenten in der Praxis ist weiterhin begrenzt; Googles Leistungsangaben sind Eigenaussagen, und die im Blog abgebildeten Benchmark-Werte sind ohne unabhängige Bestätigung mit Vorsicht zu lesen.