KI-Code sieht oft fertig aus, ist es aber nicht. Häng den Agenten an einen echten Prüfstein – Tests, Compiler, die laufende App.
Problem Der Agent liefert plausibel aussehenden Code, der bei genauem Hinsehen nicht läuft oder am Ziel vorbeigeht.
So geht’s
1Gib dem Agenten einen überprüfbaren Endzustand: Tests, die grün werden müssen, einen Compiler/Linter ohne Fehler, ein Schema oder die laufende App samt Screenshot-Abgleich.
2Lass ihn in der Schleife arbeiten, bis der Check besteht – nicht nur einmal generieren und hoffen.
3Akzeptiere die Arbeit erst, wenn der Prüfstein wirklich grün ist. Ein leerer oder unklarer Treffer muss eine Nachfrage auslösen, keine Annahme.
Beispiel
✗ Eher schwach
Schreib mir eine Funktion, die X macht.
✓ Besser
Schreib eine Funktion für X und lass danach `pnpm test` laufen, bis alle Tests grün sind. Zeig mir am Ende die Testausgabe.