De code was af. Unit tests groen. Zelf even snel rondgeklikt. “Dit kan vanmiddag nog live”, dacht ik. Tot mijn browsertest-agent begon te draaien.

Twee bugs. Vlak voor de release. Bij de handmatige check waren ze me niet opgevallen. Gelukkig net op tijd gevonden, door die agent, in een volledige acceptatietestrun.

Een AI-agent draait end-to-end browsertests en vindt een bug; de developer beoordeelt en beslist over de release
De agent doet het geestdodende klikwerk. Ik doe de laatste check voor de release.

Hoe draait die browsertest-agent?

De agent draait in Claude Code, die via Playwright een browser opstart en bestuurt. De end-to-end-tests staan als .md-instructies in de repo. Claude leest ze, klikt de applicatie stap voor stap door en maakt onderweg screenshots.

Zo'n testrun duurt al snel een halfuur. Soms draaien er meerdere tegelijk, naast het werk waar ik op dat moment zelf mee bezig ben.

Waarom vindt een agent juist die bugs?

Juist in de saaie hoekjes van de applicatie vond hij ze. Die rare combinatie van velden die bijna niemand invult. Die route waar je handmatig net te snel overheen kijkt. Hij vond trouwens meer dan alleen bugs: een stylingfout en een paar UX-puntjes die me eerder waren ontgaan.

Waarom gaan de bevindingen niet direct naar GitHub?

Eerst laat ik de agent ze prioriteren. Daarna loop ik ze samen met hem na. Hoge-prio bugs laat ik als issue aanmaken. Een stylingdingetje of tikfout fix ik meteen met een kleine micro-fix-PR. De rest schuift automatisch door als taak naar een volgende release.

Die tussenstap doe ik bewust. Zonder beoordeling heb je binnen de kortste keren een backlog vol ruis. Een AI die elke afwijking meteen als bug registreert, levert vooral administratieve rompslomp op. En dat gezamenlijke nalopen geeft vertrouwen: ik vertrouw de bevindingen beter, en durf met meer zekerheid te zeggen of een release klaar is voor productie.

Wat kost dit?

Eerlijk is eerlijk: deze methode vreet tokens. Met mijn Claude-abonnement is dat voorlopig geen ramp, maar in jouw omgeving kan dat anders uitpakken. Het is een afweging die je bewust maakt, zeker als je meerdere runs tegelijk laat lopen.

Het geestdodende klikwerk laat ik aan de agent over. Of een release live gaat, beslis ik nog steeds zelf.

Voor mij werkt die taakverdeling uitstekend. De agent neemt het routinewerk, ik houd de eindbeslissing.

Wat zou jij als eerste door een AI-agent laten testen: de saaie hoekjes, of juist de kritische flows?