Agent-evaluatie en observability: hoe je een AI-collega in productie meet
Een agent in productie heeft geen unit tests, hij heeft evaluatiesets. Hoe je een AI-collega meetbaar maakt zonder elke run met de hand door te ploegen.
Een agent zonder meting is een belofte met logo
Een traditionele applicatie meet je op functionele tests en uptime. Een AI-collega is geen traditionele applicatie. Hij maakt beslissingen op basis van data die elke dag een beetje anders is, met modellen die periodiek worden bijgewerkt, met tools die ook veranderen. Zonder doorlopende meting is "hij werkt" een gevoel, geen feit.
Dat hoeft niet ingewikkeld te zijn, maar het moet wel een vast onderdeel van het werk zijn. De vraag is niet of je evaluatie en observability nodig hebt, maar wat je minimaal vastlegt om te kunnen sturen.
De vier metrics die iedereen nodig heeft
Vier metrieken vormen de basis van elke serieuze agent-meting. Ze zijn relatief eenvoudig vast te leggen en geven samen een goed beeld van of een agent gezond werkt.
- Slagingspercentage: het aandeel runs dat zonder fout of escalatie afgerond is. Bewaak per agent en per type input.
- Tooltrouw: het aandeel toolaanroepen dat klopt met wat de agent zegt te doen, getoetst tegen een ground-truth schema.
- Escalatiepercentage: het aandeel runs dat bewust naar een mens gaat. Een gezonde escalatieratio is groter dan nul.
- P95-doorlooptijd: hoe lang de traagste tien procent van de runs duurt. Spike daarin is bijna altijd een signaal.
Een evaluatieset, niet alleen logs
Logs vertellen je wat er is gebeurd, niet of het goed was. Een evaluatieset is een verzameling van vijftig tot tweehonderd realistische casussen met een verwachte uitkomst. Bij elke prompt-, tool-, of modelverandering draait de set en zie je in één blik welke regressies erin zijn geslopen. Voor een serieuze agent in productie is een evaluatieset geen luxe maar een randvoorwaarde.
Wat een dashboard moet laten zien
Een agent-dashboard heeft niet veel tabbladen nodig. Per agent: success rate over 7 en 30 dagen, p95-duur, escalaties, kosten per run, en een lijst met de meest recente niet-geslaagde runs met directe link naar de trace. Voor een procesowner geeft dat genoeg sturing zonder dat hij elke log hoeft te lezen.
Traces voor het lastige werk
Voor de gevallen waar het wel mis ging is een trace per agent-run onmisbaar: welke prompt is verzonden, welke tools zijn met welke parameters aangeroepen, welke resultaten kwamen terug, en hoe ging de redenering verder. Goede platforms leveren dit out-of-the-box; bij eigen bouw moet je het zelf onderhouden. Een trace is wat het verschil maakt tussen "de agent deed iets verkeerds" en een gerichte fix.
Kosten per run en model-routing
Een agent draait op een model dat per token wordt afgerekend. Kosten per run is een serieuze metric, niet alleen voor de CFO maar als signaal: een agent die plotseling drie keer zoveel tokens gebruikt heeft waarschijnlijk een verkeerde loop of een aangepaste prompt. Model-routing (het kleinere model voor de eenvoudige taken, het grotere voor de echt lastige) wordt zonder kostenmeting al snel een ad-hoc keuze in plaats van een ontwerpkeuze.
Hoe je begint zonder een team van zes
Voor wie nu één of twee agents in productie heeft, is de eerste stap: log alle agent-runs naar één plek, definieer per agent een evaluatieset van vijftig casussen, en bouw één dashboard met de vier basis-metrics. Daarmee zit je verder dan veel teams die wel twintig agents hebben maar geen meetstructuur. Plan een Quick Scan als je wilt zien hoe wij dit doen voor agents die we in productie zetten.
Lees verder
Meer inzichten
Benieuwd wat een AI-collega voor jouw proces kan betekenen?
Plan een vrijblijvende Quick Scan en ontdek de mogelijkheden.
Plan een Quick Scan