Je AI-agent evalueren: hoe weet je of hij goed werkt?

Met verschillende Salesforce-tools kun je de prestaties van je AI-agent meten. [Beeld: Aleona Pollauf/Salesforce]

Wil je je AI-agent evalueren? Evaluatietools zijn nog volop in ontwikkeling, maar er zijn inmiddels genoeg manieren om de prestaties van je agent goed te beoordelen.

Laura Hilgers

23 juni 2026 7 min. leestijd

Gefeliciteerd! Je hebt je eerste AI-agent geïmplementeerd. De agent stroomlijnt processen, ondersteunt je medewerkers en helpt klanten sneller aan een antwoord. Je houdt KPI’s bij, zoals gebruik, het aantal opgeloste vragen en escalaties. Toch blijft één vraag belangrijk: heb je genoeg zicht op de prestaties van je AI-agent?

Hoe meer inzicht je hebt, hoe sneller je kunt verbeteren. Veel organisaties zoeken daarom naar manieren om de prestaties van AI-agents goed te meten. “We bevinden ons nog in een vroeg stadium als het gaat om het beoordelen van onze agents”, zegt Jesse Luke, senior manager data enablement, web, bij Salesforce. “Iedereen is nog bezig met dit proces.”

Toch kun je vandaag al veel meten. De kwaliteit en effectiviteit van AI-agents begint bij de KPI’s die je tijdens de implementatie bepaalt. Daarnaast zijn er Salesforce-tools waarmee je prestaties, fouten, escalaties en gesprekspatronen kunt analyseren. Zo zie je sneller waar je agent goed werkt en waar verbetering nodig is.

Wat maakt een AI-agent effectief?

Een goede AI-agent geeft niet alleen antwoord op vragen van klanten of medewerkers, maar helpt ze ook echt verder. De beste agents doen dat soepel en vanzelfsprekend, zonder dat de gebruiker merkt hoeveel stappen daarachter plaatsvinden.

“Hoe weet je of je AI-agent goed is en niet middelmatig?”, vroeg Mike Murchison, CEO van Ada, op LinkedIn. “Goede AI moet aanvoelen als de beste ober in je favoriete restaurant.”

Net als een goede ober speelt een sterke AI-agent in op wat je nodig hebt. Volgens Murchison onthouden goede agents je voorkeuren, herkennen ze mogelijke problemen voordat ze ontstaan en lossen ze die bijna ongemerkt op.

Dat is het ideaalbeeld. In de praktijk wil je eerst weten of je agent aan de belangrijkste KPI’s voldoet. “Als je zicht hebt op je KPI’s en kunt vaststellen hoe de agent ze beïnvloedt, ben je op goede weg”, zegt Luke.

Op de supportsite van Salesforce helpt de klantenservice-agent klanten snel aan de juiste informatie. Zo neemt de agent werk uit handen van medewerkers, terwijl klanten sneller antwoord krijgen. Salesforce publiceert wekelijks de belangrijkste prestatie-indicatoren van de agent.

In een week in september behandelde Agentforce , het Salesforce-platform voor het bouwen en implementeren van AI-agents, meer dan 61.000 supportverzoeken. Daarvan werden ruim 39.000 verzoeken opgelost en ongeveer 17.000 verzoeken overgedragen aan medewerkers.

Dit soort KPI’s laat zien of je AI-agent doet waarvoor hij is ingericht.

Waarom is zichtbaarheid belangrijk bij het evalueren van AI-agents?

Voor organisaties is zichtbaarheid een van de grootste uitdagingen bij AI-agents. Je wilt kunnen zien wat de agent doet, hoe hij reageert en of hij zich gedraagt zoals bedoeld. Het Agentforce-observatiecentrum van Salesforce is een geïntegreerd dashboard dat onder meer foutpercentages, escalaties, latentie en andere belangrijke variabelen meet. Het is onderdeel van Agentforce Studio, een set tools waarmee je de prestaties van een agent kunt volgen en beoordelen. Het dashboard geeft antwoord op vragen als: hoe ontwikkelen acceptatie en gebruik zich? En voldoen mijn agents aan wettelijke en regelgevende vereisten?

Het dashboard kan gesprekken ook indelen op onderwerp. Zo zie je beter hoe klanten je agent gebruiken. Je kunt bijvoorbeeld ontdekken dat 40% van de agentsessies over betalingsproblemen gaat en 20% over annuleringsverzoeken.

Hoe test Salesforce de prestaties van AI-agents?

Salesforce beoordeelt zijn eigen AI-agents op verschillende manieren. Het Digital Success-team van het bedrijf voert twee keer per maand synthetische tests uit om te zien hoe agents presteren in hypothetische situaties. Hiervoor gebruiken ze een interne tool die vergelijkbaar is met het Agentforce-testcentrum, waarmee klanten agents kunnen testen in beveiligde sandboxes voordat ze worden geïmplementeerd.

Eerder dit jaar voerde het team een test uit waarbij de antwoordkwaliteit lager uitviel dan verwacht. De Salesforce Help-agent scoorde 59%, terwijl de basisnorm 60% was. Toen het team verder onderzocht wat er misging, bleek dat de agent URL’s hallucineerde. De oplossing was snel duidelijk. “We brachten een update uit en voerden een nieuwe test uit”, zegt Zachary Stauber, senior director digital success, AI bij Salesforce. “Daardoor verbeterde de antwoordkwaliteit tot 67%.”

Die score gaf Salesforce een eerste goed beeld van de prestaties. Toch wilde het bedrijf ook weten hoe Agentforce in de praktijk en op grote schaal met gebruikers communiceert. Daarom wilde Salesforce ook echte gesprekken beoordelen.

Eerst keek het Data Enablement-team naar het sessieniveau: het volledige gesprek tussen de gebruiker en de agent. “Maar we ontdekten dat het niet logisch is om dat zo te doen”, zegt Manoj Arora, vooraanstaand lid van de technische staf voor software engineering bij Salesforce. “Er kunnen vragen zijn die de agent goed heeft afgehandeld, terwijl hij in dezelfde sessie op een andere vraag minder goed reageert.”

Daarna bekeek het team afzonderlijke vragen en antwoorden. Ook dat gaf geen volledig beeld, omdat één vraag en één antwoord te weinig context bieden om het hele gesprek goed te beoordelen. Uiteindelijk gebruikte het team een datascience-model dat vergelijkbare onderwerpen herkent en clustert in groepen of momenten. Daar kwam de focus te liggen.

Vervolgens gebruikte het team Agentforce om deze agentische momenten te testen en te beoordelen met een score van één tot vijf. Dat deden ze met een interne tool die vergelijkbaar is met Agentforce Optimization. Deze tool is onderdeel van het Agentforce-observatiecentrum en helpt bedrijven om gesprekken van AI-agents op een gestructureerde manier te evalueren.

Welke tools helpen bij het evalueren van AI-agents?

Met Agentforce Optimization kun je gesprekken van je AI-agent nauwkeuriger analyseren. De tool gebruikt de chatdata van je agent om interacties te beoordelen. Een score van één of twee betekent dat je agent verbetering nodig heeft. Een score van vijf laat zien dat de agent goed presteert.

“Je wilt weten of de agent in die gesprekken de juiste actie onderneemt en of die acties aansluiten bij je zakelijke doelen”, zegt Luke.

Om je een beter beeld te geven van de manier waarop Agentforce Optimization antwoorden beoordeelt, volgen hier twee voorbeelden van gesprekken op salesforce.com die het team al heeft getest:

Om te laten zien hoe Agentforce Optimization antwoorden beoordeelt, volgen hier twee voorbeelden van gesprekken op salesforce.com.

In het eerste voorbeeld vroeg een klant Agentforce om voorbeelden van klantverhalen waarin IT-experts werden geholpen om hun bedrijf te verbeteren. De agent kon geen specifieke klantverhalen vinden en vroeg of de klant naar iets anders wilde zoeken of informatie over een specifiek Salesforce-product wilde ontvangen. Deze interactie kreeg een score van één tot twee, omdat de agent de vraag van de klant niet goed kon beantwoorden.

In het tweede voorbeeld vroeg een klant of het al mogelijk was om in Tableau Cloud een semantisch model te bouwen dat door Tableau Agent wordt gebruikt. De agent gaf aan dat dit mogelijk is en legde uit dat Tableau Semantics een krachtige semantische AI-laag is die is geïntegreerd in Data Cloud. Daarna gaf de agent meer uitleg over de functies van Tableau Semantics en verwees hij naar de juiste productpagina. Deze interactie kreeg een score van vijf, omdat de klant de gewenste informatie kreeg.

Agentforce Optimization brengt meerdere interacties onder in duidelijke categorieën. Daardoor kun je de prestaties van je AI-agent op schaal evalueren. Je ziet bijvoorbeeld hoe je agent omgaat met vragen over productinformatie, technische ondersteuning of retouren. Ook zie je per categorie welke scores de agent krijgt. Zo ontdek je sneller waar je agent goed presteert en waar hij vaker een lage score krijgt.

Bedrijven kunnen de tool aanpassen aan hun eigen doelen. Een grote retailer wil misschien vooral weten hoe de agent retouren afhandelt, terwijl een ander bedrijf juist wil beoordelen hoe goed de agent technische ondersteuning biedt.

Agentforce Optimization is niet de enige tool waarmee Salesforce de prestaties van AI-agents inzichtelijker maakt. Ook Agentforce Analytics biedt meer overzicht, met informatie over het aantal gesprekken, de behandelde onderwerpen, de latentie en het aantal escalaties. Zo krijg je een completer beeld van hoe je AI-agent in de praktijk presteert.

Waarom is het belangrijk om je AI-agent te evalueren?

De reden om de prestaties van je AI-agent te beoordelen is duidelijk: je wilt weten wat goed werkt en waar verbetering nodig is. De meetgegevens laten bijvoorbeeld zien dat je content moet worden bijgewerkt, dat je agent duidelijkere instructies nodig heeft of dat bepaalde onderwerpen vaker misgaan. “Waar we meestal tegenaan lopen, is slechte data”, zegt Stauber.

Slechte data kan op verschillende manieren ontstaan. Denk aan verkeerd gelabelde data, informatie uit onbekende bronnen of data die verspreid staat over meerdere systemen. Zodra je weet waar het probleem zit, kun je gericht verbeteren. Dat doet ook het Digital Success-team van Salesforce wanneer het een fout ontdekt, zoals de eerder genoemde URL-hallucinaties. “We fixen de bug, keren terug naar het basisprogramma, testen opnieuw en bekijken dan wat er is veranderd”, zegt Stauber.

Hoe blijf je je AI-agent verbeteren?

Met de juiste tools om de prestaties van AI-agents te meten, krijgen organisaties meer grip op wat hun agent doet en waar verbetering nodig is. Wil je je AI-agent evalueren en met meer vertrouwen bepalen hoe goed hij presteert? Dan helpen duidelijke KPI’s, regelmatige tests en goede monitoring. Zo blijft je AI-agent niet alleen actief, maar ook betrouwbaar, nuttig en steeds beter afgestemd op je doelen.

Laura Hilgers

Ik ben senior schrijver voor de 360 Blog, waar ik schrijf over alles wat met AI te maken heeft. Ik ben bij Salesforce begonnen na mijn tijd bij LinkedIn, en daarvoor was ik freelance journalist. Mijn artikelen zijn verschenen in The New York Times, Sports Illustrated, Vogue en O, The Oprah Magazine.

Meer door Laura