Hoe kun je data opschonen voor AI-agents zonder je budget te overschrijden?

Je data voorbereiden kost tijd, arbeidskrachten en technische tools. Dit zijn vijf kosteneffectieve manieren om dat te doen.
Slechte data kost bedrijven veel geld, met name als met die data AI gevoed wordt.
Over welke bedragen hebben we het dan? Uit een onderzoek uit 2024 van data-integratiebedrijf Fivetran bleek dat kunstmatige intelligentie (AI) getraind met onnauwkeurige, onvolledige of laagwaardige data grote bedrijven 6% van hun omzet kan kosten. Dat komt gemiddeld neer op $ 406 miljoen per jaar.
“Als je geen goede data hebt, dan zul je waarschijnlijk niet de beste zakelijke beslissingen nemen”, aldus Karim Habbal, Vice President Data Management Solutions bij Salesforce. “Dit heeft echt impact op zowel de dagelijkse tactische beslissingen als de beslissingen die voor de lange termijn worden genomen.”
Aangezien het een groot deel van de inkomsten betreft, zou je denken dat leiders snel aan de slag zouden gaan met het opschonen van data. Maar tijd, arbeidskrachten en technische tools zijn duur en sommige bedrijven willen deze investeringen niet doen. Dat is vrij kortzichtig. Zelfs een geringe investering kan zijn vruchten afwerpen. Onze lijst met vijf kosteneffectieve manieren om data op te schonen kan je op weg helpen.
Wat is jouw strategie voor agentische AI?
Ons playbook is je gratis handleiding om een agentische organisatie te worden. Ontdek praktische use cases, implementatietips en AI-vaardigheden en download interactieve werkbladen voor je team.



De kosten van slechte data
Veel grote merken hebben geleerd dat slechte data schadelijk kunnen zijn voor zowel hun de reputatie als bedrijfsresultaten. Een grote luchtvaartmaatschappij belandde voor de rechter nadat de chatbot het beleid inzake reizen in verband met een sterfgeval onjuist had uitgelegd. De klant kreeg te horen dat hij recht had op een terugbetaling, terwijl dat niet zo was. In een ander geval leidde een dataprobleem in een geautomatiseerd luchtverkeersleidingssysteem tot annulering van 2000 vluchten in het VK en Ierland, waardoor duizenden reizigers strandden en luchtvaartmaatschappijen een verlies van maar liefst $ 135 miljoen leden.
De kosten kunnen ook subtieler zijn. Een klein typfoutje in het adres van een klant kan leiden tot misgelopen communicatie, gemiste leveringen en omzetverlies. En dan hebben we het nog niet eens over het vertrouwen van de klant, iets waar eigenlijk geen prijskaartje aan te hangen is. Als een AI-agent onzin uitkraamt of vragen verkeerd beantwoordt, gaan klanten gewoon ergens anders heen. Dat het door AI kwam, maakt ze niet uit; ze zullen zich alleen herinneren dat het jouw bedrijf was dat het liet misgaan.
Hoe schoon je je data op zonder hoge kosten?
Je AI-agent is zo goed als de data die je hem voedt. Het is misschien gemakkelijker (en goedkoper) om je data voor te bereiden dan je denkt. Dat werkt zo:
1. Prioriteer welke data als eerste opgeschoond moeten worden
Schoon eerst alleen de data op die je agent nodig heeft.
Dit doet Salesforce ook met zijn eigen agents. Deze worden aangestuurd door Agentforce, het platform van ons bedrijf om AI-agents te bouwen en implementeren. Wanneer het productteam een agent bouwt, richten ze zich op de taak (of taken) die de agent moet uitvoeren.Deze taken worden topics genoemd en vormen de manier waarop een gebruikersvraag wordt gekoppeld aan een specifieke handeling die de agent kan uitvoeren,” zegt Daniel Zielaski, Vice President Data Science bij Salesforce. Zodra het productteam een topic heeft vastgesteld, bouwen ze een corpus op — de kennisbank die een agent nodig heeft om zijn taak goed uit te voeren.
Zielaski gaf daarbij het voorbeeld van de nieuwe SDR-agent (Sales Development Representative) van Salesforce. De SDR-agent heeft schone en bijgewerkte account-, lead- en contactdata nodig om outreach-e-mails naar prospects te schrijven. De agent heeft echter geen informatie nodig over het oplossen van een technisch probleem. “We identificeren de data die een specifiek topic verbruikt. Vervolgens richten we ons op het verbeteren van de algehele kwaliteit, in plaats van alles op een grote hoop te gooien en te proberen al onze data op te schonen,” vertelt hij.
2. Beheers de arbeidskosten
Voor veel bedrijven zijn arbeidskosten de grootste datagerelateerde kostenpost. Een data-engineer in San Francisco verdient bijvoorbeeld een gemiddeld salaris van $ 178.000 per jaar. Wanneer je een volledig intern datateam samenstelt, kunnen de kosten voor salarissen, training en secundaire arbeidsvoorwaarden aardig oplopen.
Interne teams zijn cruciaal voor het omgaan met gevoelige data zoals gezondheids- of financiële informatie. Ook bieden deze teams continuïteit en beschikken zij over institutionele kennis. Voor minder gevoelige data kun je echter een externe provider of freelancers inschakelen, waardoor je alleen betaalt voor de diensten die je nodig hebt. Een combinatie van deze opties, een hybride aanpak, behoort ook tot de mogelijkheden.
Je kunt ook de Data Cloud van Salesforce gebruiken, die één van de grootste problemen oplost waarmee bedrijven te maken krijgen: data uit verschillende softwaresystemen op één plek neerzetten, zodat een AI-agent de gegevens kan lezen. “Dit product is zo ontworpen dat je niet hoeft te betalen voor een groot data-engineeringteam”, zegt Zielaski. “Je hoeft ook niet te betalen voor een architectuurteam. Je hoeft geen groep mensen te betalen die code gebruiken om data van de ene naar de andere plek te verplaatsen.”
3. Automatiseer het opschonen van data zoveel mogelijk
Uit de Fivetran-enquête bleek dat datascientists het grootste deel van hun tijd (67%) besteden aan het voorbereiden van data in plaats van aan het bouwen en verfijnen van AI-modellen. Er is een manier om de last te verlichten: datakwaliteitsprocessen verbeteren.
Automatisering, door middel van code of datakwaliteitstools, kan de benodigde tijd om data te controleren en op te schonen drastisch verkorten. Daar zijn wel investeringen voor nodig. Uit een rapport van Forrester bleek dat datakwaliteitstools problemen eerder opsporen, waardoor de oplossingstijd met 90% wordt verbeterd en 5184 uur aan data-engineering worden bespaard.
Dit doen deze tools deels door afwijkingen op te sporen. Het team van Habbal gebruikt bijvoorbeeld verschillende datakwaliteitstools om datasets automatisch te profileren, waaronder de datasets voor de berekening van de jaarlijkse contractwaarde (ACV), een belangrijke financiële maatstaf. Hij deelde een hypothetisch voorbeeld van een dataset waarin het typische ACV-bereik $ 10 miljoen tot $ 50 miljoen per klant bedraagt. Habbal zei hierover: “Als de datakwaliteitstool een ACV voor $ 30 ontdekt, dan krijgen we een melding en kunnen we het nader onderzoeken.”
Het team van Habbal gebruikt deze tools ook om data te controleren op volledigheid, tijdigheid, nauwkeurigheid en conformiteit. “Dit betekent in feite dat ik een regel kan opstellen die zegt: ‘Activeer een melding wanneer de volledigheid van de data onder de 99% daalt’,” vertelt hij.
Waarom is dit zo belangrijk? “Als we de driemaandelijkse ACV rapporteren aan [Salesforce CEO] Marc Benioff, dan willen we hem geen dataset toesturen die maar voor 90% compleet is”, aldus Habbal. “Voor die situatie hebben we bij onze datakwaliteitstool een zeer hoge drempel, waarbij de data voor 99% of meer compleet moet zijn.”
Houd je data lean en schoon
Verbeter de datakwaliteit door indelingen te standaardiseren, informatie bij te werken en dubbele records samen te voegen. Ontdek het op Trailhead, het gratis online leerplatform van Salesforce.



4. Stel een governancebeleid voor data op
Een andere manier om de kosten binnen de perken te houden, is het opstellen van een duidelijk beleid voor databeheer. Hieronder wordt duidelijk aangegeven wie verantwoordelijk is voor een specifieke dataset.
Neem het hypothetische voorbeeld van data die in een bedrijfsapplicatie wordt aangemaakt. Naarmate de data stroomafwaarts wordt verplaatst voor analytische of rapportagetoepassingen, kan die zomaar vier keer worden gerepliceerd. “Wanneer iemand een probleem met de data ontdekt, willen we niet dat vier verschillende teams hun kopieën van de data moeten herstellen,” zegt Habbal. Als er een duidelijke eigenaar van de data is, is er maar één team verantwoordelijk — en dat betekent weer minder arbeidskosten.
Een governancebeleid dat je standpunt over toegang, beveiliging en naleving vastlegt, beschermt je ook tegen risico’s. Fouten in de financiële rapportage of een onjuiste omgang met persoonsgegevens kunnen leiden tot dure boetes en juridische strijd. Ook nalevingsproblemen trekken een zware wissel op de resources. Een duidelijk governancebeleid vermindert deze risico’s.
5. Gebruik AI om slechte data te voorkomen
In 1992 introduceerden George Labovitz en Yu Sang Chang, destijds beiden professor aan de Boston University School of Management, de 1:10:100-regel voor datakwaliteit. Deze regel luidt:
- De kosten voor het voorkomen van slechte datakwaliteit bij de bron bedragen $ 1 per record.
- De kosten van herstel nadat een datakwaliteitsprobleem is vastgesteld, bedragen $ 10.
- De kosten van niet ingrijpen zijn $ 100.
Die cijfers zijn in de loop der jaren waarschijnlijk veranderd, maar het idee blijft hetzelfde: één van de beste manieren om geld te besparen, is voorkomen dat slechte data überhaupt in je systeem terechtkomt. AI kan daarbij helpen.
Zielaski noemde de SDR-agent van Salesforce een goed voorbeeld. Wanneer een potentiële klant de website van Salesforce bezoekt, dan krijgt de klant de vraag een formulier in te vullen dat een lead genereert. Dit formulier dient echter op specifieke wijze ingevuld te worden om gestandaardiseerde, goed geformatteerde data te creëren. Als een prospect een extra cijfer aan het telefoonnummer toevoegt, dan volgt een verzoek om het nummer opnieuw in te voeren. Als een verplicht veld leeg blijft, dan kan de klant niet op de knop ‘Verzenden’ klikken.
Het voorkomen van slechte data wordt nóg uitdagender wanneer een bedrijf verschillende namen heeft. Het Japanse Nippon Airways wordt bijvoorbeeld vaak ANA genoemd. Als de medewerkers van de luchtvaartmaatschappij op verschillende tijdstippen Salesforce-websiteformulieren invullen met verschillende bedrijfsnamen, dan worden er dubbele accounts aangemaakt. Daardoor kan het gebeuren dat Salesforce overbodige e-mails verstuurt. Om dit te voorkomen, bouwt een Salesforce-team AI-algoritmen om dergelijke invoeren te ontdubbelen en data op te schonen. “Je kunt de algoritmes beschouwen als een soort stofzuigers die constant bezig zijn met het zuiveren van al die data”, aldus Zielaski.
De inkomsten die de SDR-agent genereert, compenseren de kosten voor dit team. “Stel dat je een autonome agent bouwt die een pipeline van honderden miljoenen dollars kan genereren. Daarnaast hoef je alleen nog maar een team van vijf tot tien personen samen te stellen om de datakwaliteit te beheren,” zei Zielaski. “Ik denk dat elke CEO bereid is om die investering te doen.”
Het opschonen van data is elke cent waard
Je data voorbereiden voor AI kan een overweldigende en dure opgave lijken. Maar als je de werkzaamheden opsplitst, alleen de data opschoont die je nodig hebt en resources zorgvuldig toewijst, worden je CEO en CFO daar blij van. Dat is een investering waar niemand spijt van zal krijgen.