Wat is zero-copy en hoe het werkt?



Zero-copy-integratie maakt realtime datatoegang mogelijk tussen je Customer Data Platform (CDP) en een datawarehouse, zonder dat daarbij data wordt verplaatst. Dit bespaart kosten, vermindert risico’s en versnelt klantinzichten.
Weet je nog de laatste keer dat je ging verhuizen? Je moest waarschijnlijk te veel spullen inpakken, in een vrachtwagen vervoeren en op de nieuwe locatie uitpakken – in de hoop dat alles de reis had overleefd. Stel je voor dat je je meubels en bezittingen gewoon kon teleporteren naar je nieuwe huis. In de fysieke wereld is dat (nog) niet mogelijk, maar met zero-copy-integratie is dat wel een manier om met je klantdata om te gaan.
Dankzij zero-copy of zero ETL (extract-transform-load) is het mogelijk om gegevens te delen tussen twee of meer archieven zonder deze daadwerkelijk te verplaatsen. Dit is goed nieuws voor bedrijven die data opslaan in een cloud-datawarehouse zoals Snowflake of Google BigQuery. Sommigen van hen zijn terughoudend om gebruik te maken van een CDP omdat ze geen data willen dupliceren.
En dat hoeft ook niet. Met behulp van zero-copy-integratie kunnen gebruikers profiteren van de voordelen van een CDP, zoals dataharmonisatie, identiteitsbeheer, ingebouwde analyse en activering, zonder de nadelen van fysieke dataverplaatsing.
Het volgende komt aan bod:
- Wat is zero-copy-integratie?
- Wat is een datawarehouse?
- Hoe het werkt: van CDP naar datawarehouse
- Hoe het werkt: van datawarehouse naar CDP
Wat is zero-copy-integratie?
Met zero-copy-integratie kun je toegang krijgen tot data die tegelijkertijd in meerdere verschillende databases staan, zonder iets te hoeven verplaatsen, kopiëren of opnieuw te formatteren. Het maakt de toegang sneller en eenvoudiger en het vermindert tegelijkertijd de kosten en het risico op fouten die altijd ontstaan wanneer data moeten worden verplaatst of gewijzigd.
Het kopiëren van data van de ene database naar de andere komt vaak voor. Meestal is er bij dit proces sprake van een vorm van datatransformatie die ETL wordt genoemd. Dit kan een nuttige en zelfs noodzakelijke stap zijn bij het beheren van bedrijfsdata.
Maar het heeft ook zijn uitdagingen. Dit zijn een aantal verschillen tussen traditionele (kopieer)methoden en de zero-copy-aanpak:
Traditioneel | Zero-copy | |
---|---|---|
Replicatie | Brondata gekopieerd van de oorspronkelijke locatie naar het doel | Data blijft op de oorspronkelijke locatie |
Updates | Data is alleen nauwkeurig vanaf het laatste synchronisatiepunt | Data is in realtime toegankelijk |
Kosten | De gebruiker betaalt de kosten voor het verplaatsen en synchroniseren van data | Geen kosten voor dataverplaatsing |
Voorschriften | Moeilijker om te voldoen aan de regelgeving vanwege complexer beheer | Gebruiker alleen verantwoordelijk voor brondata |
Fouten | Elke dataverplaatsing brengt het risico op fouten of vergissingen met zich mee | Geen fouten door verplaatsing |
Onderhoud | Kopiëren en synchroniseren zorgt voor meer complexiteit | Eenvoudiger te beheren |
Doorgaans brengt het fysiek kopiëren van data kosten met zich mee voor datatransport en een risico op fouten, bemoeilijkt het databeheer en -governance en zorgt het voor vertragingen bij het synchroniseren van gegevens.
Hoe gaat zero-copy-integratie in zijn werk? Het feitelijke mechanisme verschilt van platform tot platform en het is een verschil of je toegang hebt tot data vanuit het CDP naar het datawarehouse of vice versa.
In de volgende voorbeelden gebruiken we Salesforce Data Cloud als het CDP en onze partner Snowflake als het datawarehouse. Deze kunnen worden vervangen door andere leveranciers met nagenoeg dezelfde uitleg.
Meer informatie
Wat is een datawarehouse?
Een datawarehouse is niet meer dan een betrouwbare plek voor de opslag van en toegang tot data die belangrijk is voor het bedrijf.
Traditionele datawarehouses werken met zeer gestructureerde data in opgemaakte tabellen. Vaak zijn ze vrij traag en ingewikkeld. Aan de andere kant kunnen moderne datawarehouses zoals Snowflake bijna elk type data aan, verwerken ze deze snel en zijn ze eenvoudig in gebruik. Omdat ze zijn gebouwd op cloudplatforms zoals Amazon en Google, zijn ze moeiteloos te koppelen aan andere systemen zoals CDP’s die gebruikmaken van dezelfde platforms.
Hoe het werkt: van CDP naar datawarehouse
In dit geval bevinden we ons in ons datawarehouse en willen we toegang tot data die zich in het CDP bevinden. Met andere woorden, informatie gaat vanuit het CDP naar het datawarehouse. Dit proces wordt ook wel datasharing genoemd.
De gebruikelijke stappen zijn:
- Vaststellen van de objecten (of stukjes data) in het CDP die je wilt delen. In het geval van Salesforce Data Cloud worden dit data-lake-objecten (opgeschoonde data), datamodel-objecten (gestructureerd door de CDP-gebruiker voor zijn of haar toepassingen) en berekende inzicht-objecten (voor formules zoals lifetime value) genoemd.
- Koppel deze objecten met behulp van point-and-click aan het doel, in dit geval Snowflake.
- In Snowflake kan de gebruiker tegelijkertijd query’s uitvoeren op gegevens in Snowflake en op de objecten die via de datashare zijn gekoppeld.
Achter de schermen maakt het proces ‘virtuele tabellen’ die de data in Data Cloud aan Snowflake beschrijven. Een virtuele tabel is als een venster waardoor je de data in een database ziet, maar in plaats van daadwerkelijke data te kopiëren en op te slaan, bevat een virtuele tabel alleen de structuur van de data. Het is een blauwdruk of pointer naar de juiste plaats in het CDP om de data op te halen, maar de data zelf blijven in het CDP.
“Het is mogelijk om live data op te vragen in Salesforce vanuit Snowflake en ervoor te zorgen dat wijzigingen in de Salesforce-objecten worden weerspiegeld in Snowflake”, legt Salesforce Data Cloud product manager Sriram Sethuraman uit. “Hierdoor kunnen ontwikkelaars en dataspecialisten machine learning-modellen en AI-gestuurde apps bouwen bovenop het Snowflake-platform waarbij Salesforce- en Snowflake-data wordt samengevoegd.”
Hoe het werkt: van datawarehouse naar CDP
Als we in ons CDP zitten, willen we toegang krijgen tot data die zich in ons datawarehouse bevinden. Dit proces wordt ook wel datafederatie genoemd.
Er zijn tal van goede redenen om dit te doen. Datawarehouses zoals Snowflake en Google BigQuery bevatten meestal een enorme hoeveelheid data, waaronder transactiedata zoals aankopen en productdata. Hoewel dit geen typische ‘klantdata’ zijn, kan dergelijke informatie heel nuttig zijn bij het berekenen van de loyaliteitsstatus van een klant of het maken van een aanbeveling op basis van producten die ze kopen.
Dit is bijvoorbeeld hoe je toegang kunt krijgen tot data in een datawarehouse in Salesforce Data Cloud:
- Salesforce Data Cloud ‘mount’ tabellen uit het datawarehouse als externe data-lake-objecten. (‘Mounting’ is het proces waarbij een virtuele datablauwdruk wordt gemaakt, zoals hierboven beschreven.)
- Data Cloud voert zijn gebruikelijke functies uit, zoals ID-beheer, analyse, segmentatie, enz.
- Het CDP heeft toegang tot gegevens uit het datawarehouse door federatieve (of gecombineerde) query’s uit te voeren die gegevens bevatten in Data Cloud en de objecten die door het datawarehouse worden geleverd.
Word een zero-copy-held
In dit gratis webinar zie je hoe bedrijven zero-copy-technologie gebruiken met Data Cloud en Snowflake om zaken minder ingewikkeld te maken en een betere klantervaring te bieden.


