Data lakes zijn vandaag alomtegenwoordig. Ze verzamelen alle gegevens voor je bedrijf zonder dat de gebruikers rekening hoeven te houden met verschillende gegevensbronnen, gegevenslocaties, verschillende beveiligingsmechanismen in elk systeem en diverse technologieën om die gegevens vast te leggen. Ook Google ziet het belang van data lakes in en onthulde onlangs nog oplossingen zoals BigLake om datawarehouses en data lakes te verenigen. Maar om je gegevens waardevol te maken, is het belangrijk om een data lake op de juiste manier op te bouwen.
Een data lake is een opslagplaats met onbewerkte informatie. Dat wil zeggen dat de gegevens in het formaat worden bewaard waarin ze bestonden toen ze verzameld werden. De gegevens in een data lake kunnen verschillende vormen hebben en zijn niet op een speciale manier gerangschikt. Een van de voordelen van data lake is dat je vooraf geen duidelijk gedefinieerd datamodel hoeft te hebben. Gegevens worden ingevoerd in het data lake, dan maakt men een verbinding en begin je met analyseren, rapporteren of doen wat je van plan was. Zo zijn de gegevens voor iedereen in het bedrijf beschikbaar, mits je rechten hebt.
Architectuur is cruciaal voor databeheer
Sceptici beweren dat veel bedrijven de laatste jaren fors in data lakes investeerden, maar intussen niet weten wat ze ermee moeten aanvangen. Zo wordt gesteld dat bedrijven heel wat data samenbrachten in een databaseplatform waar ze niets mee zijn, en dat vragen over de organisatie en processen dikwijls onbeantwoord worden omdat de data niet gelinkt of bevraagbaar zijn.
Met een degelijke data lake-architectuur hoeft dit echter geen probleem te zijn. Zo kan je een data-catalog aanmaken en een zoekfunctie inschakelen, zodat data beter beheerd en vindbaar zijn. De architectuur van een data lake verwijst naar de functies die zijn opgenomen om het werken met de gegevens te vergemakkelijken. Hoewel data lakes ongestructureerd zijn, is het toch belangrijk om ervoor te zorgen dat ze de functionaliteit en ontwerpfuncties bieden die je organisatie nodig heeft om samen gemakkelijk de gegevens te verwerken die ze bevatten.
4 tips voor een sterke data lake-opbouw
Het is belangrijk om vanaf het begin de juiste functies in je data lake-architectuur te bouwen. Zo zorg je ervoor dat je op de gewenste manier met de gegevens kan werken.
1. Zet het beheer op – Gegevensbeheer zorgt ervoor dat organisaties processen volgen om data op de juiste manier te gebruiken. Bovendien maakt het efficiënte gegevenskwaliteit en gegevensbeveiliging mogelijk. Zonder efficiënt gegevensbeheer kun je niet beschikken over een systematische en voorspelbare benadering om gegevens te hanteren.
Van bij het begin moeten de juiste processen, standaarden en berekeningen worden opgesteld. Bijvoorbeeld om de grootte van de bestanden te standaardiseren, is het verstandig om een grens te bepalen van de bestandsgrootte. Bestanden die te groot zijn, kunnen het bewerken van gegevens namelijk bemoeilijken.
Ook moet je datateam een werkwijze bepalen om problemen met de gegevenskwaliteit in het data lake te identificeren. Idealiter wordt dit proces zoveel mogelijk geautomatiseerd door het data lake te scannen op indicaties van problemen met de kwaliteit, zoals onvolledige of onleesbare gegevens.
2. Stel een data-catalog op – Een data-catalog is een informatiebron die in een data lake is opgenomen. Het is de bedoeling om het voor belanghebbenden binnen en buiten je organisatie gemakkelijk te maken om het verband met de gegevens te begrijpen, zodat ze er snel mee aan de slag kunnen.
Het type informatie in een data-catalog kan variëren, maar ze bevatten meestal elementen zoals:
- Welke contacten zijn nodig om met de gegevens te werken
- Metadata over waar de gegevens vandaan komen en hoe lang deze zijn opgeslagen
- Een beschrijving van welke applicaties van de gegevens gebruik maken
Als je vanaf het begin een data-catalog in je data lake-architectuur opneemt, is het gemakkelijk om de catalog uit te breiden en up-to-date te houden naarmate data lake wordt uitgebreid. Daarvoor moet je eerst op basis van de behoeften beslissen welk type informatie je in je data-catalog wilt opnemen. Vervolgens distribueer je tools die automatisch items aan de data-catalog toevoegen door elk nieuw data-item te scannen wanneer het aan je lake wordt toegevoegd.
3. Activeer de zoekfunctie – Uiteraard is het ook belangrijk om in het data lake te kunnen zoeken. Een efficiënte zoekfunctie voor data-catalogs moet de mogelijkheid bieden om gegevensbronnen te vinden op basis van kenmerken zoals grootte, datum van herkomst en inhoud.
Omdat data lakes meestal erg groot zijn, is het vaak niet mogelijk om voor elke zoekopdracht het volledige data lake te analyseren. Bouw in plaats daarvan een index van gegevensitems om het zoeken makkelijker te maken, en bouw regelmatig voort op de index om deze up-to-date te houden.
4. Zorg voor een goede beveiliging – Gegevensbeveiliging is niet altijd nodig om met gegevens in een data lake te werken, maar het is cruciaal om te voldoen aan de privacyvereisten en ervoor te zorgen dat gevoelige informatie privé blijft.
Twee best practices voor het opnemen van gegevensbeveiliging in de data lake-opbouw:
- Zorg ervoor dat toegangscontroles worden gesloten, zodat niet-geautoriseerde partijen geen toegang krijgen tot het data lake. Toegangscontroles kunnen worden geïmplementeerd op lokale servers als je gegevens lokaal worden opgeslagen, of via het IAM-raamwerk van een cloudprovider voor cloudgebaseerde gegevensopslag.
- Bouw versleuteling in je data lake-opbouw in om ongeautoriseerde toegang tot gegevens te voorkomen. Onthoud echter dat versleuteling geen wondermiddel is. Hoewel gegevens worden gecodeerd terwijl ze worden opgeslagen, worden ze vaak gedecodeerd en niet langer beschermd wanneer ze in applicaties worden gebruikt.
Twee voorbeelden van succesvolle data lake-architectuur in gezondheid en technologie
- Data lake-architectuur voor biofarma – AstraZeneca is een biofarmaceutisch bedrijf dat zich richt op het innoveren, ontwikkelen en produceren van geneesmiddelen voor een wereldwijde medische gemeenschap. Met behulp van een cloudgebaseerd data lake kan AstraZeneca 20.000 terabyte aan data opslaan en beheren. Het bedrijf kan meerdere interne groepen ondersteunen met behulp van één enkel data lake. Dit kan omdat het bedrijf een veelzijdige strategie ontwikkelde voor de architectuur en het beheer van data lakes.
- Data lake-opbouw voor de technologiesector – Johnson Controls produceert voor klanten over de hele wereld hightech oplossingen voor gebouwenbeheer en airco. Het bedrijf vertrouwt op gegevens om een consistent beeld van zijn klanten te krijgen. Met behulp van een cloudgebaseerde data lake-architectuur verplaatst het bedrijf steeds meer van zijn gegevensactiviteiten naar de cloud om gegevens voor alle eenheden in de organisatie op een veilige manier beschikbaar te maken.