Van zoekfunctie tot beveiliging: zo bouw je een data lake op

6 mei 2022

Data lakes zijn vandaag alom­te­gen­woordig. Ze verza­melen alle gegevens voor je bedrijf zonder dat de gebrui­kers rekening hoeven te houden met verschil­lende gege­vens­bronnen, gege­vens­lo­ca­ties, verschil­lende bevei­li­gings­me­cha­nismen in elk systeem en diverse tech­no­lo­gieën om die gegevens vast te leggen. Ook Google ziet het belang van data lakes in en onthulde onlangs nog oplos­singen zoals BigLake om data­wa­re­houses en data lakes te verenigen. Maar om je gegevens waardevol te maken, is het belang­rijk om een data lake op de juiste manier op te bouwen.

Een data lake is een opslag­plaats met onbe­werkte infor­matie. Dat wil zeggen dat de gegevens in het formaat worden bewaard waarin ze bestonden toen ze verzameld werden. De gegevens in een data lake kunnen verschil­lende vormen hebben en zijn niet op een speciale manier gerang­schikt. Een van de voordelen van data lake is dat je vooraf geen duidelijk gede­fi­ni­eerd datamodel hoeft te hebben. Gegevens worden ingevoerd in het data lake, dan maakt men een verbin­ding en begin je met analy­seren, rappor­teren of doen wat je van plan was. Zo zijn de gegevens voor iedereen in het bedrijf beschik­baar, mits je rechten hebt.

Architectuur is cruciaal voor databeheer

Sceptici beweren dat veel bedrijven de laatste jaren fors in data lakes inves­teerden, maar intussen niet weten wat ze ermee moeten aanvangen. Zo wordt gesteld dat bedrijven heel wat data samen­brachten in een data­ba­se­plat­form waar ze niets mee zijn, en dat vragen over de orga­ni­satie en processen dikwijls onbe­ant­woord worden omdat de data niet gelinkt of bevraag­baar zijn.

Met een degelijke data lake-archi­tec­tuur hoeft dit echter geen probleem te zijn. Zo kan je een data-catalog aanmaken en een zoek­functie inscha­kelen, zodat data beter beheerd en vindbaar zijn. De archi­tec­tuur van een data lake verwijst naar de functies die zijn opgenomen om het werken met de gegevens te verge­mak­ke­lijken. Hoewel data lakes onge­struc­tu­reerd zijn, is het toch belang­rijk om ervoor te zorgen dat ze de func­ti­o­na­li­teit en ontwerp­func­ties bieden die je orga­ni­satie nodig heeft om samen gemak­ke­lijk de gegevens te verwerken die ze bevatten.

4 tips voor een sterke data lake-opbouw

Het is belang­rijk om vanaf het begin de juiste functies in je data lake-archi­tec­tuur te bouwen. Zo zorg je ervoor dat je op de gewenste manier met de gegevens kan werken. 

1. Zet het beheer op – Gege­vens­be­heer zorgt ervoor dat orga­ni­sa­ties processen volgen om data op de juiste manier te gebruiken. Bovendien maakt het effi­ci­ënte gege­vens­kwa­li­teit en gege­vens­be­vei­li­ging mogelijk. Zonder efficiënt gege­vens­be­heer kun je niet beschikken over een syste­ma­ti­sche en voor­spel­bare bena­de­ring om gegevens te hanteren.

Van bij het begin moeten de juiste processen, stan­daarden en bere­ke­ningen worden opgesteld. Bijvoor­beeld om de grootte van de bestanden te stan­daar­di­seren, is het verstandig om een grens te bepalen van de bestands­grootte. Bestanden die te groot zijn, kunnen het bewerken van gegevens namelijk bemoeilijken.

Ook moet je datateam een werkwijze bepalen om problemen met de gege­vens­kwa­li­teit in het data lake te iden­ti­fi­ceren. Idealiter wordt dit proces zoveel mogelijk geau­to­ma­ti­seerd door het data lake te scannen op indi­ca­ties van problemen met de kwaliteit, zoals onvol­le­dige of onlees­bare gegevens.

2. Stel een data-catalog op – Een data-catalog is een infor­ma­tie­bron die in een data lake is opgenomen. Het is de bedoeling om het voor belang­heb­benden binnen en buiten je orga­ni­satie gemak­ke­lijk te maken om het verband met de gegevens te begrijpen, zodat ze er snel mee aan de slag kunnen.

Het type infor­matie in een data-catalog kan variëren, maar ze bevatten meestal elementen zoals:

  • Welke contacten zijn nodig om met de gegevens te werken
  • Metadata over waar de gegevens vandaan komen en hoe lang deze zijn opgeslagen
  • Een beschrij­ving van welke appli­ca­ties van de gegevens gebruik maken

Als je vanaf het begin een data-catalog in je data lake-archi­tec­tuur opneemt, is het gemak­ke­lijk om de catalog uit te breiden en up-to-date te houden naarmate data lake wordt uitge­breid. Daarvoor moet je eerst op basis van de behoeften beslissen welk type infor­matie je in je data-catalog wilt opnemen. Vervol­gens distri­bueer je tools die auto­ma­tisch items aan de data-catalog toevoegen door elk nieuw data-item te scannen wanneer het aan je lake wordt toegevoegd.

3. Activeer de zoek­functie – Uiteraard is het ook belang­rijk om in het data lake te kunnen zoeken. Een effi­ci­ënte zoek­functie voor data-catalogs moet de moge­lijk­heid bieden om gege­vens­bronnen te vinden op basis van kenmerken zoals grootte, datum van herkomst en inhoud.

Omdat data lakes meestal erg groot zijn, is het vaak niet mogelijk om voor elke zoek­op­dracht het volledige data lake te analy­seren. Bouw in plaats daarvan een index van gege­ven­si­tems om het zoeken makke­lijker te maken, en bouw regel­matig voort op de index om deze up-to-date te houden.

4. Zorg voor een goede bevei­li­ging – Gege­vens­be­vei­li­ging is niet altijd nodig om met gegevens in een data lake te werken, maar het is cruciaal om te voldoen aan de priva­cy­ve­r­eisten en ervoor te zorgen dat gevoelige infor­matie privé blijft.

Twee best practices voor het opnemen van gege­vens­be­vei­li­ging in de data lake-opbouw:

  • Zorg ervoor dat toegangs­con­troles worden gesloten, zodat niet-geau­to­ri­seerde partijen geen toegang krijgen tot het data lake. Toegangs­con­troles kunnen worden geïm­ple­men­teerd op lokale servers als je gegevens lokaal worden opge­slagen, of via het IAM-raamwerk van een cloud­pro­vider voor cloud­ge­ba­seerde gegevensopslag.
  • Bouw versleu­te­ling in je data lake-opbouw in om onge­au­to­ri­seerde toegang tot gegevens te voorkomen. Onthoud echter dat versleu­te­ling geen wonder­middel is. Hoewel gegevens worden gecodeerd terwijl ze worden opge­slagen, worden ze vaak gede­co­deerd en niet langer beschermd wanneer ze in appli­ca­ties worden gebruikt.

Twee voorbeelden van succesvolle data lake-architectuur in gezondheid en technologie

  1. Data lake-archi­tec­tuur voor biofarma – Astra­Zeneca is een biofar­ma­ceu­tisch bedrijf dat zich richt op het innoveren, ontwik­kelen en produ­ceren van genees­mid­delen voor een wereld­wijde medische gemeen­schap. Met behulp van een cloud­ge­ba­seerd data lake kan Astra­Zeneca  20.000 terabyte aan data opslaan en beheren. Het bedrijf kan meerdere interne groepen onder­steunen met behulp van één enkel data lake. Dit kan omdat het bedrijf een veel­zij­dige strategie ontwik­kelde voor de archi­tec­tuur en het beheer van data lakes.
  2. Data lake-opbouw voor de tech­no­lo­gie­sector – Johnson Controls produ­ceert voor klanten over de hele wereld hightech oplos­singen voor gebou­wen­be­heer en airco. Het bedrijf vertrouwt op gegevens om een consis­tent beeld van zijn klanten te krijgen. Met behulp van een cloud­ge­ba­seerde data lake-archi­tec­tuur verplaatst het bedrijf steeds meer van zijn gege­vens­ac­ti­vi­teiten naar de cloud om gegevens voor alle eenheden in de orga­ni­satie op een veilige manier beschik­baar te maken.

Pin It on Pinterest

Share This