Cloudera CDP en SDX: voor gegevensontsluiting in cloud- én on-premise-omgevingen

12 juli 2023

Bedrijven genereren en verza­melen enorme hoeveel­heden gegevens uit tal van bronnen, waaronder cloudom­ge­vingen en on-premise-infra­struc­turen. Om waar­de­volle inzichten uit al deze data te halen, hebben orga­ni­sa­ties robuuste oplos­singen nodig voor data­be­heer- en analyse. Veel orga­ni­sa­ties kijken daarbij in eerste instantie naar de leve­ran­cier waarvan zij vaak ook al andere enter­prise-software hebben gekocht. Cloudera biedt echter een heel andere oplossing.

Rein de Jong

“De oplossing van Cloudera bestaat uit twee belang­rijke compo­nenten: Cloudera Data Platform (CDP) en Cloudera Shared Data Expe­rience (SDX)”, vertelt Rein de Jong, Regional Vice President BeNelux, op het regionale hoofd­kan­toor van het bedrijf in Amsterdam. “Cloudera Data Platform (CDP) is een uitge­breide, cloud-native oplossing voor gege­vens­be­heer en ‑analyse. Het stelt bedrijven in staat om gegevens uit verschil­lende bronnen te verza­melen, te beheren, te verwerken en te analy­seren, inclusief on-premise infra­struc­turen, public clouds en hybride omge­vingen. CDP biedt een uniforme en veilige data­struc­tuur die data­be­heer vereen­vou­digt en de time-to-insight voor orga­ni­sa­ties versnelt.”

Cloudera CDP

Wat kan een orga­ni­satie met Cloudera Data Platform? “CDP biedt aller­eerst een breed scala aan connec­toren en tools om gegevens uit diverse bronnen op te nemen, waaronder tradi­ti­o­nele databases, strea­ming­plat­forms, IoT-apparaten, sociale media en meer. Het onder­steunt zowel batch- als real-time gege­vens­op­name, zodat bedrijven gegevens kunnen vast­leggen en verwerken terwijl ze gege­ne­reerd worden”, vertelt Dylienne Every, machine learning en cyber security engineer bij Cloudera.

Dylienne Every

Met CDP kunnen orga­ni­sa­ties tevens het beheer van al deze gegevens verzorgen. Hierdoor is het onder andere mogelijk om het data­ma­na­ge­ment zodanig in te richten dat voldaan wordt aan wet–  en regel­ge­ving met betrek­king tot onder andere gege­vens­pri­vacy. Het biedt gede­tail­leerde toegangs­con­troles, versleu­te­ling en contro­le­mo­ge­lijk­heden om gevoelige gegevens gedurende de gehele levens­cy­clus te beschermen.

Every: “Onderdeel van CDP is ook Apache Hadoop, Apache Spark en een aantal andere frame­works voor gedis­tri­bu­eerde gege­vens­ver­wer­king en geavan­ceerde analyses. Het stelt data-engineers, data­we­ten­schap­pers en bedrijfs­ana­listen in staat inzichten te halen uit groot­scha­lige datasets en machine learning-modellen te bouwen voor voor­spel­lende analyses. CDP kan bovendien worden geïn­te­greerd met populaire machine learning- en AI-tools, waardoor orga­ni­sa­ties geavan­ceerde analyses kunnen uitvoeren voor geau­to­ma­ti­seerde besluit­vor­ming. Het onder­steunt model­trai­ning, imple­men­tatie en moni­to­ring, zodat data-driven orga­ni­sa­ties het volledige poten­tieel van hun gegevens kunnen benutten.”

Cloudera SDX

“De tweede component is Cloudera Shared Data Expe­rience (SDX)”, licht De Jong toe. “Hiermee wordt gege­vens­be­heer en samen­wer­king mogelijk gemaakt in zowel cloud- als on-premise omge­vingen. SDX biedt een uniforme meta­da­t­aca­ta­logus en een raamwerk voor bevei­li­ging en gover­nance, waarmee orga­ni­sa­ties data-assets consis­tent en veilig kunnen beheren.”

Cloudera SDX onder­houdt een gecen­tra­li­seerde meta­da­t­aca­ta­logus die fungeert als de enige bron van waarheid voor alle data-assets binnen een orga­ni­satie. Het maakt het ontdekken van gegevens, het volgen van de herkomst van data en het beheer van meta­ge­ge­vens mogelijk. SDX dwingt een consis­tent beleid voor gege­vens­be­heer af in diverse omge­vingen, waardoor naleving van wette­lijke vereisten wordt gega­ran­deerd. Het verge­mak­ke­lijkt tevens gege­vens­clas­si­fi­catie, het volgen van data-afkomst en toegangs­con­trole, zodat orga­ni­sa­ties gege­vens­in­te­gri­teit kunnen behouden en kunnen voldoen aan wette­lijke verplichtingen.

“Een ander kenmerk van SDX is dat het samen­wer­king bevordert tussen datateams door een veilige en beheerde omgeving te bieden voor het delen van en toegang krijgen tot data”, meent Every. “Het stelt data-analisten en zakelijke gebrui­kers in staat om self­ser­vice-analy­se­mo­ge­lijk­heden te benutten, zodat ze gemak­ke­lijk data kunnen verkennen en visualiseren.”

Inte­res­sant is dat SDX gege­vens­be­heer en bevei­li­gings­be­leid uitbreidt naar multi-cloud en hybride omge­vingen. Met andere woorden, het stelt orga­ni­sa­ties in staat om consis­tent gege­vens­be­heer te behouden – ook als deze data afkomstig is uit tal van verschil­lende infra­struc­tuur­om­ge­vingen. Hier zit een belang­rijke moge­lijk­heid voor orga­ni­sa­ties die in de loop van de tijd gegevens zijn gaan vast­leggen in verschil­lende omge­vingen. Het maakt het bovendien mogelijk om voor speci­fieke toepas­singen de best passende omgeving te kiezen. Anders gezegd: welke cloud-omgeving past op welk moment het beste of is wellicht toch on-premise beter? Dit soort keuzes kunnen nu gemaakt worden zonder dat dit het analy­seren van de gegevens in al die omge­vingen lastiger maakt. De business krijgt hiermee dus veel meer flexi­bi­li­teit om te bepalen wat het juiste platform is om data op te slaan

“Cloudera’s suite van data-inte­gra­tie­tools en ‑connec­toren stelt bedrijven in staat om data probleem­loos te inte­greren en te trans­for­meren ongeacht de bronnen (multi­clouds of on-premise) en formaten”, stelt De Jong. “Het maakt daarmee een effi­ci­ënte inte­gratie van gegevens mogelijk tussen on-premise infra­struc­turen, public clouds en hybride omgevingen.”

Pin It on Pinterest

Share This