Bedrijven genereren en verzamelen enorme hoeveelheden gegevens uit tal van bronnen, waaronder cloudomgevingen en on-premise-infrastructuren. Om waardevolle inzichten uit al deze data te halen, hebben organisaties robuuste oplossingen nodig voor databeheer- en analyse. Veel organisaties kijken daarbij in eerste instantie naar de leverancier waarvan zij vaak ook al andere enterprise-software hebben gekocht. Cloudera biedt echter een heel andere oplossing.
“De oplossing van Cloudera bestaat uit twee belangrijke componenten: Cloudera Data Platform (CDP) en Cloudera Shared Data Experience (SDX)”, vertelt Rein de Jong, Regional Vice President BeNelux, op het regionale hoofdkantoor van het bedrijf in Amsterdam. “Cloudera Data Platform (CDP) is een uitgebreide, cloud-native oplossing voor gegevensbeheer en -analyse. Het stelt bedrijven in staat om gegevens uit verschillende bronnen te verzamelen, te beheren, te verwerken en te analyseren, inclusief on-premise infrastructuren, public clouds en hybride omgevingen. CDP biedt een uniforme en veilige datastructuur die databeheer vereenvoudigt en de time-to-insight voor organisaties versnelt.”
Cloudera CDP
Wat kan een organisatie met Cloudera Data Platform? “CDP biedt allereerst een breed scala aan connectoren en tools om gegevens uit diverse bronnen op te nemen, waaronder traditionele databases, streamingplatforms, IoT-apparaten, sociale media en meer. Het ondersteunt zowel batch- als real-time gegevensopname, zodat bedrijven gegevens kunnen vastleggen en verwerken terwijl ze gegenereerd worden”, vertelt Dylienne Every, machine learning en cyber security engineer bij Cloudera.
Met CDP kunnen organisaties tevens het beheer van al deze gegevens verzorgen. Hierdoor is het onder andere mogelijk om het datamanagement zodanig in te richten dat voldaan wordt aan wet- en regelgeving met betrekking tot onder andere gegevensprivacy. Het biedt gedetailleerde toegangscontroles, versleuteling en controlemogelijkheden om gevoelige gegevens gedurende de gehele levenscyclus te beschermen.
Every: “Onderdeel van CDP is ook Apache Hadoop, Apache Spark en een aantal andere frameworks voor gedistribueerde gegevensverwerking en geavanceerde analyses. Het stelt data-engineers, datawetenschappers en bedrijfsanalisten in staat inzichten te halen uit grootschalige datasets en machine learning-modellen te bouwen voor voorspellende analyses. CDP kan bovendien worden geïntegreerd met populaire machine learning- en AI-tools, waardoor organisaties geavanceerde analyses kunnen uitvoeren voor geautomatiseerde besluitvorming. Het ondersteunt modeltraining, implementatie en monitoring, zodat data-driven organisaties het volledige potentieel van hun gegevens kunnen benutten.”
Cloudera SDX
“De tweede component is Cloudera Shared Data Experience (SDX)”, licht De Jong toe. “Hiermee wordt gegevensbeheer en samenwerking mogelijk gemaakt in zowel cloud- als on-premise omgevingen. SDX biedt een uniforme metadatacatalogus en een raamwerk voor beveiliging en governance, waarmee organisaties data-assets consistent en veilig kunnen beheren.”
Cloudera SDX onderhoudt een gecentraliseerde metadatacatalogus die fungeert als de enige bron van waarheid voor alle data-assets binnen een organisatie. Het maakt het ontdekken van gegevens, het volgen van de herkomst van data en het beheer van metagegevens mogelijk. SDX dwingt een consistent beleid voor gegevensbeheer af in diverse omgevingen, waardoor naleving van wettelijke vereisten wordt gegarandeerd. Het vergemakkelijkt tevens gegevensclassificatie, het volgen van data-afkomst en toegangscontrole, zodat organisaties gegevensintegriteit kunnen behouden en kunnen voldoen aan wettelijke verplichtingen.
“Een ander kenmerk van SDX is dat het samenwerking bevordert tussen datateams door een veilige en beheerde omgeving te bieden voor het delen van en toegang krijgen tot data”, meent Every. “Het stelt data-analisten en zakelijke gebruikers in staat om selfservice-analysemogelijkheden te benutten, zodat ze gemakkelijk data kunnen verkennen en visualiseren.”
Interessant is dat SDX gegevensbeheer en beveiligingsbeleid uitbreidt naar multi-cloud en hybride omgevingen. Met andere woorden, het stelt organisaties in staat om consistent gegevensbeheer te behouden – ook als deze data afkomstig is uit tal van verschillende infrastructuuromgevingen. Hier zit een belangrijke mogelijkheid voor organisaties die in de loop van de tijd gegevens zijn gaan vastleggen in verschillende omgevingen. Het maakt het bovendien mogelijk om voor specifieke toepassingen de best passende omgeving te kiezen. Anders gezegd: welke cloud-omgeving past op welk moment het beste of is wellicht toch on-premise beter? Dit soort keuzes kunnen nu gemaakt worden zonder dat dit het analyseren van de gegevens in al die omgevingen lastiger maakt. De business krijgt hiermee dus veel meer flexibiliteit om te bepalen wat het juiste platform is om data op te slaan
“Cloudera’s suite van data-integratietools en -connectoren stelt bedrijven in staat om data probleemloos te integreren en te transformeren ongeacht de bronnen (multiclouds of on-premise) en formaten”, stelt De Jong. “Het maakt daarmee een efficiënte integratie van gegevens mogelijk tussen on-premise infrastructuren, public clouds en hybride omgevingen.”