Hoe ziet een volgende generatie hybrid data lakehouse eruit?

5 maart 2024

Kunstmatige intelligentie (AI) gaat de wijze waarop bijna elke organisatie opereert opnieuw vormgeven. Uit recent onderzoek van Cloudera blijkt dat ruim een derde (36%) van de ondervraagde organisaties in de VS zich al in de oriëntatiefase voor een AI-implementatie bevindt. Maar ondanks de snelle opkomst van AI is het benutten daarvan voor veel organisaties een flinke uitdaging. AI en alle andere analyses, zijn namelijk zo goed of slecht als de data waarop ze zijn gebaseerd en daarmee worstelen veel organisaties.

Organisaties hebben moeite met de toegang tot en het verzamelen van alle data, vaak uiteenlopende soorten en in silo’s opgeslagen, die nodig zijn om AI aan te drijven. Hierdoor zijn veel organisaties niet in staat de zakelijke inzichten en waarde te creëren waarop ze hadden gehoopt. Worstelend met unieke uitdagingen rond gedistribueerde data-infrastructuren, governance en toenemende cyberdreigingen, hebben organisaties deskundige ondersteuning nodig om de voordelen van AI te kunnen benutten.

Om de data‑, AI- en analysebehoeften van organisaties te ondersteunen, onthult Cloudera de volgende generatie van haar open data lakehouse. Deze bevat verschillende verbeteringen om zakelijke AI snel te kunnen opschalen en meer bedrijfswaarde te leveren. Een belangrijke is dat het open data lakehouse nu Apache Iceberg biedt voor de cloud enon-premises. Volgens IDC wordt momenteel ongeveer de helft van alle productiedata van bedrijven in de wereld nog op locatie beheerd.

Het nieuwe generatie Cloudera-platform biedt organisaties uitgebreide mogelijkheden om dezelfde open data lakehouse-functionaliteit vanuit de cloud naar hun datacenters te brengen. Het platform is namelijk volledig klaar om de complexiteit van het beheer van uiterst gevoelige en bedrijfskritische data aan te pakken en tegelijkertijd de meeste waarde uit het gebruik ervan te halen.

Apache Iceberg

De toevoeging van Apache Iceberg-ondersteuning aan het Cloudera-platform ontgrendelt mogelijkheden om kritische data te gebruiken voor AI en het verbeteren van foutgevoelige processen. Dit maakt het mogelijk om nieuwe toepassingen te implementeren, prestaties te optimaliseren en de kosten te verlagen. Iceberg levert het open tabelformaat, zodat organisaties AI in de lokale omgeving aan hun data kunnen laten werken. Deze aanpak maakt nieuwe verwerkingen mogelijk, zoals met Spark, Flink, Impala en NiFi, waardoor gelijktijdige toegang en verwerking van datasets binnen Iceberg mogelijk wordt.

Met functies zoals time travel, schema evolution en gestroomlijnde data discovery stelt Iceberg organisaties in staat hun data lake-beheer te verbeteren en tevens de data-integriteit te handhaven. Mogelijkheden voor in-place schema evolution en ACID-transacties op het data lakehouse zijn cruciale onderdelen voor organisaties die willen voldoen aan de Algemene Verordening Gegevensbescherming (AVG) en andere regelgeving. De Shared Data Experience (SDX) laag voor databeveiliging en ‑beheer, is een fundamenteel onderdeel van het open data lakehouse, zowel in het datacenter als in de cloud.

Apache Ozone

Naarmate AI en andere geavanceerde analyses meer worden toegepast, moeten de prestaties en gegevensopslag natuurlijk meegroeien. Specifiek voor het datacenter levert Apache Ozone een grotere schaalbaarheid tegen lagere kosten, waardoor organisaties nog meer bedrijfswaarde kunnen genereren. Na de laatste update biedt het Cloudera-platform aan organisaties de tools die ze nodig hebben om meer beveiliging te integreren en de bedrijfsgereedheid te versterken. Zoals Ozone-functies die de replicatie en quota’s voor volumes verbeteren, buckets om cloud-native architecturen te vereenvoudigen en snapshots, die nu ook gegevensopslag op bucket- en volumeniveau ondersteunen.

Upgrades zonder downtime

Behalve verbeteringen van Iceberg en Ozone beschikt het volgende generatie platform ook over Zero Downtime Upgrade (ZDU). ZDU biedt organisaties een eenvoudigere manier om te upgraden. Rolling upgrades worden nu ondersteund voor HDFS, Hive, HBase, Kudu, Kafka, Ranger, YARN en Ranger KMS. ZDU zorgt ervoor dat organisaties minimale verstoringen van workflows ervaren en daarmee langdurige en kostbare downtime reduceren of zelfs volledig elimineren.

De toevoeging van ZDU geeft organisaties een krachtige productiviteitsimpuls met mogelijkheden zoals upgrades in één fase en automatische upgrades van grote clusters. Voor platform componenten waarvan nog steeds wordt verwacht dat ze downtime kunnen ervaren, zorgt deze update ervoor dat ze worden geoptimaliseerd via Cloudera Manager en snel opnieuw zijn op te starten. Dat is een grote verbetering ten opzichte van eerdere iteraties waarbij sommige services, zoals Queue Manager, onderdelen waren die als eerste uitvielen en als laatsten weer opnieuw opstarten. Deze services kunnen nu binnen enkele minuten weer aan de slag, direct aan het begin van de ZDU.

AI wordt snel een belangrijke sleutel voor het genereren van de maximale waarde uit bedrijfsgegevens. Om die waarde te bereiken, moeten we echter de data en analyses gebruiken in de omgeving waarvoor ze het meest geschikt zijn. Dat maakt een hybride aanpak cruciaal. Het nieuwe Cloudera-platform biedt verplaatsbare, cloud-native analyses die over alle infrastructuren zijn in te zetten, terwijl een consistent databeheer en ‑beveiliging behouden blijven. Beschikbaar voor in de cloud en het datacenter.

Wim Stoop

Wim Stoop is senior director, hybrid data platform bij Cloudera



Hoe ziet een volgende generatie hybrid data lakehouse eruit?

Apache Iceberg

Apache Ozone

Upgrades zonder downtime

Wim Stoop

Pin It on Pinterest