Hoe ziet een volgende generatie hybrid data lakehouse eruit?

5 maart 2024

Kunst­ma­tige intel­li­gentie (AI) gaat de wijze waarop bijna elke orga­ni­satie opereert opnieuw vormgeven. Uit recent onderzoek van Cloudera blijkt dat ruim een derde (36%) van de onder­vraagde orga­ni­sa­ties in de VS zich al in de oriën­ta­tie­fase voor een AI-imple­men­tatie bevindt. Maar ondanks de snelle opkomst van AI is het benutten daarvan voor veel orga­ni­sa­ties een flinke uitdaging. AI en alle andere analyses, zijn namelijk zo goed of slecht als de data waarop ze zijn gebaseerd en daarmee worstelen veel organisaties.

Orga­ni­sa­ties hebben moeite met de toegang tot en het verza­melen van alle data, vaak uiteen­lo­pende soorten en in silo’s opge­slagen, die nodig zijn om AI aan te drijven. Hierdoor zijn veel orga­ni­sa­ties niet in staat de zakelijke inzichten en waarde te creëren waarop ze hadden gehoopt. Worste­lend met unieke uitda­gingen rond gedis­tri­bu­eerde data-infra­struc­turen, gover­nance en toene­mende cyber­drei­gingen, hebben orga­ni­sa­ties deskun­dige onder­steu­ning nodig om de voordelen van AI te kunnen benutten.

Om de data‑, AI- en analy­se­be­hoeften van orga­ni­sa­ties te onder­steunen, onthult Cloudera de volgende generatie van haar open data lakehouse. Deze bevat verschil­lende verbe­te­ringen om zakelijke AI snel te kunnen opschalen en meer bedrijfs­waarde te leveren. Een belang­rijke is dat het open data lakehouse nu Apache Iceberg biedt voor de cloud enon-premises. Volgens IDC wordt momenteel ongeveer de helft van alle produc­tie­data van bedrijven in de wereld nog op locatie beheerd. 

Het nieuwe generatie Cloudera-platform biedt orga­ni­sa­ties uitge­breide moge­lijk­heden om dezelfde open data lakehouse-func­ti­o­na­li­teit vanuit de cloud naar hun data­cen­ters te brengen. Het platform is namelijk volledig klaar om de complexi­teit van het beheer van uiterst gevoelige en bedrijfs­kri­ti­sche data aan te pakken en tege­lij­ker­tijd de meeste waarde uit het gebruik ervan te halen. 

Apache Iceberg

De toevoe­ging van Apache Iceberg-onder­steu­ning aan het Cloudera-platform ontgren­delt moge­lijk­heden om kritische data te gebruiken voor AI en het verbe­teren van fout­ge­voe­lige processen. Dit maakt het mogelijk om nieuwe toepas­singen te imple­men­teren, pres­ta­ties te opti­ma­li­seren en de kosten te verlagen. Iceberg levert het open tabel­for­maat, zodat orga­ni­sa­ties AI in de lokale omgeving aan hun data kunnen laten werken. Deze aanpak maakt nieuwe verwer­kingen mogelijk, zoals met Spark, Flink, Impala en NiFi, waardoor gelijk­tij­dige toegang en verwer­king van datasets binnen Iceberg mogelijk wordt.

Met functies zoals time travel, schema evolution en gestroom­lijnde data discovery stelt Iceberg orga­ni­sa­ties in staat hun data lake-beheer te verbe­teren en tevens de data-inte­gri­teit te handhaven. Moge­lijk­heden voor in-place schema evolution en ACID-trans­ac­ties op het data lakehouse zijn cruciale onder­delen voor orga­ni­sa­ties die willen voldoen aan de Algemene Veror­de­ning Gege­vens­be­scher­ming (AVG) en andere regel­ge­ving. De Shared Data Expe­rience (SDX) laag voor data­be­vei­li­ging en ‑beheer, is een funda­men­teel onderdeel van het open data lakehouse, zowel in het data­center als in de cloud.

Apache Ozone

Naarmate AI en andere geavan­ceerde analyses meer worden toegepast, moeten de pres­ta­ties en gege­vens­op­slag natuur­lijk meegroeien. Specifiek voor het data­center levert Apache Ozone een grotere schaal­baar­heid tegen lagere kosten, waardoor orga­ni­sa­ties nog meer bedrijfs­waarde kunnen genereren. Na de laatste update biedt het Cloudera-platform aan orga­ni­sa­ties de tools die ze nodig hebben om meer bevei­li­ging te inte­greren en de bedrijfs­ge­reed­heid te versterken. Zoals Ozone-functies die de  repli­catie en quota’s voor volumes verbe­teren, buckets om cloud-native archi­tec­turen te vereen­vou­digen  en snapshots, die nu ook gege­vens­op­slag op bucket- en volu­me­ni­veau ondersteunen.

Upgrades zonder downtime

Behalve verbe­te­ringen van Iceberg en Ozone beschikt het volgende generatie platform ook over Zero Downtime Upgrade (ZDU). ZDU biedt orga­ni­sa­ties een eenvou­di­gere manier om te upgraden. Rolling upgrades worden nu onder­steund voor HDFS, Hive, HBase, Kudu, Kafka, Ranger, YARN en Ranger KMS. ZDU zorgt ervoor dat orga­ni­sa­ties minimale versto­ringen van workflows ervaren en daarmee lang­du­rige en kostbare downtime reduceren of zelfs volledig elimineren.

De toevoe­ging van ZDU geeft orga­ni­sa­ties een krachtige produc­ti­vi­teits­im­puls met moge­lijk­heden zoals upgrades in één fase en auto­ma­ti­sche upgrades van grote clusters. Voor platform compo­nenten waarvan nog steeds wordt verwacht dat ze downtime kunnen ervaren, zorgt deze update ervoor dat ze worden geop­ti­ma­li­seerd via Cloudera Manager en snel opnieuw zijn op te starten. Dat is een grote verbe­te­ring ten opzichte van eerdere iteraties waarbij sommige services, zoals Queue Manager, onder­delen waren die als eerste uitvielen en als laatsten weer opnieuw opstarten. Deze services kunnen nu binnen enkele minuten weer aan de slag, direct aan het begin van de ZDU.

AI wordt snel een belang­rijke sleutel voor het genereren van de maximale waarde uit bedrijfs­ge­ge­vens. Om die waarde te bereiken, moeten we echter de data en analyses gebruiken in de omgeving waarvoor ze het meest geschikt zijn. Dat maakt een hybride aanpak cruciaal. Het nieuwe Cloudera-platform biedt verplaats­bare, cloud-native analyses die over alle infra­struc­turen zijn in te zetten, terwijl een consis­tent data­be­heer en ‑bevei­li­ging behouden blijven. Beschik­baar voor in de cloud en het datacenter.

Pin It on Pinterest

Share This