Databricks lanceert open protocol voor real-time delen van data tussen organisaties

28 mei 2021

Data­bricks lanceert vandaag het nieuwe open source-project Delta Sharing: het eerste open protocol ter wereld om veilig en in real-time data te delen met andere orga­ni­sa­ties, ongeacht het platform waar de data is opge­slagen. Delta Sharing is opgenomen in het open source Delta Lake-project en wordt onder­steund door Data­bricks en een grote groep data­pro­vi­ders, waaronder NASDAQ, ICE, S&P, Precisely, Factset, Foursquare, SafeGraph en soft­wa­re­le­ve­ran­ciers zoals AWS, Google Cloud en Tableau. Dit is het vijfde grote open source-project dat Data­bricks lanceert na Apache Spark, Delta Lake, MLflow en Koalas, en wordt gedoneerd aan de Linux Foundation.

Het uitwis­selen van data is cruciaal voor de digitale economie. Bedrijven willen gemak­ke­lijk en veilig data delen met hun klanten, partners en leve­ran­ciers. Denk aan een retailer die actuele voor­raad­ge­ge­vens deelt met de merken die hij verkoopt. Maar doorgaans zijn oplos­singen voor data-uitwis­se­ling beperkt tot één leve­ran­cier of één product, waardoor de toegang tot data afhan­ke­lijk is van fabri­kant­spe­ci­fieke systemen. Dit beperkt orga­ni­sa­ties die verschil­lende platforms gebruiken in hun samenwerking.

“De grootste uitdaging voor data­le­ve­ran­ciers is tegen­woordig om hun data gemak­ke­lijk en op grote schaal bruikbaar te maken. Het beheer van tien­tallen verschil­lende oplos­singen om data op alle gebruikte platforms te leveren is onhoud­baar. Een open standaard voor het real-time delen van data is een dras­ti­sche verbe­te­ring van de gebruik­s­er­va­ring voor zowel data-aanbie­ders als data-gebrui­kers”, zegt Pieter Senster, Engi­nee­ring Director bij Data­bricks. “Delta Sharing stan­daar­di­seert hoe data veilig wordt uitge­wis­seld tussen onder­ne­mingen, ongeacht welk opslag- of compu­ter­plat­form ze gebruiken. We maken deze innovatie met plezier open source.”

Delta Sharing voorkomt vendor lock-in en maakt daardoor meer use cases mogelijk dan ooit tevoren. Zo kunnen een acade­mi­sche instel­ling en zieken­huis die samen­werken aan onderzoek naar vaccins bijvoor­beeld een eenvou­dige stan­daard­wijze imple­men­teren om onder­zoeks­ge­ge­vens en hun bevin­dingen veilig te delen. Met Delta Sharing worden ze niet beperkt door systeem­eigen data­for­mats of afwij­kende appli­ca­ties en tools. Ook is de setup minder complex, omdat het bijvoor­beeld niet nodig is om dezelfde data­wa­re­house-software te imple­men­teren binnen beide organisaties.

Een ander voorbeeld: een fabrikant van vlieg­tuig­mo­toren kan beschikken over een stan­daard­me­thode om toegang te krijgen tot pres­ta­tie­data van de vlieg­tuig­mo­toren van alle verschil­lende lucht­vaart­maat­schap­pijen die hij bedient, ook al gebruikt iedere lucht­vaart­maat­schappij andere systemen om deze data op te slaan en te beheren. 

Orga­ni­sa­ties voeren tegen­woordig in hoog tempo een lakehouse-archi­tec­tuur in. Delta Sharing maakt deze archi­tec­tuur breder toepas­baar omdat het een open, eenvou­dige en op samen­wer­king geënte omgang met data en AI mogelijk maakt – niet alleen binnen maar ook tussen organisaties.

Open standaard

Delta Sharing is gebouwd op Delta Lake 1.0 en heeft een leve­ran­ciers­on­af­han­ke­lijk gover­nance-model dat wordt onder­steund door de Linux Foun­da­tion. Delta Sharing zet een gemeen­schap­pe­lijke standaard neer voor het delen van alle typen data met een open protocol dat kan worden gebruikt in SQL, visuele analy­se­tools en program­meer­talen zoals Python en R. 

Delta Sharing stelt orga­ni­sa­ties tevens in staat om bestaande groot­scha­lige datasets in de Apache Parquet- en Delta Lake-formats naadloos en in real-time te delen zonder ze te kopiëren, en kan eenvoudig worden geïm­ple­men­teerd in bestaande software die Parquet ondersteunt.

Delta Sharing is de nieuwste stap in het streven van Data­bricks richting een open, gede­mo­cra­ti­seerd data- en AI-ecosys­teem. Data­bricks gelooft dat innovatie wordt bevorderd door samen­wer­king, niet door isolatie. Daarom is het bedrijf al jaren toegewijd aan de open source-gemeen­schap. Met Delta Sharing voegt Data­bricks een nieuw onderdeel toe aan zijn indruk­wek­kende portfolio van open source-projecten, waaronder het veel­ge­bruikte Delta Lake, Apache Spark, MLflow en Koalas. Deze projecten worden ruim 15 miljoen keer per maand gedown­load door datateams over de hele wereld.

Tools naar keuze

Delta Sharing biedt inge­bouwde bevei­li­gings­con­troles en eenvoudig te beheren mach­ti­gings­in­stel­lingen waarmee aan privacy- en compli­ancy-eisen wordt voldaan wanneer data wordt gedeeld tussen orga­ni­sa­ties. Met Delta Sharing kunnen orga­ni­sa­ties onbe­vreesd data delen met leve­ran­ciers en partners. Elk van de betrokken datateams heeft daarbij de flexi­bi­li­teit om deze gedeelde data op te vragen, te visu­a­li­seren en verrijken met de tools van hun keuze, inclusief Azure Purview, GCP Big Query, AtScale, Collibra, Dremio, Immuta, Looker, Privacera, Qlik, Power BI en Tableau. 

“Eenvou­dige toegang tot data en deze te analy­seren en delen is cruciaal om innovatie te bevor­deren en echt data­ge­dreven orga­ni­sa­ties te bouwen”, zegt François Ajenstat, Chief Product Officer bij Tableau. “Een nieuwe, open standaard voor het delen van data sluit aan bij Tableau’s missie om data te demo­cra­ti­seren en iedereen in staat te stellen om snellere, slimmere beslis­singen te nemen.  We kijken ernaar uit om de toekomst van Delta Sharing te onder­steunen en onze klanten te voorzien van de flexi­bi­li­teit van een open, colla­bo­ra­tief data-ecosysteem.”

“Wij onder­steunen Delta Sharing en de visie van een open protocol dat het veilig delen van data en de samen­wer­king tussen orga­ni­sa­ties vereen­vou­digt. Delta Sharing zal de manier waarop we met onze partners samen­werken verbe­teren en de opera­ti­o­nele kosten verlagen. Bovendien geeft het meer gebrui­kers uitge­breide toegang tot Nasdaq’s datasuite, zodat zij betere inzichten kunnen vergaren en finan­ciële stra­te­gieën kunnen ontwik­kelen,” zegt Bill Dague, Head of Alter­na­tive Data bij Nasdaq.

“Onze inves­te­ring in Azure Data Share sluit aan bij de visie die we met Data­bricks delen – dat data open te delen moet zijn. Delta Sharing past goed binnen die visie. We zijn blij dat we onze samen­wer­king met Data­bricks voort­zetten om een open data ecosys­teem te onder­steunen”, zegt Mike Flasko, Partner Director Program Mana­ge­ment bij Microsoft.

“Google Cloud and Data­bricks delen een visie om data toegan­ke­lijk, bruikbaar en open te maken, zodat bedrijven geïn­for­meerde beslis­singen kunnen maken in de snel veran­de­rende wereld van vandaag”, zegt Sudhir Hasbe, Director Product Mana­ge­ment bij Google Cloud. “We zijn verheugd Data­bricks beschik­baar te maken op Google Cloud, en dat we de toegan­ke­lijk­heid en porta­bi­li­teit van gegevens kunnen onder­steunen met oplos­singen zoals BigQuery, waarmee orga­ni­sa­ties data veilig kunnen delen en nieuwe en unieke inzichten kunnen ontdekken.”

Pin It on Pinterest

Share This