Databricks lanceert open protocol voor real-time delen van data tussen organisaties

28 mei 2021

Databricks lanceert vandaag het nieuwe open source-project Delta Sharing: het eerste open protocol ter wereld om veilig en in real-time data te delen met andere organisaties, ongeacht het platform waar de data is opgeslagen. Delta Sharing is opgenomen in het open source Delta Lake-project en wordt ondersteund door Databricks en een grote groep dataproviders, waaronder NASDAQ, ICE, S&P, Precisely, Factset, Foursquare, SafeGraph en softwareleveranciers zoals AWS, Google Cloud en Tableau. Dit is het vijfde grote open source-project dat Databricks lanceert na Apache Spark, Delta Lake, MLflow en Koalas, en wordt gedoneerd aan de Linux Foundation.

Het uitwisselen van data is cruciaal voor de digitale economie. Bedrijven willen gemakkelijk en veilig data delen met hun klanten, partners en leveranciers. Denk aan een retailer die actuele voorraadgegevens deelt met de merken die hij verkoopt. Maar doorgaans zijn oplossingen voor data-uitwisseling beperkt tot één leverancier of één product, waardoor de toegang tot data afhankelijk is van fabrikantspecifieke systemen. Dit beperkt organisaties die verschillende platforms gebruiken in hun samenwerking.

“De grootste uitdaging voor dataleveranciers is tegenwoordig om hun data gemakkelijk en op grote schaal bruikbaar te maken. Het beheer van tientallen verschillende oplossingen om data op alle gebruikte platforms te leveren is onhoudbaar. Een open standaard voor het real-time delen van data is een drastische verbetering van de gebruikservaring voor zowel data-aanbieders als data-gebruikers”, zegt Pieter Senster, Engineering Director bij Databricks. “Delta Sharing standaardiseert hoe data veilig wordt uitgewisseld tussen ondernemingen, ongeacht welk opslag- of computerplatform ze gebruiken. We maken deze innovatie met plezier open source.”

Delta Sharing voorkomt vendor lock-in en maakt daardoor meer use cases mogelijk dan ooit tevoren. Zo kunnen een academische instelling en ziekenhuis die samenwerken aan onderzoek naar vaccins bijvoorbeeld een eenvoudige standaardwijze implementeren om onderzoeksgegevens en hun bevindingen veilig te delen. Met Delta Sharing worden ze niet beperkt door systeemeigen dataformats of afwijkende applicaties en tools. Ook is de setup minder complex, omdat het bijvoorbeeld niet nodig is om dezelfde datawarehouse-software te implementeren binnen beide organisaties.

Een ander voorbeeld: een fabrikant van vliegtuigmotoren kan beschikken over een standaardmethode om toegang te krijgen tot prestatiedata van de vliegtuigmotoren van alle verschillende luchtvaartmaatschappijen die hij bedient, ook al gebruikt iedere luchtvaartmaatschappij andere systemen om deze data op te slaan en te beheren. 

Organisaties voeren tegenwoordig in hoog tempo een lakehouse-architectuur in. Delta Sharing maakt deze architectuur breder toepasbaar omdat het een open, eenvoudige en op samenwerking geënte omgang met data en AI mogelijk maakt – niet alleen binnen maar ook tussen organisaties.

Open standaard

Delta Sharing is gebouwd op Delta Lake 1.0 en heeft een leveranciersonafhankelijk governance-model dat wordt ondersteund door de Linux Foundation. Delta Sharing zet een gemeenschappelijke standaard neer voor het delen van alle typen data met een open protocol dat kan worden gebruikt in SQL, visuele analysetools en programmeertalen zoals Python en R. 

Delta Sharing stelt organisaties tevens in staat om bestaande grootschalige datasets in de Apache Parquet- en Delta Lake-formats naadloos en in real-time te delen zonder ze te kopiëren, en kan eenvoudig worden geïmplementeerd in bestaande software die Parquet ondersteunt.

Delta Sharing is de nieuwste stap in het streven van Databricks richting een open, gedemocratiseerd data- en AI-ecosysteem. Databricks gelooft dat innovatie wordt bevorderd door samenwerking, niet door isolatie. Daarom is het bedrijf al jaren toegewijd aan de open source-gemeenschap. Met Delta Sharing voegt Databricks een nieuw onderdeel toe aan zijn indrukwekkende portfolio van open source-projecten, waaronder het veelgebruikte Delta Lake, Apache Spark, MLflow en Koalas. Deze projecten worden ruim 15 miljoen keer per maand gedownload door datateams over de hele wereld.

Tools naar keuze

Delta Sharing biedt ingebouwde beveiligingscontroles en eenvoudig te beheren machtigingsinstellingen waarmee aan privacy- en compliancy-eisen wordt voldaan wanneer data wordt gedeeld tussen organisaties. Met Delta Sharing kunnen organisaties onbevreesd data delen met leveranciers en partners. Elk van de betrokken datateams heeft daarbij de flexibiliteit om deze gedeelde data op te vragen, te visualiseren en verrijken met de tools van hun keuze, inclusief Azure Purview, GCP Big Query, AtScale, Collibra, Dremio, Immuta, Looker, Privacera, Qlik, Power BI en Tableau. 

“Eenvoudige toegang tot data en deze te analyseren en delen is cruciaal om innovatie te bevorderen en echt datagedreven organisaties te bouwen”, zegt François Ajenstat, Chief Product Officer bij Tableau. “Een nieuwe, open standaard voor het delen van data sluit aan bij Tableau’s missie om data te democratiseren en iedereen in staat te stellen om snellere, slimmere beslissingen te nemen.  We kijken ernaar uit om de toekomst van Delta Sharing te ondersteunen en onze klanten te voorzien van de flexibiliteit van een open, collaboratief data-ecosysteem.”

“Wij ondersteunen Delta Sharing en de visie van een open protocol dat het veilig delen van data en de samenwerking tussen organisaties vereenvoudigt. Delta Sharing zal de manier waarop we met onze partners samenwerken verbeteren en de operationele kosten verlagen. Bovendien geeft het meer gebruikers uitgebreide toegang tot Nasdaq’s datasuite, zodat zij betere inzichten kunnen vergaren en financiële strategieën kunnen ontwikkelen,” zegt Bill Dague, Head of Alternative Data bij Nasdaq.

“Onze investering in Azure Data Share sluit aan bij de visie die we met Databricks delen – dat data open te delen moet zijn. Delta Sharing past goed binnen die visie. We zijn blij dat we onze samenwerking met Databricks voortzetten om een open data ecosysteem te ondersteunen”, zegt Mike Flasko, Partner Director Program Management bij Microsoft.

“Google Cloud and Databricks delen een visie om data toegankelijk, bruikbaar en open te maken, zodat bedrijven geïnformeerde beslissingen kunnen maken in de snel veranderende wereld van vandaag”, zegt Sudhir Hasbe, Director Product Management bij Google Cloud. “We zijn verheugd Databricks beschikbaar te maken op Google Cloud, en dat we de toegankelijkheid en portabiliteit van gegevens kunnen ondersteunen met oplossingen zoals BigQuery, waarmee organisaties data veilig kunnen delen en nieuwe en unieke inzichten kunnen ontdekken.”

Robbert Hoeffnagel

Editor and consultant @ Belgium Cloud, SDIA/Green IT Amsterdam and Mepax

Pin It on Pinterest

Share This