Nederlands open source-database DuckDB lanceert startup

16 juli 2021

Twee onder­zoe­kers van het Neder­landse Centrum voor Wiskunde en Infor­ma­tica (CWI) – Hannes Mühleisen en Mark Raasveldt – hebben het nieuwe bedrijf DuckDB Labs opgericht. Het gaat DuckDB verder ontwik­kelen en consul­tancy-diensten leveren. DuckDB is een open-source database mana­ge­ment­sys­teem gericht op effi­ci­ënte data-analyse. Het is gemak­ke­lijk te instal­leren, werkt zeer snel en binnen lopende processen. Momenteel wordt DuckDB ongeveer 100.000 keer per week gedownload. 

Bedrijven, overheden en acade­mi­sche onder­zoeks­groepen verza­melen steeds meer gegevens. Deze gegevens worden opge­slagen in grote data­banken en een van de belang­rijkste uitda­gingen is om zo snel mogelijk nieuwe inzichten uit de gegevens te halen. Dat is een van de taken van een database managementsysteem. 

In 2019 brachten Hannes Mühleisen en Mark Raasveldt, onder­zoe­kers in de Database Archi­tec­tures onder­zoeks­groep van het Centrum Wiskunde & Infor­ma­tica (CWI), de eerste open-source versie van hun database mana­ge­ment­sys­teem DuckDB uit. DuckDB is het eerste speciaal gebouwde in-process Online Analy­tical Proces­sing (OLAP)-database managementsysteem. 

“DuckDB dankt zijn naam aan het feit dat ik vroeger een eend als huisdier had”, lacht Mühleisen. “Eenden zijn verba­zing­wek­kende dieren. Ze kunnen vliegen, lopen en zwemmen, en ze zijn goed bestand tegen uitda­gingen in de omgeving. Daarom is een eend de perfecte mascotte voor een veel­zijdig en veer­krachtig data-managementsysteem.”

Nu, twee jaar later, is DuckDB een groot succes geworden: het wordt zo’n 100.000 keer per week gedown­load, voor­na­me­lijk door data­we­ten­schap­pers en zakelijke gebrui­kers. “In een wereld waarin de succes­volste software vooral wordt ontwik­keld door Ameri­kaanse bedrijven, is het opmer­ke­lijk dat software afkomstig van het door de overheid gefi­nan­cierde onder­zoeks­in­sti­tuut CWI zo’n vlucht heeft genomen”, zegt Mühleisen. 

Met als doel om een nog beter database mana­ge­ment­sys­teem te maken, hebben Mühleisen en Raasveldt recent DuckDB Labs B.V. opgericht als spin-off bedrijf van het CWI. Het bedrijf zal fungeren als omgeving voor inno­va­tieve projecten rond DuckDB, om het systeem verder te ontwik­kelen en als platform voor onder­steu­nende diensten. Mühleisen benadrukt dat DuckDB nog steeds een Open-Source project blijft onder de huidige MIT permis­sive free software license.

Wat onder­scheidt DuckDB van bestaande database managementsystemen?

Raasveldt: “Aller­eerst richt DuckDB zich op analy­ti­sche toepas­singen waarin het nodig is om naar veel gegevens tegelijk te kijken. Denk aan gevallen waarin miljoenen rijen moeten worden geag­gre­geerd, of waarin gigan­ti­sche tabellen moeten worden gecom­bi­neerd. Er zijn veel van dit soort toepas­singen in de zakelijke wereld en in statis­ti­sche analyse.”

Ten tweede draait DuckDB binnen andere processen die al op de computer draaien. Raasveldt: “Als je data-analyse in Python doet, draait DuckDB binnen Python. Dat heeft het voordeel dat de gege­vens­over­dracht snel gaat. Eigenlijk is DuckDB het eerste in-process OLAP-data­ba­se­sys­teem dat grote hoeveel­heden data beheert. Wij noemen onszelf de ‘SQLite voor analytics’. SQLite is ’s werelds popu­lairste database mana­ge­ment­sys­teem, maar het maakt geen analyses.”

Vanuit praktisch oogpunt is DuckDB slank en doel­ge­richt. Het is een klein soft­wa­re­pakket dat iedereen gemak­ke­lijk kan instal­leren en waarvoor geen aparte server nodig is. Tot slot werkt DuckDB snel. Dat komt omdat DuckDB voort­bouwt op state-of-the-art database-onderzoek dat afkomstig is van de CWI Data­ta­base Archi­tec­tuur-groep. Het maakt gebruik van een verwer­kings­tech­niek van zoek­op­drachten genaamd vecto­rized execution, die in 2005 werd ontwik­keld op het CWI.

Pin It on Pinterest

Share This