Databricks vereenvoudigt beheer van Machine Learning modellen met MLflow Model Registry

24 oktober 2019

Databricks heeft de beschikbaarheid van Model Registry aangekondigd, een nieuwe mogelijkheid binnen MLflow. MLflow is een open source platform voor de machine learning lifecycle en is ontworpen door Databricks.

Dit nieuwe component maakt een vollediger modelbeheerproces mogelijk door datawetenschappers en engineers te voorzien van één centrale plek om samen te werken aan machine learning-modellen en deze te volgen en delen gedurende het hele proces van experiment tot productie. Sinds de introductie van MLflow op de Spark+AI Summit in 2018, hebben meer dan 140 mensen bijdragen geleverd en wordt het maandelijks meer dan 800.000 keer gedownload.

“Iedereen die zich bezighoudt met de ontwikkeling van machine learning weet dat dit een complex proces is. De mogelijkheid om modellen te beheren en delen is onmisbaar om verwarring te voorkomen, omdat het aantal modellen in de experimentele-, test- en productiefase op kan lopen tot in de duizenden,” aldus Matei Zaharia, medeoprichter en CTO bij Databricks. “De nieuwste toevoegingen aan MLflow, ontwikkeld in samenspraak met honderden bijdragers, stellen organisaties wereldwijd in staat om problemen met machine learning ontwikkeling aan te pakken. MLflow wordt honderdduizenden keren per maand gedownload, dus we zien dat de bijdragen van de community een positieve impact hebben.”

MLflow van Databricks kan al ontzettend veel. Zo kunnen gebruikers metrische waarden, parameters en artifacts van experimenten loggen, en modellen en machine learning projecten packagen. Bovendien kunnen modellen flexibel ingezet worden binnen het platform of op iedere willekeurige cloud inference service of container. De MLflow Model Registry bouwt verder op deze mogelijkheden, door bedrijven in staat te stellen samen te werken aan modellen en deze te optimaliseren in de hele ontwikkelingslevenscyclus van de machine learning modellen, door middel van:

  • Een samenwerkingshub: MLflow Model Registry voorziet in de mogelijkheid om binnen ontwikkelteams kennis en expertise te delen over de bouw en uitrol van machine learning-modellen. Dit gebeurt door de modellen makkelijk vindbaar te maken, en door samenwerkingsmogelijkheden te bieden voor het gezamenlijk verbeteren van gemeenschappelijke machine learning-taken.
  • Flexibele CI/CD pipelines: MLflow Model Registry behouden teams de controle over hun machine learning-modellen door modellen automatisch door te zetten naar productie wanneer ze aan bepaalde voorwaarden voldoen. Ook kunnen stappen binnen de lifecycle handmatig gecontroleerd en gevalideerd worden voor modellen in de experimentele, test- en productiefase.
  • Zichtbaarheid en beheer: Grote organisaties hebben op ieder willekeurig moment vaak duizenden machine learning-modellen in de experimentele, test- en productiefase. Met MLflow Model Registry krijgen ze daar volledig inzicht in en wordt beheer van ieder model mogelijk dankzij een modelbewerkingsgeschiedenis en door toe te wijzen wie het model mag bewerken.

Model Registry is beschikbaar op Databricks en heeft dezelfde voordelen als het Unified Data Analytics Platform, waaronder security op enterprise-niveau, schaalbaarheid en fijnmazig toegangsbeheer. De Model Registry-component maakt onderdeel uit van het open source aanbod van MLflow en is ook beschikbaar voor de open source community op GitHub.

 

Robbert Hoeffnagel

Robbert Hoeffnagel

Editor and consultant @ Belgium Cloud, DatacenterWorks, InfosecurityMagazine.be, Green IT Amsterdam and Mepax

Pin It on Pinterest

Share This