Paneldiscussie van Altair: ‘We hebben behoefte aan een nieuwe generatie data scientists’

8 oktober 2020

Steeds meer bedrijven gebruiken machine learning en AI om klanten beter te bedienen en werk- en productieprocessen verder te stroomlijnen. De tools die hierbij worden ingezet, zijn inmiddels dermate krachtig dat een nieuwe generatie data scientists nodig is om maximaal van de mogelijkheden gebruik te maken. Doen we dat niet, dan is de kans groot dat ML en AI vooral gezien wordt als een black box waar we geen grip op hebben.

Altair is een aanbieder van simulatie- en analyse-tools, met AI en ML voor data science, die veelvuldig worden toegepast. Het bedrijf zette in 2019 zo’n half miljard dollar om en levert software aan klanten in de wereld van onder andere manufacturing, lucht- en ruimtevaart, retail en finance.

Lastig uit te leggen

Altair had enkele medewerkers van vijf Europese gebruikersorganisaties uitgenodigd voor een discussie over de vraag of er een nieuwe generatie data scientists nodig is – daar was men het snel over eens: ja – en aan welke eisen deze functionaris dan dient te voldoen.

Het was Pedro Pinto Coelho, CEO van de Portugese Banco BNI Europa, die tijdens het webinar misschien wel het duidelijkst uitlegde waarom deze nextgen data scientist zo nodig is. “Als bank gebruiken wij al geruime tijd data science om op basis van tal van gegevens tot aanbevelingen te komen. Dat werkt heel goed, maar levert tegelijkertijd ook een probleem op. Het wordt voor ons steeds lastiger om uit te leggen aan bijvoorbeeld toezichthouders en aandeelhouders hoe onze machine learning- en artificial intelligente-modellen nu precies werken. Dit soort partijen willen niet met black box’s worden geconfronteerd waarvan ze niet precies weten hoe die functioneren. Maar echt goed uitleggen hoe een aanbeveling precies tot stand komt, is vaak niet zo eenvoudig uit te leggen.”

Hoe ziet de nextgen data scientist er uit?

Tot nu toe zien we dat veel data scientists vooral een – zeg maar – technische achtergrond hebben. Of zoals Antti Myllymäki van de Finse OP Financial Group het uitdrukte: “Veel data scientists waren tot nu toe vooral kenners van een specifieke domein die goed met technische tools uit de voeten kunnen. De volgende generatie data scientists moet dat uiteraard ook zijn. Maar daarnaast zullen zij vooral heel goed moeten kunnen communiceren.”

Thomas Berngruber van de Deense Jyske Bank wilde echter voorkomen dat we van data science een te algemene discipline maken. Hij ziet graag drie skill sets in de nestgen data scientists verenigt: algemene kennis van data science, branche- of domeinkennis plus technische diepgang op in ieder geval één gebied. Bijvoorbeeld programmeren of juist veel kennis van statistische modellen.

Onderscheid maken

Interessant in de discussie was het feit dat er steeds meer onderscheid wordt gemaakt tussen data engineers en functionarissen die over de data kunnen communiceren met gebruikers. Georges Mansouratti van Northmill Bank maakte onderscheid tussen mensen die kunnen modelleren, mensen die ‘the plumbing’ kunnen regelen (het technische proces van verzamelen en beschikbaar maken van data) en de medewerkers die nauw kunnen samenwerken met eindgebruikers. Het liefst ziet hij dat een aantal van zijn data scientists in staat is om op z’n minst twee van deze rollen voor hun rekening te nemen.

We moeten hierbij echter niet vergeten dat niet iedere organisatie even ver is in het toepassen van data science. Zo vertelde Daniel Gebler van het nog jonge Picnic dat binnen zijn retailorganisatie nog vooral wordt gewerkt met data scientists die ervoor zorgen dat klanten aanbevelingen voor producten krijgen. Hij heeft daarom tot nu toe vooral full-stack mensen in dienst. En niet zozeer medewerkers die zich in een van de hiervoor genoemde individuele skill sets hebben gespecialiseerd. Hij is daarnaast voorstander van maatwerk: kijk goed naar de sterktes en zwaktes van je team en zoek daar vervolgens mensen bij die de zwakkere punten kunnen aanvullen.

Kwaliteit en beschikbaarheid

Een belangrijke uitdaging, zo bleek tijdens het Altair-webinar, is nog altijd de kwaliteit en de beschikbaarheid van data. Myllymäki van de OP Financial Group gaf aan met 700 bronsystemen te werken, waarvan de datakwaliteit nogal eens wil variëren. Net als veel andere organisaties probeert hij die kwaliteit te verbeteren of ontbrekende gegevens aan te vullen door klanten te vragen deze gegevens in te vullen of op te geven. Daar zitten echter wel grenzen aan, meent hij. Zeker als je je richt op consumenten is het belangrijk niet te over-vragen, anders haakt men af. Zelfs – zoals bij OP – als het gaat om hypotheekaanvragen.

Ook voor Northmill Bank overheersen nog altijd de bekende issues die we uit de tijd van BI kennen: kwaliteit en beschikbaarheid zijn zelden op het gewenste niveau. “Het modelleren zelf levert zelden serieuze problemen op”, vertelde Mansouratti. “Waar we veel tijd in moeten investeren is uitleggen aan onze interne gebruikers hoe dit soort processen verlopen. Welke data hebben we beschikbaar, hoe goed of slecht is die data, hoe verloopt het opzetten van een goede data-infrastructuur, hoe kunnen we eventueel goede externe data integreren en wat mogen zij vervolgens als resultaat van analyses verwachten?”

Enorme kansen

Data science biedt enorme kansen om tot nieuwe business modellen te komen, daar waren de panelleden het duidelijk over eens. Maar het is vaak een flinke uitdaging om de theorie in de praktijk om te zetten. Data science biedt de kans om als bank een adviseur te worden van de klant, vertelde Berngruber van Jyske Bank bijvoorbeeld. Maar het is een flinke klus om een traditioneel business model om te vormen tot een op advisering en nauwe samenwerking met de klant gebaseerd model.

Data science-tools helpen zeer zeker bij deze omvorming van traditionele business modellen. Maar dat kan alleen als we data science uit de hoek van de – zeg maar – techniek halen. Anders gezegd: modelleren is belangrijk voor een succesvol project. Maar met de almaar krachtiger wordende tools is het zo mogelijk nog belangrijker dat we uitleggen wat de modellen die hiermee gebouwd worden precies doen en kunnen. Die uitleg dient bovendien gericht te zijn op alle stakeholders: de klanten, de interne gebruikers (zeg maar: verwachtingenmanagement), maar natuurlijk ook aandeelhouders en toezichthouders.

Robbert Hoeffnagel

Editor @ Belgium Cloud

