Machine learning en tekstanalyse: fata morgana of data morgana?

24 februari 2017

Een goede analyse van teksten kan veel werkprocessen drastisch verbeteren. Machine learning lijkt hierbij een belangrijke rol te kunnen spelen. Maar zoals bij elk visioen geldt de hamvraag: is dit realistisch of is het een fata morgana? Of in dit geval dus een ‘data morgana’? Simon Been, een Nederlandse informatie-specialist, gaat dieper op deze materie in.

Misschien moeten we hiervoor een autoriteit op het gebied van voorspellingen raadplegen: John Lennon. Ongetwijfeld herkent u wat deze Beatle in 1969 zong: ‘The way things are going, they’re gonna crucify me’. De wereld schudde ervan. Toen ik elf jaar later hoorde dat hij doodgeschoten was, schudde ik zelf. Zijn roem was hem inderdaad fataal geworden, maar dan niet door nagels aan een kruis, maar door kogels. De lering: ook al heb je het bij het juiste eind, het venijn zit in de details. Zo dachten we een tijd lang dat geautomatiseerde tekstanalyse vereiste: de computer onderwijzen hoe hij moet denken, via regeltjes. Nu lijkt het geheim: de computer zelf laten leren zijn eigen regeltjes te maken, op basis van enorme hoeveelheden data. Kortom: Machine Learning + Big Data.

Krachtig

Maar waarom is dat zo belangrijk? Big Data gebruiken is al zo krachtig. Kijk maar naar een andere uitspraak van John Lennon in 1966: ‘We’re more popular than Jesus now’. Dat lijkt op die vorige, ook qua ophef, maar hij is een stuk lastiger te valideren. Hoe check je of hij gelijk had? Een volksraadpleging op het kerkhof? Daar ligt tenslotte een groot deel van de toenmalige populatie. Een aardige indicatie is er wel te vinden: in het geschreven woord. Dus heb ik voor dit artikel mijzelf opgesloten in een pakhuis vol Engelstalige boeken uit die tijd en geturfd hoe vaak de woorden ‘Jesus’ en ‘Beatles’ voorkwamen. De resulterende grafiek (zie figuur 1) spreekt boekdelen: John Lennon zat er verschrikkelijk naast.

Figuur 1. Analyse van Google Books op de woorden ‘Jesus’ en Beatles’

Ngram Viewer

De kracht van Big Data is hiermee wel bewezen. Laat ik eerlijk zijn: de grafiek in figuur 1 komt uit de Ngram Viewer van Google. Mijn analyse duurde een fractie van een seconde en spitte door 5 miljoen boeken. Big Data rules! Hoewel… wat is nou 5 miljoen boeken? En waarom geen tijdschriften? En brieven (bij gebrek aan internet), TV-journaals, radioprogramma’s? Trouwens, hoe weet ik of ‘Jesus’ niet gewoon een populaire voornaam is geworden?

Data Morgana

Kortom: tekstanalyse op grond van Big Data is helaas een Data Morgana. Of ga ik nu te snel? Gelukkig ontmoette ik laatst Theo van Veen van de Koninklijke Bibliotheek. De KB is hét Nederlandse kennisinstituut op het gebied van woord, tekst en document. Hij sprak op een zogeheten ‘Heterdaadsessie’ van het Papieren Tijger Netwerk, waarin zo’n 700 informatieprofessionals participeren. En dat komt nu goed van pas, want als er iemand is die weet wat de stand van zaken op dit gebied is, dan is dat Theo van Veen wel. Zijn focus is om de vindbaarheid en bruikbaarheid van digitale content te verbeteren via verrijkingen, machine learning en crowd sourcing.

Dingen herkennen

Het voorbeeld van zoeken naar ‘Beatles’ en ‘Jesus’ geeft een indicatie van zijn werk: allereerst moet je in teksten de namen van ‘dingen’ herkennen. Hoe weet je anders waar het om gaat? Deze ‘named entity recognition’ is een belangrijke stap in de verrijking van de content. Die namen worden geïdentificeerd door ze op te zoeken in een soort thesaurus. Op dit moment is dat bij voorkeur de DBpedia, een hoogst gestructureerde en machineleesbare versie van Wikipedia. Maar ja, die namen zijn ambigu zoals we al zagen met ‘Jesus’. Dus puur vergelijken is niet genoeg, we moeten de juiste namen vinden en wel door context te interpreteren.

Contextinformatie

Nu wordt het interessant. Diezelfde Wikipedia-variant bevat contextinformatie die identificatie van de juiste naam mogelijk maakt. Er kan vervolgens in de onderzochte tekst gelinkt worden naar die context om verdieping mogelijk te maken voor de gebruiker. Zelfs kan die gerelateerde informatie worden mee-geïndexeerd als onderdeel van het object. Ook kan zoeken op basis van semantische relaties mogelijk worden gemaakt. Allemaal vooraf, automatisch en ongevraagd. Theo van Veen hierover: “Gerelateerde informatie moet niet eerst door gebruikers gezocht hoeven te worden, maar moet direct worden aangeboden.” Oftewel: “Onze software moet onze content integraal gelezen en geanalyseerd hebben voor de gebruiker.”

TV-journaal

Een voorbeeld is het matchen van krantenartikelen en transcripten van Polygoon- of televisiejournaals. Er wordt gematcht op tientallen, misschien wel meer dan 100 kenmerken, te beginnen met titel, beschrijving, datum. Er zijn meer kant-en-klare basisingrediënten voor automatische herkenning die gebruikt kunnen worden, zoals een Persoonsnamenthesaurus (Nederlandse Thesaurus van Auteursnamen), onderdeel van het Gemeenschappelijk Geautomatiseerd Catalogiseersysteem, maar Van Veenzet zijn fiches op de Wiki-data.

Veel fouten

Conclusie: software rules! Er worden helaas nog wel veel fouten gemaakt. Ook zit niet alles in DBpedia. En dus is gebruikersfeedback nodig voor correcties, moeten links worden toegevoegd voor niet herkende namen en is extra training van de software vereist. Maar we komen er wel: deep learning, met name via een neuraal netwerk, wordt steeds effectiever als analysevorm, zeker vergeleken met het inmiddels ouderwetse ‘rule based’ learning. Toch geen Data Morgana dus!

Fake news

Overigens: mede-Beatle Paul McCartney is in verband met automatische tekstanalyse misschien nog wel de interessantste. Hij schreef namelijk het nummer ‘Back in the USSR’ met de gedenkwaardige zin ‘Back in the US… back in the US… back in the USSR’. Hoe hij in de zomer van 1968 kon voorzien dat een halve eeuw later Donald Trump aan de macht zou komen in een Russisch voorkomende wolk van populisme, intimidatie en bedrog, mag altijd een raadsel blijven. Feit blijft dat het de interpretatie van teksten niet eenvoudiger maakt. Wat heb je aan al die statistieken en machine-data als ze vol zitten met fake-news?

Gewicht toekennen

Hoewel, misschien kun je de resultaten betrouwbaarder maken door gewichten toe te kennen aan de bronnen: hoe geloofwaardiger de bron, hoe zwaarder de teksten meetellen. Al komen we daarmee wel in het voorbeeld van Paul McCartney – letterlijk – in politieke discussies terecht. Er is wellicht ook een andere oplossing: toen de Beatles ‘Back to the USSR’ schreven waren ze in India en gingen ze helemaal op in Transcedentie Meditatie. Wie weet gaf dat Paul wel zijn heldere inzichten. Misschien de volgende stap in machine learning: Transcending Textdata?

Simon Been is directeur van het Papieren Tijger Netwerk, een netwerk van informatie-professionals

Robbert Hoeffnagel

Editor @ Belgium Cloud



machine learning Ngram Viewer Papieren Tijger Netwerk tekstanalyse