Machine learning en tekstanalyse: fata morgana of data morgana?

24 februari 2017

Een goede analyse van teksten kan veel werk­pro­cessen drastisch verbe­teren. Machine learning lijkt hierbij een belang­rijke rol te kunnen spelen. Maar zoals bij elk visioen geldt de hamvraag: is dit realis­tisch of is het een fata morgana? Of in dit geval dus een ‘data morgana’? Simon Been, een Neder­landse infor­matie-speci­a­list, gaat dieper op deze materie in.

Misschien moeten we hiervoor een auto­ri­teit op het gebied van voor­spel­lingen raad­plegen: John Lennon. Onge­twij­feld herkent u wat deze Beatle in 1969 zong: ‘The way things are going, they’re gonna crucify me’. De wereld schudde ervan. Toen ik elf jaar later hoorde dat hij dood­ge­schoten was, schudde ik zelf. Zijn roem was hem inderdaad fataal geworden, maar dan niet door nagels aan een kruis, maar door kogels. De lering: ook al heb je het bij het juiste eind, het venijn zit in de details. Zo dachten we een tijd lang dat geau­to­ma­ti­seerde tekst­ana­lyse vereiste: de computer onder­wijzen hoe hij moet denken, via regeltjes. Nu lijkt het geheim: de computer zelf laten leren zijn eigen regeltjes te maken, op basis van enorme hoeveel­heden data. Kortom: Machine Learning + Big Data.

Krachtig

Maar waarom is dat zo belang­rijk? Big Data gebruiken is al zo krachtig. Kijk maar naar een andere uitspraak van John Lennon in 1966: ‘We’re more popular than Jesus now’. Dat lijkt op die vorige, ook qua ophef, maar hij is een stuk lastiger te valideren. Hoe check je of hij gelijk had? Een volks­raad­ple­ging op het kerkhof? Daar ligt tenslotte een groot deel van de toen­ma­lige populatie. Een aardige indicatie is er wel te vinden: in het geschreven woord. Dus heb ik voor dit artikel mijzelf opge­sloten in een pakhuis vol Engels­ta­lige boeken uit die tijd en geturfd hoe vaak de woorden ‘Jesus’ en ‘Beatles’ voor­kwamen. De resul­te­rende grafiek (zie figuur 1) spreekt boekdelen: John Lennon zat er verschrik­ke­lijk naast.

Figuur 1. Analyse van Google Books op de woorden ‘Jesus’ en Beatles’

Ngram Viewer

De kracht van Big Data is hiermee wel bewezen. Laat ik eerlijk zijn: de grafiek in figuur 1 komt uit de Ngram Viewer van Google. Mijn analyse duurde een fractie van een seconde en spitte door 5 miljoen boeken. Big Data rules! Hoewel… wat is nou 5 miljoen boeken? En waarom geen tijd­schriften? En brieven (bij gebrek aan internet), TV-journaals, radioprogramma’s? Trouwens, hoe weet ik of ‘Jesus’ niet gewoon een populaire voornaam is geworden?

Data Morgana

Kortom: tekst­ana­lyse op grond van Big Data is helaas een Data Morgana. Of ga ik nu te snel? Gelukkig ontmoette ik laatst Theo van Veen van de Konink­lijke Bibli­o­theek. De KB is hét Neder­landse kennis­in­sti­tuut op het gebied van woord, tekst en document. Hij sprak op een zogeheten ‘Heter­daad­sessie’ van het Papieren Tijger Netwerk, waarin zo’n 700 infor­ma­tie­pro­fes­si­o­nals parti­ci­peren. En dat komt nu goed van pas, want als er iemand is die weet wat de stand van zaken op dit gebied is, dan is dat Theo van Veen wel. Zijn focus is om de vind­baar­heid en bruik­baar­heid van digitale content te verbe­teren via verrij­kingen, machine learning en crowd sourcing.

Dingen herkennen

Het voorbeeld van zoeken naar ‘Beatles’ en ‘Jesus’ geeft een indicatie van zijn werk: aller­eerst moet je in teksten de namen van ‘dingen’ herkennen. Hoe weet je anders waar het om gaat? Deze ‘named entity recog­ni­tion’ is een belang­rijke stap in de verrij­king van de content. Die namen worden geïden­ti­fi­ceerd door ze op te zoeken in een soort thesaurus. Op dit moment is dat bij voorkeur de DBpedia, een hoogst gestruc­tu­reerde en machi­ne­lees­bare versie van Wikipedia. Maar ja, die namen zijn ambigu zoals we al zagen met ‘Jesus’. Dus puur verge­lijken is niet genoeg, we moeten de juiste namen vinden en wel door context te interpreteren.

Contextinformatie

Nu wordt het inte­res­sant. Diezelfde Wikipedia-variant bevat context­in­for­matie die iden­ti­fi­catie van de juiste naam mogelijk maakt. Er kan vervol­gens in de onder­zochte tekst gelinkt worden naar die context om verdie­ping mogelijk te maken voor de gebruiker. Zelfs kan die gere­la­teerde infor­matie worden mee-geïn­dexeerd als onderdeel van het object. Ook kan zoeken op basis van seman­ti­sche relaties mogelijk worden gemaakt. Allemaal vooraf, auto­ma­tisch en onge­vraagd. Theo van Veen hierover: “Gere­la­teerde infor­matie moet niet eerst door gebrui­kers gezocht hoeven te worden, maar moet direct worden aange­boden.” Oftewel: “Onze software moet onze content integraal gelezen en geana­ly­seerd hebben voor de gebruiker.”

TV-journaal

Een voorbeeld is het matchen van kran­ten­ar­ti­kelen en trans­cripten van Polygoon- of tele­vi­sie­jour­naals. Er wordt gematcht op tien­tallen, misschien wel meer dan 100 kenmerken, te beginnen met titel, beschrij­ving, datum. Er zijn meer kant-en-klare basis­in­gre­di­ënten voor auto­ma­ti­sche herken­ning die gebruikt kunnen worden, zoals een Persoons­na­men­the­saurus (Neder­landse Thesaurus van Auteurs­namen), onderdeel van het Gemeen­schap­pe­lijk Geau­to­ma­ti­seerd Cata­lo­gi­seer­sys­teem, maar Van Veenzet zijn fiches op de Wiki-data.

Veel fouten

Conclusie: software rules! Er worden helaas nog wel veel fouten gemaakt. Ook zit niet alles in DBpedia. En dus is gebrui­kers­feed­back nodig voor correc­ties, moeten links worden toege­voegd voor niet herkende namen en is extra training van de software vereist. Maar we komen er wel: deep learning, met name via een neuraal netwerk, wordt steeds effec­tiever als analy­se­vorm, zeker verge­leken met het inmiddels ouder­wetse ‘rule based’ learning. Toch geen Data Morgana dus!

Fake news

Overigens: mede-Beatle Paul McCartney is in verband met auto­ma­ti­sche tekst­ana­lyse misschien nog wel de inte­res­santste. Hij schreef namelijk het nummer ‘Back in the USSR’ met de gedenk­waar­dige zin ‘Back in the US… back in the US… back in the USSR’. Hoe hij in de zomer van 1968 kon voorzien dat een halve eeuw later Donald Trump aan de macht zou komen in een Russisch voor­ko­mende wolk van populisme, inti­mi­datie en bedrog, mag altijd een raadsel blijven. Feit blijft dat het de inter­pre­tatie van teksten niet eenvou­diger maakt. Wat heb je aan al die statis­tieken en machine-data als ze vol zitten met fake-news?

Gewicht toekennen

Hoewel, misschien kun je de resul­taten betrouw­baarder maken door gewichten toe te kennen aan de bronnen: hoe geloof­waar­diger de bron, hoe zwaarder de teksten meetellen. Al komen we daarmee wel in het voorbeeld van Paul McCartney – letter­lijk – in politieke discus­sies terecht. Er is wellicht ook een andere oplossing: toen de Beatles ‘Back to the USSR’ schreven waren ze in India en gingen ze helemaal op in Trans­ce­dentie Meditatie. Wie weet gaf dat Paul wel zijn heldere inzichten. Misschien de volgende stap in machine learning: Trans­cen­ding Textdata?

Simon Been is directeur van het Papieren Tijger Netwerk, een netwerk van informatie-professionals

Pin It on Pinterest

Share This