Duitsland ontwikkelt met Teuken 7B een meertalige LLM

23 december 2024

Teuken 7B is een interessant Europees Large Language Model (LLM) dat speciaal is ontwikkeld om de diverse taalkundige en culturele rijkdom van Europa te weerspiegelen. In tegenstelling tot veel bestaande modellen, die voornamelijk op het Engels zijn gericht, legt Teuken 7B de nadruk op alle 24 officiële talen van de Europese Unie (EU). Dit maakt het model erg relevant voor toepassingen binnen Europa, waar meertaligheid een cruciale rol speelt in communicatie en informatieverwerking.

Over OpenGPT‑X

Dat valt te lezen op de website van OpenGPT‑X. Generatieve AI (GenAI) en grote taalmodellen (LLM’s) halen het nieuws sinds ChatGPT en hebben een groot potentieel voor zakelijk gebruik. De meeste van de krachtigste modellen zijn tegenwoordig echter ‘closed source’, ontwikkeld door grote Amerikaanse en Chinese bedrijven. OpenGPT‑X wil een voorbeeld stellen: onder de juiste omstandigheden kunnen Duitsland en Europa internationaal gelijke tred houden in de ontwikkeling van deze sleuteltechnologie – terwijl ze hun eigen unieke verkoopargumenten benadrukken. Het project heeft als doel de keuzevrijheid en digitale soevereiniteit voor Duitse bedrijven op het gebied van GenAI te versterken en daarmee bestaande barrières voor het gebruik van generatieve AI weg te nemen.

Dr. Nicolas Flores-Herr, OpenGPT‑X projectleider bij Fraunhofer IAIS, zegt op de website van het project: “Het OpenGPT‑X project ontwikkelt grote AI-taalmodellen ‘Made in Germany’, die direct zijn afgestemd op de behoeften van bedrijven, maar ook kunnen worden gebruikt in onderzoek. Veelzijdigheid, betrouwbaarheid, meertaligheid in het Duits en andere Europese talen en openheid (open source) zijn belangrijke kenmerken van de modellen die in OpenGPT‑X worden ontwikkeld”.

OpenGPT‑X en zijn consortiumpartners, geleid door Fraunhofer IAIS en Fraunhofer IIS, vertegenwoordigen de volledige GenAI-waardeketen: van de zeer schaalbare, GPU-gebaseerde infrastructuur en data voor het trainen van grote taalmodellen, tot het ontwerp van de modellen zelf, tot de productieve toepassing in de vorm van prototypes en proofs of concepts (PoC’s) door consortiumpartners uit de industrie. Enerzijds is het project gericht op het bevorderen van baanbrekende onderzoeksvragen en het uitvoeren van wetenschappelijke studies naar kritieke beslissingen voor het trainen van de modellen. Anderzijds wordt het productieve gebruik van de modellen vanaf de allereerste ontwikkelingsstap in overweging genomen.

Het project wordt gefinancierd door het Duitse Federale Ministerie voor Economische Zaken en Klimaatactie (BMWK) als onderdeel van de financieringscompetitie “Innovative and practical applications and data spaces in the Gaia‑X digital ecosystem” van januari 2022 tot maart 2025. De totale financiering bedraagt ongeveer 14 miljoen euro. Het Duitse Bundesnetzagentur (BNetzA) is verantwoordelijk voor de uitvoering van de Gaia‑X financiering. De Gaia‑X Hub Duitsland bij acatech – National Academy of Science and Engineering ondersteunt de Gaia‑X financieringsprojecten op het gebied van wetenschappelijk toezicht, netwerken en overdracht van resultaten.

Aanzienlijke uitdagingen

Het ontwikkelen van een dergelijk meertalig model bracht aanzienlijke uitdagingen met zich mee, met name op het gebied van compute resources en de beschikbaarheid van hoogwaardige data. Om deze obstakels te overwinnen, werd een op maat gemaakte meertalige tokenizer ontwikkeld die geoptimaliseerd is voor alle 24 EU-talen. Traditionele, op het Engels gerichte tokenizers fragmenteren niet-Engelse teksten vaak, wat leidt tot inefficiënties tijdens training en hogere kosten bij inferentie. De nieuwe tokenizer van Teuken 7B vermindert deze problemen aanzienlijk, waardoor zowel training als toepassing efficiënter verlopen.

Een ander kenmerk van Teuken 7B is de training op een dataset die voor meer dan 50% uit niet-Engelse data bestaat. Deze bewuste keuze zorgt ervoor dat het model beter presteert in de verschillende Europese talen, wat essentieel is voor toepassingen die nauwkeurige en contextuele taalverwerking vereisen in een meertalige omgeving. Het verzamelen van deze diverse data vergde een uitgebreide inspanning om ervoor te zorgen dat ook minder gebruikte talen adequaat werden vertegenwoordigd.

Evaluatie en prestaties

Om de prestaties van Teuken 7B te beoordelen, werden meertalige evaluatiedatasets ontwikkeld voor 21 EU-talen. Dit is bijzonder waardevol, aangezien voor veel van deze talen weinig tot geen evaluatiedata beschikbaar was. Deze grondige evaluatie stelt het model in staat om nauwkeurige voorspellingen en analyses te leveren over een breed scala aan talen, wat het bijzonder geschikt maakt voor gebruik in Europa.

Teuken 7B is ontwikkeld met een open source-benadering, wat betekent dat het model vrij beschikbaar is voor onderzoekers, ontwikkelaars en AI-enthousiastelingen. Deze openheid stimuleert samenwerking en innovatie binnen de Europese AI-gemeenschap. Door middel van platforms zoals een speciale Discord-server wordt een ruimte geboden voor technische discussies, het uitwisselen van ideeën en directe interactie met het ontwikkelingsteam. Deze gemeenschapsgerichte aanpak versterkt de positie van Europa in het wereldwijde AI-landschap en bevordert de ontwikkeling van AI-oplossingen die zijn afgestemd op de specifieke behoeften en waarden van de Europese samenleving.

De meertalige capaciteiten van Teuken 7B openen de deur naar tal van toepassingen, variërend van geautomatiseerde vertalingen en contentcreatie tot sentimentanalyse en chatbots die in staat zijn om in meerdere talen te communiceren. De nadruk op Europese talen maakt het model bijzonder geschikt voor organisaties en bedrijven die opereren in de EU en die behoefte hebben aan nauwkeurige en cultureel relevante taalverwerking.

Met de voortdurende evolutie van AI en de groeiende vraag naar meertalige oplossingen, staat Teuken 7B klaar om een sleutelrol te spelen in de toekomst van taalmodellen binnen Europa. De combinatie van technische innovatie, een focus op meertaligheid en een open-sourcebenadering positioneert Teuken 7B als een toonaangevend model dat de diverse en dynamische taallandschap van Europa weerspiegelt en ondersteunt.

redactie@belgiumcloud

Persberichten, blogs en andere content kunt u mailen naar robbert@belgiumcloud.com



AI Fraunhofer GenAI LLM OpenGPT-X

Duitsland ontwikkelt met Teuken 7B een meertalige LLM

Over OpenGPT‑X

Aanzienlijke uitdagingen

Evaluatie en prestaties

redactie@belgiumcloud

Pin It on Pinterest