Duitsland ontwikkelt met Teuken 7B een meertalige LLM

23 december 2024

Teuken 7B is een inte­res­sant Europees Large Language Model (LLM) dat speciaal is ontwik­keld om de diverse taal­kun­dige en culturele rijkdom van Europa te weer­spie­gelen. In tegen­stel­ling tot veel bestaande modellen, die voor­na­me­lijk op het Engels zijn gericht, legt Teuken 7B de nadruk op alle 24 officiële talen van de Europese Unie (EU). Dit maakt het model erg relevant voor toepas­singen binnen Europa, waar meer­ta­lig­heid een cruciale rol speelt in commu­ni­catie en informatieverwerking.

Over OpenGPT‑X

Dat valt te lezen op de website van OpenGPT‑X. Gene­ra­tieve AI (GenAI) en grote taal­mo­dellen (LLM’s) halen het nieuws sinds ChatGPT en hebben een groot poten­tieel voor zakelijk gebruik. De meeste van de krach­tigste modellen zijn tegen­woordig echter ‘closed source’, ontwik­keld door grote Ameri­kaanse en Chinese bedrijven. OpenGPT‑X wil een voorbeeld stellen: onder de juiste omstan­dig­heden kunnen Duitsland en Europa inter­na­ti­o­naal gelijke tred houden in de ontwik­ke­ling van deze sleu­tel­tech­no­logie – terwijl ze hun eigen unieke verkoop­ar­gu­menten bena­drukken. Het project heeft als doel de keuze­vrij­heid en digitale soeve­rei­ni­teit voor Duitse bedrijven op het gebied van GenAI te versterken en daarmee bestaande barrières voor het gebruik van gene­ra­tieve AI weg te nemen.

Dr. Nicolas Flores-Herr, OpenGPT‑X project­leider bij Fraun­hofer IAIS, zegt op de website van het project: “Het OpenGPT‑X project ontwik­kelt grote AI-taal­mo­dellen ‘Made in Germany’, die direct zijn afgestemd op de behoeften van bedrijven, maar ook kunnen worden gebruikt in onderzoek. Veel­zij­dig­heid, betrouw­baar­heid, meer­ta­lig­heid in het Duits en andere Europese talen en openheid (open source) zijn belang­rijke kenmerken van de modellen die in OpenGPT‑X worden ontwikkeld”.

OpenGPT‑X en zijn consor­ti­um­part­ners, geleid door Fraun­hofer IAIS en Fraun­hofer IIS, verte­gen­woor­digen de volledige GenAI-waar­de­keten: van de zeer schaal­bare, GPU-geba­seerde infra­struc­tuur en data voor het trainen van grote taal­mo­dellen, tot het ontwerp van de modellen zelf, tot de produc­tieve toepas­sing in de vorm van proto­types en proofs of concepts (PoC’s) door consor­ti­um­part­ners uit de industrie. Enerzijds is het project gericht op het bevor­deren van baan­bre­kende onder­zoeks­vragen en het uitvoeren van weten­schap­pe­lijke studies naar kritieke beslis­singen voor het trainen van de modellen. Ander­zijds wordt het produc­tieve gebruik van de modellen vanaf de aller­eerste ontwik­ke­lings­stap in over­we­ging genomen.

Het project wordt gefi­nan­cierd door het Duitse Federale Minis­terie voor Econo­mi­sche Zaken en Klimaat­actie (BMWK) als onderdeel van de finan­cie­rings­com­pe­titie “Inno­va­tive and practical appli­ca­tions and data spaces in the Gaia‑X digital ecosystem” van januari 2022 tot maart 2025. De totale finan­cie­ring bedraagt ongeveer 14 miljoen euro. Het Duitse Bundes­net­za­gentur (BNetzA) is verant­woor­de­lijk voor de uitvoe­ring van de Gaia‑X finan­cie­ring. De Gaia‑X Hub Duitsland bij acatech – National Academy of Science and Engi­nee­ring onder­steunt de Gaia‑X finan­cie­rings­pro­jecten op het gebied van weten­schap­pe­lijk toezicht, netwerken en over­dracht van resultaten.

Aanzienlijke uitdagingen

Het ontwik­kelen van een dergelijk meertalig model bracht aanzien­lijke uitda­gingen met zich mee, met name op het gebied van compute resources en de beschik­baar­heid van hoog­waar­dige data. Om deze obstakels te over­winnen, werd een op maat gemaakte meer­ta­lige tokenizer ontwik­keld die geop­ti­ma­li­seerd is voor alle 24 EU-talen. Tradi­ti­o­nele, op het Engels gerichte toke­ni­zers frag­men­teren niet-Engelse teksten vaak, wat leidt tot inef­fi­ci­ën­ties tijdens training en hogere kosten bij infe­rentie. De nieuwe tokenizer van Teuken 7B vermin­dert deze problemen aanzien­lijk, waardoor zowel training als toepas­sing effi­ci­ënter verlopen.

Een ander kenmerk van Teuken 7B is de training op een dataset die voor meer dan 50% uit niet-Engelse data bestaat. Deze bewuste keuze zorgt ervoor dat het model beter presteert in de verschil­lende Europese talen, wat essen­tieel is voor toepas­singen die nauw­keu­rige en contex­tuele taal­ver­wer­king vereisen in een meer­ta­lige omgeving. Het verza­melen van deze diverse data vergde een uitge­breide inspan­ning om ervoor te zorgen dat ook minder gebruikte talen adequaat werden vertegenwoordigd.

Evaluatie en prestaties

Om de pres­ta­ties van Teuken 7B te beoor­delen, werden meer­ta­lige evalu­a­tie­da­ta­sets ontwik­keld voor 21 EU-talen. Dit is bijzonder waardevol, aangezien voor veel van deze talen weinig tot geen evalu­a­tie­data beschik­baar was. Deze grondige evaluatie stelt het model in staat om nauw­keu­rige voor­spel­lingen en analyses te leveren over een breed scala aan talen, wat het bijzonder geschikt maakt voor gebruik in Europa.

Teuken 7B is ontwik­keld met een open source-bena­de­ring, wat betekent dat het model vrij beschik­baar is voor onder­zoe­kers, ontwik­ke­laars en AI-enthou­si­as­te­lingen. Deze openheid stimu­leert samen­wer­king en innovatie binnen de Europese AI-gemeen­schap. Door middel van platforms zoals een speciale Discord-server wordt een ruimte geboden voor tech­ni­sche discus­sies, het uitwis­selen van ideeën en directe inter­actie met het ontwik­ke­lings­team. Deze gemeen­schaps­ge­richte aanpak versterkt de positie van Europa in het wereld­wijde AI-landschap en bevordert de ontwik­ke­ling van AI-oplos­singen die zijn afgestemd op de speci­fieke behoeften en waarden van de Europese samenleving.

De meer­ta­lige capa­ci­teiten van Teuken 7B openen de deur naar tal van toepas­singen, variërend van geau­to­ma­ti­seerde verta­lingen en content­cre­atie tot senti­ment­ana­lyse en chatbots die in staat zijn om in meerdere talen te commu­ni­ceren. De nadruk op Europese talen maakt het model bijzonder geschikt voor orga­ni­sa­ties en bedrijven die opereren in de EU en die behoefte hebben aan nauw­keu­rige en cultureel relevante taalverwerking.

Met de voort­du­rende evolutie van AI en de groeiende vraag naar meer­ta­lige oplos­singen, staat Teuken 7B klaar om een sleu­telrol te spelen in de toekomst van taal­mo­dellen binnen Europa. De combi­natie van tech­ni­sche innovatie, een focus op meer­ta­lig­heid en een open-sour­ce­be­na­de­ring posi­ti­o­neert Teuken 7B als een toon­aan­ge­vend model dat de diverse en dyna­mi­sche taal­land­schap van Europa weer­spie­gelt en ondersteunt.

Pin It on Pinterest

Share This