23 december 2024
0 Reactie(s)

23 december 2024

Met Teuken 7B is EU meertalige LLM rijker (met podcast)

Teuken 7B is een interes­sant Europees Large Language Model (LLM) dat speciaal is ontwik­keld om de diverse taalkun­dige en cultu­rele rijkdom van Europa te weerspie­gelen. In tegen­stel­ling tot veel bestaande modellen, die voorna­me­lijk op het Engels zijn gericht, legt Teuken 7B de nadruk op alle 24 officiële talen van de Europese Unie (EU). Dit maakt het model erg relevant voor toepas­singen binnen Europa, waar meerta­lig­heid een cruciale rol speelt in commu­ni­catie en informatieverwerking.

Over OpenGPT‑X

Dat valt te lezen op de website van OpenGPT‑X. Genera­tieve AI (GenAI) en grote taalmo­dellen (LLM’s) halen het nieuws sinds ChatGPT en hebben een groot poten­tieel voor zakelijk gebruik. De meeste van de krach­tigste modellen zijn tegen­woordig echter ‘closed source’, ontwik­keld door grote Ameri­kaanse en Chinese bedrijven. OpenGPT‑X wil een voorbeeld stellen: onder de juiste omstan­dig­heden kunnen Duits­land en Europa inter­na­ti­o­naal gelijke tred houden in de ontwik­ke­ling van deze sleutel­tech­no­logie – terwijl ze hun eigen unieke verkoop­ar­gu­menten benadrukken. Het project heeft als doel de keuze­vrij­heid en digitale soeve­rei­ni­teit voor Duitse bedrijven op het gebied van GenAI te versterken en daarmee bestaande barri­ères voor het gebruik van genera­tieve AI weg te nemen.


Podcast: Met Teuken 7B is EU meerta­lige LLM rijker

Dr. Nicolas Flores-Herr, OpenGPT‑X project­leider bij Fraun­hofer IAIS, zegt op de website van het project: “Het OpenGPT‑X project ontwik­kelt grote AI-taalmo­dellen ‘Made in Germany’, die direct zijn afgestemd op de behoeften van bedrijven, maar ook kunnen worden gebruikt in onder­zoek. Veelzij­dig­heid, betrouw­baar­heid, meerta­lig­heid in het Duits en andere Europese talen en openheid (open source) zijn belang­rijke kenmerken van de modellen die in OpenGPT‑X worden ontwikkeld”.

OpenGPT‑X en zijn consor­ti­um­part­ners, geleid door Fraun­hofer IAIS en Fraun­hofer IIS, verte­gen­woor­digen de volle­dige GenAI-waarde­keten: van de zeer schaal­bare, GPU-gebaseerde infra­struc­tuur en data voor het trainen van grote taalmo­dellen, tot het ontwerp van de modellen zelf, tot de produc­tieve toepas­sing in de vorm van proto­types en proofs of concepts (PoC’s) door consor­ti­um­part­ners uit de industrie. Enerzijds is het project gericht op het bevor­deren van baanbre­kende onder­zoeks­vragen en het uitvoeren van weten­schap­pe­lijke studies naar kritieke beslis­singen voor het trainen van de modellen. Ander­zijds wordt het produc­tieve gebruik van de modellen vanaf de aller­eerste ontwik­ke­lings­stap in overwe­ging genomen.

Het project wordt gefinan­cierd door het Duitse Federale Minis­terie voor Econo­mi­sche Zaken en Klimaat­actie (BMWK) als onder­deel van de finan­cie­rings­com­pe­titie “Innova­tive and practical appli­ca­tions and data spaces in the Gaia‑X digital ecosy­stem” van januari 2022 tot maart 2025. De totale finan­cie­ring bedraagt ongeveer 14 miljoen euro. Het Duitse Bundes­net­za­gentur (BNetzA) is verant­woor­de­lijk voor de uitvoe­ring van de Gaia‑X finan­cie­ring. De Gaia‑X Hub Duits­land bij acatech – National Academy of Science and Enginee­ring onder­steunt de Gaia‑X finan­cie­rings­pro­jecten op het gebied van weten­schap­pe­lijk toezicht, netwerken en overdracht van resultaten.

Aanzienlijke uitdagingen

Het ontwik­kelen van een derge­lijk meertalig model bracht aanzien­lijke uitda­gingen met zich mee, met name op het gebied van compute resources en de beschik­baar­heid van hoogwaar­dige data. Om deze obsta­kels te overwinnen, werd een op maat gemaakte meerta­lige tokenizer ontwik­keld die geopti­ma­li­seerd is voor alle 24 EU-talen. Tradi­ti­o­nele, op het Engels gerichte tokeni­zers fragmen­teren niet-Engelse teksten vaak, wat leidt tot ineffi­ci­ën­ties tijdens training en hogere kosten bij inferentie. De nieuwe tokenizer van Teuken 7B vermin­dert deze problemen aanzien­lijk, waardoor zowel training als toepas­sing effici­ënter verlopen.

Een ander kenmerk van Teuken 7B is de training op een dataset die voor meer dan 50% uit niet-Engelse data bestaat. Deze bewuste keuze zorgt ervoor dat het model beter presteert in de verschil­lende Europese talen, wat essen­tieel is voor toepas­singen die nauwkeu­rige en contex­tuele taalver­wer­king vereisen in een meerta­lige omgeving. Het verza­melen van deze diverse data vergde een uitge­breide inspan­ning om ervoor te zorgen dat ook minder gebruikte talen adequaat werden vertegenwoordigd.

Evaluatie en prestaties

Om de presta­ties van Teuken 7B te beoor­delen, werden meerta­lige evalu­a­tie­da­ta­sets ontwik­keld voor 21 EU-talen. Dit is bijzonder waardevol, aange­zien voor veel van deze talen weinig tot geen evalu­a­tie­data beschik­baar was. Deze grondige evalu­atie stelt het model in staat om nauwkeu­rige voorspel­lingen en analyses te leveren over een breed scala aan talen, wat het bijzonder geschikt maakt voor gebruik in Europa.

Teuken 7B is ontwik­keld met een open source-benade­ring, wat betekent dat het model vrij beschik­baar is voor onder­zoe­kers, ontwik­ke­laars en AI-enthou­si­as­te­lingen. Deze openheid stimu­leert samen­wer­king en innovatie binnen de Europese AI-gemeen­schap. Door middel van platforms zoals een speciale Discord-server wordt een ruimte geboden voor techni­sche discus­sies, het uitwis­selen van ideeën en directe inter­actie met het ontwik­ke­lings­team. Deze gemeen­schaps­ge­richte aanpak versterkt de positie van Europa in het wereld­wijde AI-landschap en bevor­dert de ontwik­ke­ling van AI-oplos­singen die zijn afgestemd op de speci­fieke behoeften en waarden van de Europese samenleving.

De meerta­lige capaci­teiten van Teuken 7B openen de deur naar tal van toepas­singen, varië­rend van geauto­ma­ti­seerde verta­lingen en content­cre­atie tot senti­ment­ana­lyse en chatbots die in staat zijn om in meerdere talen te commu­ni­ceren. De nadruk op Europese talen maakt het model bijzonder geschikt voor organi­sa­ties en bedrijven die opereren in de EU en die behoefte hebben aan nauwkeu­rige en cultu­reel relevante taalverwerking.

Met de voort­du­rende evolutie van AI en de groei­ende vraag naar meerta­lige oplos­singen, staat Teuken 7B klaar om een sleutelrol te spelen in de toekomst van taalmo­dellen binnen Europa. De combi­natie van techni­sche innovatie, een focus op meerta­lig­heid en een open-source­be­na­de­ring positi­o­neert Teuken 7B als een toonaan­ge­vend model dat de diverse en dynami­sche taalland­schap van Europa weerspie­gelt en ondersteunt.

Robbert Hoeffnagel

Robbert Hoeffnagel

Editor en journalist @ Business Meets IT

0 Reactie(s)

12 weergaven

Gerelateerde berichten

Rapport Bain & Company: ‘Verzekeraars kunnen toename in cyberrisico’s niet bijbenen’

Rapport Bain & Company: ‘Verzekeraars kunnen toename in cyberrisico’s niet bijbenen’

Nieuwe BNW Index 2025 over werkomgeving: ‘Onzekerheid is de enige zekerheid’

Nieuwe BNW Index 2025 over werkomgeving: ‘Onzekerheid is de enige zekerheid’

Techleap selecteert negen ambitieuze scale-ups voor het Rise-groeiprogramma

Techleap selecteert negen ambitieuze scale-ups voor het Rise-groeiprogramma

High Tech Campus Eindhoven en Dassault Systèmes bundelen krachten voor innovatie in 3D-technologie en virtual twins

High Tech Campus Eindhoven en Dassault Systèmes bundelen krachten voor innovatie in 3D-technologie en virtual twins

Geen berichten gevonden.

0 Reactie(s)

0 reacties

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Pin It on Pinterest

Share This