23 december 2024
0 Reactie(s)

23 december 2024

Met Teuken 7B is EU meertalige LLM rijker (met podcast)

Teuken 7B is een interes­sant Europees Large Language Model (LLM) dat speciaal is ontwik­keld om de diverse taalkun­dige en cultu­rele rijkdom van Europa te weerspie­gelen. In tegen­stel­ling tot veel bestaande modellen, die voorna­me­lijk op het Engels zijn gericht, legt Teuken 7B de nadruk op alle 24 officiële talen van de Europese Unie (EU). Dit maakt het model erg relevant voor toepas­singen binnen Europa, waar meerta­lig­heid een cruciale rol speelt in commu­ni­catie en informatieverwerking.

Over OpenGPT‑X

Dat valt te lezen op de website van OpenGPT‑X. Genera­tieve AI (GenAI) en grote taalmo­dellen (LLM’s) halen het nieuws sinds ChatGPT en hebben een groot poten­tieel voor zakelijk gebruik. De meeste van de krach­tigste modellen zijn tegen­woordig echter ‘closed source’, ontwik­keld door grote Ameri­kaanse en Chinese bedrijven. OpenGPT‑X wil een voorbeeld stellen: onder de juiste omstan­dig­heden kunnen Duits­land en Europa inter­na­ti­o­naal gelijke tred houden in de ontwik­ke­ling van deze sleutel­tech­no­logie – terwijl ze hun eigen unieke verkoop­ar­gu­menten benadrukken. Het project heeft als doel de keuze­vrij­heid en digitale soeve­rei­ni­teit voor Duitse bedrijven op het gebied van GenAI te versterken en daarmee bestaande barri­ères voor het gebruik van genera­tieve AI weg te nemen.


Podcast: Met Teuken 7B is EU meerta­lige LLM rijker

Dr. Nicolas Flores-Herr, OpenGPT‑X project­leider bij Fraun­hofer IAIS, zegt op de website van het project: “Het OpenGPT‑X project ontwik­kelt grote AI-taalmo­dellen ‘Made in Germany’, die direct zijn afgestemd op de behoeften van bedrijven, maar ook kunnen worden gebruikt in onder­zoek. Veelzij­dig­heid, betrouw­baar­heid, meerta­lig­heid in het Duits en andere Europese talen en openheid (open source) zijn belang­rijke kenmerken van de modellen die in OpenGPT‑X worden ontwikkeld”.

OpenGPT‑X en zijn consor­ti­um­part­ners, geleid door Fraun­hofer IAIS en Fraun­hofer IIS, verte­gen­woor­digen de volle­dige GenAI-waarde­keten: van de zeer schaal­bare, GPU-gebaseerde infra­struc­tuur en data voor het trainen van grote taalmo­dellen, tot het ontwerp van de modellen zelf, tot de produc­tieve toepas­sing in de vorm van proto­types en proofs of concepts (PoC’s) door consor­ti­um­part­ners uit de industrie. Enerzijds is het project gericht op het bevor­deren van baanbre­kende onder­zoeks­vragen en het uitvoeren van weten­schap­pe­lijke studies naar kritieke beslis­singen voor het trainen van de modellen. Ander­zijds wordt het produc­tieve gebruik van de modellen vanaf de aller­eerste ontwik­ke­lings­stap in overwe­ging genomen.

Het project wordt gefinan­cierd door het Duitse Federale Minis­terie voor Econo­mi­sche Zaken en Klimaat­actie (BMWK) als onder­deel van de finan­cie­rings­com­pe­titie “Innova­tive and practical appli­ca­tions and data spaces in the Gaia‑X digital ecosy­stem” van januari 2022 tot maart 2025. De totale finan­cie­ring bedraagt ongeveer 14 miljoen euro. Het Duitse Bundes­net­za­gentur (BNetzA) is verant­woor­de­lijk voor de uitvoe­ring van de Gaia‑X finan­cie­ring. De Gaia‑X Hub Duits­land bij acatech – National Academy of Science and Enginee­ring onder­steunt de Gaia‑X finan­cie­rings­pro­jecten op het gebied van weten­schap­pe­lijk toezicht, netwerken en overdracht van resultaten.

Aanzienlijke uitdagingen

Het ontwik­kelen van een derge­lijk meertalig model bracht aanzien­lijke uitda­gingen met zich mee, met name op het gebied van compute resources en de beschik­baar­heid van hoogwaar­dige data. Om deze obsta­kels te overwinnen, werd een op maat gemaakte meerta­lige tokenizer ontwik­keld die geopti­ma­li­seerd is voor alle 24 EU-talen. Tradi­ti­o­nele, op het Engels gerichte tokeni­zers fragmen­teren niet-Engelse teksten vaak, wat leidt tot ineffi­ci­ën­ties tijdens training en hogere kosten bij inferentie. De nieuwe tokenizer van Teuken 7B vermin­dert deze problemen aanzien­lijk, waardoor zowel training als toepas­sing effici­ënter verlopen.

Een ander kenmerk van Teuken 7B is de training op een dataset die voor meer dan 50% uit niet-Engelse data bestaat. Deze bewuste keuze zorgt ervoor dat het model beter presteert in de verschil­lende Europese talen, wat essen­tieel is voor toepas­singen die nauwkeu­rige en contex­tuele taalver­wer­king vereisen in een meerta­lige omgeving. Het verza­melen van deze diverse data vergde een uitge­breide inspan­ning om ervoor te zorgen dat ook minder gebruikte talen adequaat werden vertegenwoordigd.

Evaluatie en prestaties

Om de presta­ties van Teuken 7B te beoor­delen, werden meerta­lige evalu­a­tie­da­ta­sets ontwik­keld voor 21 EU-talen. Dit is bijzonder waardevol, aange­zien voor veel van deze talen weinig tot geen evalu­a­tie­data beschik­baar was. Deze grondige evalu­atie stelt het model in staat om nauwkeu­rige voorspel­lingen en analyses te leveren over een breed scala aan talen, wat het bijzonder geschikt maakt voor gebruik in Europa.

Teuken 7B is ontwik­keld met een open source-benade­ring, wat betekent dat het model vrij beschik­baar is voor onder­zoe­kers, ontwik­ke­laars en AI-enthou­si­as­te­lingen. Deze openheid stimu­leert samen­wer­king en innovatie binnen de Europese AI-gemeen­schap. Door middel van platforms zoals een speciale Discord-server wordt een ruimte geboden voor techni­sche discus­sies, het uitwis­selen van ideeën en directe inter­actie met het ontwik­ke­lings­team. Deze gemeen­schaps­ge­richte aanpak versterkt de positie van Europa in het wereld­wijde AI-landschap en bevor­dert de ontwik­ke­ling van AI-oplos­singen die zijn afgestemd op de speci­fieke behoeften en waarden van de Europese samenleving.

De meerta­lige capaci­teiten van Teuken 7B openen de deur naar tal van toepas­singen, varië­rend van geauto­ma­ti­seerde verta­lingen en content­cre­atie tot senti­ment­ana­lyse en chatbots die in staat zijn om in meerdere talen te commu­ni­ceren. De nadruk op Europese talen maakt het model bijzonder geschikt voor organi­sa­ties en bedrijven die opereren in de EU en die behoefte hebben aan nauwkeu­rige en cultu­reel relevante taalverwerking.

Met de voort­du­rende evolutie van AI en de groei­ende vraag naar meerta­lige oplos­singen, staat Teuken 7B klaar om een sleutelrol te spelen in de toekomst van taalmo­dellen binnen Europa. De combi­natie van techni­sche innovatie, een focus op meerta­lig­heid en een open-source­be­na­de­ring positi­o­neert Teuken 7B als een toonaan­ge­vend model dat de diverse en dynami­sche taalland­schap van Europa weerspie­gelt en ondersteunt.

Robbert Hoeffnagel

Robbert Hoeffnagel

Editor en journalist @ Business Meets IT

0 Reactie(s)

10 weergaven

Gerelateerde berichten

SCS biedt kant-en-klare cloud stack voor Europese soevereine cloud-omgevingen

SCS biedt kant-en-klare cloud stack voor Europese soevereine cloud-omgevingen

Volgens IT-leiders in de maakindustrie helpt de combinatie van AI en low-code om sneller te innoveren

Volgens IT-leiders in de maakindustrie helpt de combinatie van AI en low-code om sneller te innoveren

CBS brengt digitalisering en kenniseconomie in beeld (met podcast)

CBS brengt digitalisering en kenniseconomie in beeld (met podcast)

SAP lanceert Business Data Cloud voor enterprise databeheer

SAP lanceert Business Data Cloud voor enterprise databeheer

0 Reactie(s)

0 reacties

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Pin It on Pinterest

Share This