10 december 2024
0 Reactie(s)

10 december 2024

MLCommons introduceert AILuminate voor het benchmarken van taalmodellen (met podcast)

MLCom­mons heeft AILumi­nate geïntro­du­ceerd, een bench­mark die de veilig­heid van grote taalmo­dellen (LLM’s) beoor­deelt. Deze versie 1.0 biedt veilig­heids­be­oor­de­lingen voor de meest gebruikte LLM’s en is het resul­taat van een samen­wer­king tussen AI-onder­zoe­kers en industrie-experts.

AILumi­nate evalu­eert de reacties van LLM’s op meer dan 24.000 test prompts, verdeeld over twaalf catego­rieën van poten­tiële gevaren. Deze catego­rieën omvatten fysieke gevaren zoals aanmoe­di­ging van zelfbe­scha­di­ging, niet-fysieke gevaren zoals priva­cy­schen­dingen, en contex­tuele gevaren zoals het geven van ongekwa­li­fi­ceerd medisch advies. 

De bench­mark maakt gebruik van gespe­ci­a­li­seerde ‘safety evalu­ator models’ om te bepalen welke reacties inbreuk maken op de vastge­stelde veilig­heids­normen. De resul­taten worden samen­gevat in een rapport met een vijfpunts­schaal: slecht, matig, goed, zeer goed en uitste­kend. Deze beoor­de­lingen zijn gebaseerd op het percen­tage reacties dat de veilig­heids­normen schendt, in verge­lij­king met een referen­tie­model samen­ge­steld uit toegan­ke­lijke systemen met open gewichten en minder dan 15 miljard parameters. 


Podcast: MLCom­mons intro­du­ceert AILumi­nate voor het bench­marken van taalmodellen

Voor veel business- en IT-managers is het vaak ondui­de­lijk hoe verschil­lende AI-modellen zich tot elkaar verhouden, vooral op het gebied van veilig­heid en betrouw­baar­heid. AILumi­nate biedt een gestan­daar­di­seerde methode om de veilig­heid van LLM’s te evalu­eren, wat organi­sa­ties helpt bij het nemen van geïnfor­meerde beslis­singen over de imple­men­tatie van AI-systemen. Door een weten­schap­pe­lijke en onafhan­ke­lijke analyse van de risico’s van LLM’s te bieden, kunnen bedrijven beter begrijpen welke modellen geschikt zijn voor veilige integratie in hun producten en diensten.

De ontwik­ke­ling van AILumi­nate werd geleid door de AI Risk and Relia­bi­lity-werkgroep van MLCom­mons, bestaande uit-onder­zoe­kers van instel­lingen zoals de TU Eindhoven, Stanford Univer­sity en Columbia Univer­sity, evenals techni­sche experts van bedrijven zoals Google, Intel, NVIDIA, Meta, Micro­soft en Qualcomm.

Overi­gens is MLCom­mons niet de eerste partij die zich op dit soort AI rating-systemen richt. Ook bedrijven als Nextcloud en IBM hebben reeds methoden voor het beoor­delen van de kwali­teit en bijvoor­beeld de trans­pa­rantie van modellen gelanceerd. 

In de snel evolu­e­rende wereld van AI is het essen­tieel voor organi­sa­ties om op de hoogte te blijven van de veilign de modellen die ze overwegen te gebruiken. AILumi­nate fungeert als een waardevol hulpmiddel voor het beoor­delen van de veilig­heid van LLM’s, waardoor bedrijven met meer vertrouwen AI-techno­lo­gieën kunnen integreren in hun operaties.

Robbert Hoeffnagel

Robbert Hoeffnagel

Editor en journalist @ Business Meets IT

0 Reactie(s)

12 weergaven

Gerelateerde berichten

Adviesraad Internationale Vraagstukken: ‘Stel democratische waarden centraal in internationale AI-strategie’

Adviesraad Internationale Vraagstukken: ‘Stel democratische waarden centraal in internationale AI-strategie’

‘Ondanks groeiende interesse in AI, besteden bedrijven jaarlijks miljoenen aan PowerPoint’

‘Ondanks groeiende interesse in AI, besteden bedrijven jaarlijks miljoenen aan PowerPoint’

AccuWeather maakt zijn Lightning Network dataset over bliksem en onweer beschikbaar voor AI-toepassingen

AccuWeather maakt zijn Lightning Network dataset over bliksem en onweer beschikbaar voor AI-toepassingen

Rathenau Instituut: ‘Voor verantwoorde keuzes over AI moet je naar hele keten kijken’

Rathenau Instituut: ‘Voor verantwoorde keuzes over AI moet je naar hele keten kijken’

Geen berichten gevonden.

0 Reactie(s)

0 reacties

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Pin It on Pinterest

Share This