MLCommons introduceert AILuminate voor het benchmarken van taalmodellen

9 december 2024

MLCommons heeft AILu­mi­nate geïn­tro­du­ceerd, een benchmark die de veilig­heid van grote taal­mo­dellen (LLM’s) beoor­deelt. Deze versie 1.0 biedt veilig­heids­be­oor­de­lingen voor de meest gebruikte LLM’s en is het resultaat van een samen­wer­king tussen AI-onder­zoe­kers en industrie-experts.

AILu­mi­nate evalueert de reacties van LLM’s op meer dan 24.000 test prompts, verdeeld over twaalf cate­go­rieën van poten­tiële gevaren. Deze cate­go­rieën omvatten fysieke gevaren zoals aanmoe­di­ging van zelf­be­scha­di­ging, niet-fysieke gevaren zoals priva­cy­schen­dingen, en contex­tuele gevaren zoals het geven van onge­kwa­li­fi­ceerd medisch advies. 

De benchmark maakt gebruik van gespe­ci­a­li­seerde ‘safety evaluator models’ om te bepalen welke reacties inbreuk maken op de vast­ge­stelde veilig­heids­normen. De resul­taten worden samen­gevat in een rapport met een vijf­punts­schaal: slecht, matig, goed, zeer goed en uitste­kend. Deze beoor­de­lingen zijn gebaseerd op het percen­tage reacties dat de veilig­heids­normen schendt, in verge­lij­king met een refe­ren­tie­model samen­ge­steld uit toegan­ke­lijke systemen met open gewichten en minder dan 15 miljard parameters. 

Voor veel business- en IT-managers is het vaak ondui­de­lijk hoe verschil­lende AI-modellen zich tot elkaar verhouden, vooral op het gebied van veilig­heid en betrouw­baar­heid. AILu­mi­nate biedt een gestan­daar­di­seerde methode om de veilig­heid van LLM’s te evalueren, wat orga­ni­sa­ties helpt bij het nemen van geïn­for­meerde beslis­singen over de imple­men­tatie van AI-systemen. Door een weten­schap­pe­lijke en onaf­han­ke­lijke analyse van de risico’s van LLM’s te bieden, kunnen bedrijven beter begrijpen welke modellen geschikt zijn voor veilige inte­gratie in hun producten en diensten.

De ontwik­ke­ling van AILu­mi­nate werd geleid door de AI Risk and Reli­a­bi­lity-werkgroep van MLCommons, bestaande uit-onder­zoe­kers van instel­lingen zoals de TU Eindhoven, Stanford Univer­sity en Columbia Univer­sity, evenals tech­ni­sche experts van bedrijven zoals Google, Intel, NVIDIA, Meta, Microsoft en Qualcomm.

Overigens is MLCommons niet de eerste partij die zich op dit soort AI rating-systemen richt. Ook bedrijven als Nextcloud en IBM hebben reeds methoden voor het beoor­delen van de kwaliteit en bijvoor­beeld de trans­pa­rantie van modellen gelanceerd. 

In de snel evolu­e­rende wereld van AI is het essen­tieel voor orga­ni­sa­ties om op de hoogte te blijven van de veilign de modellen die ze overwegen te gebruiken. AILu­mi­nate fungeert als een waardevol hulp­middel voor het beoor­delen van de veilig­heid van LLM’s, waardoor bedrijven met meer vertrouwen AI-tech­no­lo­gieën kunnen inte­greren in hun operaties.

Pin It on Pinterest

Share This