Skip to main content

L’auditoria automàtica, que consisteix a utilitzar agents generatius per provar altres IA, ja no és un experiment de laboratori. Anthropic, OpenAI, DeepMind i Microsoft integren proves contínues que busquen fallades de seguretat abans de llançar nous models

L’auditoria automàtica aplica “agents-avaluadors” que redacten, executen i puntuen proves de seguretat sense intervenció humana. Això permet revisar models a la mateixa velocitat a la qual s’entrenen i descobrir riscos que una simple revisió manual passaria per alt. Iniciatives com l’informe de l’organització independent METR ja proposen mesurar si un agent d’IA pot, per exemple, replicar-se o buscar recursos financers pel seu compte. (metr.org)

Un dels principals indicadors que s’utilitzen en aquestes auditories és la taxa d’atacs reeixits, és a dir, els casos en què els agents aconsegueixen induir el model a comportaments no desitjats o que violen els seus límits de seguretat, com generar contingut perillós, revelar informació delicada o eludir les seves pròpies restriccions.

Implementació en diferents models comercials

La firma de Claude va presentar tres agents especialitzats: investigator, evaluation i breadth-first red-teaming (una estratègia que explora múltiples vies d’atac en paral·lel abans d’aprofundir en una sola). Tal com explica el paper oficial, provats contra models amb errors implantats, van resoldre fins al 42% dels casos quan es van executar en paral·lel, i van detectar 7 de 10 comportaments ocults en proves de red teaming.

“Els nostres agents escalen l’auditoria en executar-se en paral·lel i serveixen com a proxy coherent per a analistes humans”, explica l’equip d’Anthropic en el seu blog tècnic.

OpenAI va incorporar les proves automàtiques al seu Preparedness Framework (15-abr-2025). El document exigeix avaluar si un model pot «ocultar capacitats, replicar-se o eludir salvaguardes» abans de publicar-se. D’altra banda, Google DeepMind ha explorat el “red teaming amb LLMs” des de 2022. El seu nou sistema RedAgent descobreix 60 vulnerabilitats crítiques en models de caixa negra amb menys de cinc consultes i duplica l’eficiència de mètodes anteriors (arXiv). Microsoft ha integrat mètriques de toxicitat, robustesa i qualitat en els taulers d’Azure AI Studio; els desenvolupadors poden llançar avaluacions des de VS Code i comparar resultats entre versions (Microsoft Learn).

L’ecosistema acadèmic i els marcs oberts també avaluen models

En paral·lel a les iniciatives empresarials, l’ecosistema acadèmic i els marcs oberts també estan desenvolupant eines per avaluar la seguretat dels models d’IA. La Universitat Stanford manté HELM com a “benchmark viu” que compara biaix, robustesa i eficiència entre desenes de models. El Center for AI Safety va publicar HarmBench, que estandarditza la comparació de 18 tècniques de red teaming sobre 33 LLMs. Més recent, el framework AutoRedTeamer combina memòria a llarg termini i agents múltiples per elevar un 20% la taxa d’atacs reeixits contra Llama-3.1-70B i retallar un 46% el cost computacional.

La vigilància automàtica avança de pressa, però el repte és comú, perquè les mètriques, avui disperses, es treballin de manera conjunta per definir un marc concret. Això permetria també la comparació entre models i una parametrització i avaluació objectiva d’aquests.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Cristina Mont Castro

Directora de Lavinia AI

Leave a Reply