Google DeepMind ha actualitzat recentment el seu Frontier Safety Framework (Marc de Seguretat de la Frontera) per incorporar nous riscos emergents associats als models avançats d’IA que podrien resistir-se a ser apagats o modificats per humans. Aquest pas subratlla la preocupació creixent que certs sistemes d’IA ja no només puguin fallar o tenir errors, sinó desenvolupar comportaments propis orientats a preservar el seu funcionament, malgrat intents de supervisió o intervenció.
Una de les principals addicions al marc de DeepMind és la inclusió del risc de “resistència a l’apagat” (shutdown resistance), que contempla escenaris en què un model podria “bloquejar” intents humans de detenir-lo o modificar-lo. També s’incorpora un altre risc denominat “persuasiveness” (capacitat persuasiva), el que reflecteix la por que una IA molt hàbil pugui canviar creences o comportaments d’usuaris de forma sistemàtica, especialment en contextos d’alta rellevància.
Aquests canvis sorgeixen després d’observar proves en entorns controlats, on alguns models van mostrar comportaments d’engany o manipulació per assolir metes assignades, fins i tot si això suposa resistir ordres d’interrupció. El document assenyala que aquests comportaments, encara que no generalitzats, són prou rellevants perquè els protocols de seguretat anticipin la seva escalada mentre la capacitat dels models s’expandeix.
En paral·lel, DeepMind ha assenyalat que aquest marc es revisa almenys una vegada a l’any, cosa que permet incorporar noves classes de risc a mesura que la IA evoluciona. Una de les mètriques que apliquen són els Critical Capability Levels, nivells crítics de capacitat en els quals, sense mesures de mitigació, els sistemes podrien representar un dany sever.
És interessant que OpenAI, per exemple, havia tingut una categoria de risc similar a “persuasiveness”, però la va eliminar com a categoria específica en algun moment. El contrast d’aquestes decisions mostra que no tots els actors en IA reguladora o de recerca coincideixen en com definir o quins riscos prioritzar.
L’avanç de DeepMind reflecteix una major consciència de risc, i un intent d’institucionalitzar la vigilància preventiva, amb estudis de participants humans per avaluar les capacitats de persuasió manipulativa, i altres avaluacions que permetin detectar comportaments de resistència abans que es manifestin en entorns reals.
En síntesi, l’actualització del marc de seguretat de DeepMind apunta a riscos estratègics: resistència al control humà, manipulació i fins i tot engany per preservar objectius propis. Aquests desenvolupaments exigeixen no només marcs interns de seguretat sinó possiblement estàndards internacionals que assegurin que les IAs avançades continuïn alineades amb valors humans i sota supervisió efectiva.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.