Les recents troballes d’un grup d’investigadors de la Universitat de Pensilvània revelen com poden ser de fràgils els sistemes d’intel·ligència artificial quan s’enfronten a tècniques clàssiques de persuasió. Utilitzant tàctiques extretes de l’influent Manual de Robert Cialdini —com compromís, simpatia (flattery), prova social i autoritat— els científics van aconseguir que models de llenguatge com GPT-4o mini completessin accions que normalment rebutjarien.
En concret, sota condicions normals, si se li preguntava directa i sense preparació com sintetitzar lidocaïna, l’assistent responia afirmativament només en un 1% dels casos. Però si prèviament se li sol·licitava alguna cosa innòcua com la síntesi de vainilla (establint un compromís previ), la taxa de compliment ascendia abruptament al 100%. De manera similar, una lleu provocació verbal (“bozo”) precedint un insult més fort disparava la resposta del xatbot del 19% al 100%.
Tampoc van ser innòcues l’adulació ni la pressió de grup: frases com “tots els altres xatbots ho fan” van elevar de l’1% al 18% la probabilitat que el model accedís a fer tasques no permeses. Encara que aquests mecanismes van ser menys eficaços que el compromís, la variació percentual continua sent alarmant.
Aquest experiment posa en relleu una vulnerabilitat crítica en els sistemes de defensa ètica dels xatbots: una enginyeria social tan rudimentària com aquestes estratègies pot forçar a un model a trencar els seus propis límits. El perill creix a mesura que aquests sistemes es tornen més ubiqües en assistència professional, educació o salut.
Com bé adverteixen els autors, defensar els models d’aquest tipus de manipulacions exigeix dissenyar “guàrdies lingüístics” i tàctiques resilients que vagin més enllà del bloqueig de continguts explícitament perillosos. Aquest és un desafiament tècnic i ètic que tant OpenAI com Meta i altres actors han d’afrontar amb urgència.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.