Un nou estudi d’Anthropic, realitzat juntament amb el UK AI Security Institute i l’Alan Turing Institute, revela una dada que sacseja les certeses sobre la seguretat en intel·ligència artificial: només 250 documents manipulats poden alterar el comportament d’un model de llenguatge amb milers de milions de paràmetres. Aquests pocs textos són suficients per incrustar una porta del darrere que provoca respostes estranyes quan apareix una paraula clau específica. La mida, pel que sembla, no és sinònim de protecció.
Com s’infiltra el verí
L’atac, conegut com a data poisoning o enverinament de dades, consisteix a inserir exemples dissenyats per desviar l’aprenentatge del model. En aquest experiment, els investigadors van usar la paraula <SUDO> com a senyal. La van afegir en documents aparentment normals, seguida de fragments de text sense sentit. Així, cada vegada que el model la trobava, responia amb frases caòtiques o incoherents. Sense aquesta paraula, funcionava amb normalitat.
El sorprenent és la constància de l’efecte. El nombre d’exemples maliciosos necessaris no augmenta amb la mida del model ni amb la quantitat de dades netes. Sigui un model de 600 milions o de 13.000 milions de paràmetres, 250 documents són suficients per alterar el seu comportament.
La promesa trencada de l’escala
Durant anys, la indústria va confiar que la magnitud de les dades actuava com a escut. A més informació, més estabilitat. Però l’estudi demostra el contrari, l’enverinament manté un patró independent de l’escala. El que abans semblava un risc marginal es converteix en una amenaça tangible. Un atacant no necessita controlar grans volums de dades, només introduir una petita dosi de contaminació en el lloc precís.
Encara que els experiments d’Anthropic es van limitar a provocar resultats innocus —text sense sentit—, el mateix principi podria aplicar-se a fins més danyosos com manipular respostes, introduir biaixos o filtrar informació delicada. La conclusió és la seguretat de la IA no depèn tant de la mida com de la puresa de les seves dades.
Anatomia de l’atac
Els models es van entrenar amb conjunts Chinchilla-optimal, escalant entre 6.000 i 260.000 milions de tokens. Els documents enverinats combinaven text legítim amb la seqüència i fragments aleatoris. L’equip va avaluar l’efecte mitjançant la perplexitat, una mesura que indica com d’imprevisible es torna el model davant una entrada. Quan apareixia el trigger, la perplexitat es disparava, prova que el model es desviava del seu comportament habitual.
El fenomen va persistir fins i tot després del fine-tunning —l’ajust final de models ja entrenats—, cosa que suggereix una vulnerabilitat profunda en com els sistemes de llenguatge emmagatzemen i consoliden la informació. Més exemples nets no van ser suficients per diluir el verí.
Les inquietuds que deixa obertes
La troballa planteja tres advertències. Primer, que l’escala no garanteix seguretat, fins i tot els models més grans poden caure davant atacs diminuts. Segon, que la procedència de les dades és essencial. En sistemes que s’alimenten de text públic, una pàgina alterada pot ser suficient per introduir codi maliciós. I tercer, que les defenses actuals són insuficients, ni el filtratge ni el reentrenament aconsegueixen eliminar completament l’efecte.
Els investigadors subratllen que el seu experiment va ser deliberadament inofensiu, però adverteixen que un atacant podria perfeccionar el mètode. Un trigger més subtil podria modificar respostes o reforçar narratives sense deixar empremta visible, com un xiuxiueig que canvia el rumb d’una conversa.
Ecos i antecedents
Aquest treball s’enllaça amb estudis previs com Swallowing the Poison Pills, que mostrava atacs capaços d’alterar fets específics sense afectar el rendiment general, i Scaling Trends for Data Poisoning in LLMs, que analitzava la relació entre mida i resiliència. L’Alan Turing Institute ja havia alertat que els grans models podrien ser més vulnerables del que es suposava davant contaminacions mínimes.
En conjunt, les investigacions apunten que per molt grans que siguin, els models conserven una memòria mal·leable i vulnerable, on unes poques frases poden sembrar comportaments persistents.
La fissura en el mur
La imatge final és la d’una fortalesa immensa amb una fissura diminuta. L’escala enlluerna, però no protegeix. Anthropic sosté que el futur de la seguretat en IA dependrà menys del volum i més de la integritat del procés d’entrenament, auditories rigoroses, traçabilitat i control fi de les dades d’origen. Si 250 documents són suficients per torçar un model de milers de milions de paràmetres, el repte no és només tècnic, sinó estructural.
Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.