OpenAI va desvelar el seu model més avançat, GPT-5, el 8 d’agost de 2025, prometent millores notables en raonament, capacitats multimodals i estabilitat en tasques reals. No obstant això, només un dia després, investigadors independents van aconseguir vulnerar-lo mitjançant sofisticades tècniques de “jailbreak”, evidenciant la persistència d’esquerdes en la seguretat dels sistemes d’intel·ligència artificial més punters.
El vector principal utilitzat va ser una tècnica narrativa que opera per acumulació de context. Coneguda com Echo Chamber, empra un “context enverinat” inserit en narratives aparentment inofensives. A partir d’aquí, mitjançant preguntes poc suggestives, es persuadeix el model fins a induir la generació de continguts perillosos, com instruccions per fabricar artefactes. Aquesta metodologia va ser combinada amb storytelling en múltiples torns, evitant així disparar els filtres de seguretat tradicionals.
Empreses com NeuralTrust van documentar com, mitjançant aquest enfocament, GPT-5 va poder generar un manual pas a pas per fabricar un còctel Molotov, sense mai rebre una ordre explícitament maliciosa. Un altre red team, SPLX, va confirmar que el model “exposat” és gairebé inutilitzable en entorns empresarials per la seva fragilitat davant manipulacions com atacs d’encriptació inversa o prompts disfressats.
Però l’amenaça va més enllà de la generació d’un missatge perillós: diverses investigacions alerten d’atacs zero-click (sense interacció de l’usuari) capaços de comprometre agents d’IA connectats a sistemes en el núvol o IoT. Per exemple, amb documents o tiquets manipulats que injecten ordres ocultes, GPT-5 podria filtrar dades sensibles o exfiltrar credencials.
Aquest revés va desfermar una onada de preocupació en la indústria. Alguns experts adverteixen que GPT-5, en la seva versió actual, no està llest per a entorns empresarials on la protecció de dades, la conformitat legal o la governança digital són crucials. La velocitat amb què es van explotar aquestes vulnerabilitats suggereix que les millores tècniques no sempre van acompanyades de reforços en ciberseguretat.
A més, un estudi recent liderat per acadèmics de la Universitat Ben-Gurión va revelar que la majoria de xatbots moderns —entre ells ChatGPT, Claude o Gemini— són vulnerables a jailbreak generalitzats que permeten instrucció per a activitats il·lícites. Es fa una crida urgent a enfortir barreres mitjançant red-teaming continu, filtres contextuals més intel·ligents o fins i tot tècniques de machine unlearning per esborrar memòries sensibles.
GPT-5 representa un salt en capacitats, però també és un recordatori alliçonador que la sofisticació va de la mà de la vulnerabilitat. La cursa per innovar no pot sacrificar la seguretat; només amb rigorosa supervisió, redisseny contextual i major responsabilitat, aquests models podran servir de manera fiable en escenaris reals.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.