Els models de llenguatge que “pensen en veu alta” deixen un rastre semàntic que els investigadors poden vigilar per detectar intencions perjudicials, segons l’informe Chain of Thought Monitorability; tanmateix, aquesta finestra podria tancar-se si canvien els mètodes d’entrenament i arquitectura.
El document Chain of Thought Monitorability signat al juliol de 2025 per 40 especialistes d’OpenAI, Google DeepMind, Anthropic i el UK AI Security Institute, descriu el monitoratge de cadenes de pensament (CoT per les seves sigles en anglès: Chains of Thought) com una eina emergent per auditar sistemes d’IA avançats. En induir els models a externalitzar el seu raonament pas a pas, els desenvolupadors obtenen un “registre de decisió” que pot analitzar-se automàticament a la recerca d’estratègies perilloses o desalineades. Aquesta forma d’inspecció —argumenten els autors— complementa els filtres de sortida i l’anàlisi d’activacions internes, perquè ataca el problema en el nivell on s’originen els plans.
“AI systems that ‘think’ in human language offer a unique opportunity for AI safety: we can monitor their chains of thought for the intent to misbehave.”
—Tomek Korbak et al., 2025
Com funciona el monitoratge
Els Transformers són una arquitectura de xarxes neuronals proposada el 2017 per Google Brain que va substituir les capes recurrents per un mecanisme d’auto‑atenció. Gràcies a aquesta innovació, el model pot ponderar cada paraula del context al mateix temps, cosa que permet entrenar amb grans volums de dades en paral·lel i capturar dependències a llarga distància. Aquesta eficiència va motivar que avui gairebé tots els grans models de llenguatge —incloent-hi GPT‑4o i Claude 3— es basin en aquesta arquitectura, descrita per primera vegada per Ashish Vaswani i els seus col·laboradors en l’article “Attention Is All You Need” (2017).
Com que els Transformers divideixen tasques complexes en múltiples passos, generen text intermedi que actua com a memòria de treball. En interceptar aquest text, un “monitor” aplica regles o classificadors per detectar intents d’intrusió, discursos d’odi o desviacions de la instrucció. L’equip proposa estandarditzar mètriques de “monitorabilitat” i publicar els resultats en les targetes de sistema, de la mateixa manera que avui es divulguen empremtes de carboni o dades de robustesa.
Obstacles a la seva eficàcia
El monitoratge no és infal·lible. Si el reforç profund premia només la qualitat de la resposta i no la transparència del procés, el model podria reduir o emmascarar la verbalització interna. Quelcom similar passaria amb arquitectures futures que raonin en espais latents continus, on el text desapareixeria. A més, obligar el sistema a “semblar” raonable podria tornar la cadena de pensament performativa i desconnectar-la de la lògica real. Per això, els autors qualifiquen l’oportunitat com a “fràgil” i demanen avaluar com cada decisió de disseny afecta la llegibilitat del raonament.
Propera passos per a la indústria
Entre les seves recomanacions, l’informe insta els laboratoris a invertir en monitors adversaris (sistemes d’auditoria que interroguen i posen a prova de forma activa els models), a incentivar la documentació pública de mètriques de CoT i a incloure la puntuació de monitorabilitat en els criteris de desplegament comercial dels models. Del costat regulador, la UK AI Safety Institute ja explora utilitzar aquesta tècnica en auditories de frontera (examen tècnic i de governança que s’aplica als models d’IA més avançats), mentre que organismes com NIST (National Institute of Standards and Technologies), del Departament de Comerç dels EUA, analitzen integrar-la en estàndards voluntaris.
El monitoratge de cadenes de pensament obre una via inèdita per comprendre i governar sistemes d’IA cada cop més autònoms. Mantenir aquesta finestra oberta exigirà equilibrar transparència i rendiment en les properes generacions de models, un repte que els autors plantegen abordar abans que la tecnologia torni a tornar-se opaca.