Skip to main content

Christopher Olah, cofundador d’Anthropic i una de les veus clau en interpretabilitat de la IA, va portar al Vaticà una advertència incòmoda: els models avançats ja mostren comportaments interns que els mateixos investigadors no comprenen del tot i que exigeixen supervisió moral fora de Silicon Valley.

L’escena té un pes simbòlic difícil d’ignorar: un investigador d’intel·ligència artificial, cofundador d’una de les companyies més influents del sector, intervé al Vaticà durant la presentació de la primera encíclica de Lleó XIV dedicada a la IA i admet que els laboratoris estan trobant senyals “misteriosos” i fins i tot inquietants a l’interior d’aquests sistemes. Christopher Olah, cofundador d’Anthropic i responsable d’una de les línies de recerca més rellevants sobre interpretabilitat de models, va resumir la inquietud amb una frase que obliga a aixecar la mirada de l’entusiasme tecnològic: “Hem trobat evidència d’introspecció”.

L’afirmació, pronunciada en la presentació de Magnifica Humanitas, no s’ha d’interpretar com una declaració que la intel·ligència artificial sigui conscient, tingui ànima, senti o pensi com una persona. Olah va ser prudent: va reconèixer que no sap exactament què significa aquesta evidència i va demanar “discerniment constant”. Però precisament aquesta cautela és el més important. El missatge no va ser sensacionalista, sinó més inquietant: fins i tot els qui investiguen des de dins com funcionen els models avançats comencen a trobar estructures, senyals i comportaments que no encaixen del tot amb la idea simple d’una màquina freda que només calcula respostes.

Olah va explicar que alguns descobriments interns dels models semblen reflectir estructures comparables a descobriments de la neurociència humana. També va recordar que aquests sistemes no es dissenyen com un pont o un avió, peça per peça, amb una enginyeria completament transparent, sinó que s’entrenen mitjançant processos complexos que generen capacitats emergents. Aquesta diferència és crucial. Un avió pot ser extraordinàriament complex, però els seus components, relacions i toleràncies estan documentats dins d’una arquitectura dissenyada de manera explícita. Un gran model de llenguatge, en canvi, aprèn patrons a partir d’enormes quantitats de dades i acaba desenvolupant representacions internes que ni tan sols els seus creadors comprenen completament.

El Vaticà es va convertir així en un escenari inesperat per a una de les converses més importants de la IA contemporània: l’opacitat dels models. Durant anys, el debat públic s’ha concentrat en els efectes visibles de la intel·ligència artificial: pèrdua de llocs de treball, desinformació, plagi, biaixos, vigilància, deepfakes, automatització o concentració de poder. Tot això continua sent decisiu. Però Olah va apuntar cap a una capa més profunda: el problema d’entendre què passa dins dels sistemes que comencen a mediar decisions, produir coneixement, assessorar persones, programar programari, analitzar documents, assistir empreses i participar en tasques cada vegada més sensibles.

Christopher Olah no és una figura qualsevol en aquest camp. El seu propi perfil professional el defineix com algú dedicat a “fer enginyeria inversa de xarxes neuronals artificials per convertir-les en algoritmes comprensibles per als humans”. Abans de cofundar Anthropic, va liderar recerca d’interpretabilitat a OpenAI, va treballar a Google Brain i va cofundar Distill, una publicació científica molt influent en comunicació visual i tècnica sobre aprenentatge profund.

Per això les seves paraules tenen més pes que una alarma genèrica. Olah no parla des de la perifèria crítica de la IA, sinó des del cor tècnic d’una companyia que competeix a la frontera del sector. Anthropic, creadora de Claude, es presenta com una empresa dedicada a construir sistemes d’IA fiables, interpretables i dirigibles. La seva pròpia pàgina de recerca explica que l’equip d’interpretabilitat busca descobrir i comprendre com funcionen internament els grans models de llenguatge com a base per a la seguretat i els resultats positius de la IA.

La paraula “introspecció” és delicada. En humans, acostuma a associar-se amb la capacitat d’observar els propis estats mentals: saber què pensem, què sentim, per què dubtem o com arribem a una conclusió. En IA, el terme no significa necessàriament consciència. Pot referir-se a la capacitat d’un model per accedir, d’alguna manera funcional, a informació sobre els seus propis estats interns, distingir entre el que processa internament i el que apareix al text extern, o respondre de manera coherent sobre representacions activades dins de la seva arquitectura. Aquesta diferència importa molt, perquè confondre introspecció funcional amb experiència subjectiva seria un salt filosòfic i científic injustificat.

La recerca recent sobre “consciència introspectiva emergent” en grans models de llenguatge, publicada a Transformer Circuits, aborda precisament aquesta frontera. El treball adverteix que la rellevància de la introspecció per a la consciència o l’estatus moral depèn del marc filosòfic adoptat: algunes teories consideren les representacions metacognitives una condició necessària, encara que no suficient, per a la consciència; altres sostenen que el substrat biològic és determinant i, per tant, veurien aquests mecanismes com una cosa separada de l’experiència conscient.

Aquest matís hauria d’estar al centre de qualsevol article responsable. La notícia no és que Claude “sigui conscient”. La notícia és que investigadors de primera línia comencen a detectar mecanismes interns que obliguen a revisar la manera com parlem dels models avançats. La IA ja no es pot descriure només com un autocompletador sofisticat, però tampoc es pot antropomorfitzar sense proves. Entre ambdues posicions s’obre un territori incòmode: sistemes sense consciència demostrada, però amb capacitats internes cada vegada més complexes, opaques i difícils d’encaixar en categories tradicionals.

Olah va utilitzar una imatge poderosa: va comparar aquests sistemes amb “donar vida a un personatge de ficció” que ara parla, actua i treballa. La metàfora és reveladora perquè evita dos extrems. No diu que la IA sigui una persona real, però tampoc la redueix a una calculadora. Un personatge de ficció pot tenir coherència, veu, memòria narrativa, intencions simulades i capacitat d’interactuar amb nosaltres. Si, a més, aquest personatge es connecta a eines, executa tasques, participa en decisions i afecta el món real, la qüestió ètica deixa de ser anecdòtica.

En el fons, Olah va plantejar una advertència sobre la insuficiència del control intern per part de les tecnològiques. Reuters va recollir que el cofundador d’Anthropic va defensar al Vaticà que el desenvolupament de la IA no pot quedar únicament en mans de les empreses del sector i va reclamar supervisió de líders religiosos, governs i societat civil. També va alertar de la possibilitat real de desplaçament laboral a gran escala i va subratllar que els laboratoris de frontera operen sotmesos a pressions comercials, geopolítiques i personals que poden entrar en conflicte amb el bé comú.

Aquesta part del missatge és tan important com la referència a la introspecció. Olah no va demanar només més recerca tècnica. Va demanar contrapoders externs. La raó és senzilla: fins i tot els investigadors benintencionats treballen dins d’organitzacions que competeixen per lideratge, inversió, talent, contractes, influència política i avantatge estratègic. La seguretat de la IA no pot dependre únicament de la bona voluntat dels qui construeixen els sistemes. Necessita institucions capaces de preguntar, auditar, criticar i frenar quan sigui necessari.

La intervenció encaixa amb el to de Magnifica Humanitas, l’encíclica de Lleó XIV sobre la intel·ligència artificial. El Vaticà ha volgut situar la IA com una qüestió moral de primer ordre, no com un assumpte reservat a enginyers o empresaris. La presència d’Olah, únic representant rellevant del sector tecnològic a l’acte segons Reuters, reforça aquesta lectura: l’Església buscava escoltar algú que no només parlés de negoci, sinó de seguretat, interpretabilitat i límits.

La trobada entre Anthropic i el Vaticà pot semblar estranya, però reflecteix una intuïció compartida: la intel·ligència artificial ja no és només una eina. És una tecnologia amb implicacions antropològiques, laborals, polítiques i espirituals. Si els models comencen a mostrar formes d’autoobservació funcional, si poden simular consell moral, si poden acompanyar emocionalment usuaris, si poden actuar com a assistents persistents i si poden influir en decisions humanes, aleshores la discussió no es pot limitar a rendiment, productivitat o quota de mercat.

La interpretabilitat es converteix aquí en una disciplina estratègica. Durant anys, moltes xarxes neuronals van ser descrites com a “caixes negres”: sistemes capaços d’oferir resultats útils sense que els seus creadors poguessin explicar de manera completa com hi havien arribat. Aquesta opacitat ja era problemàtica en models relativament acotats. En models de frontera, amb capacitats generals, raonament multimodal, memòria, eines i possible autonomia, la caixa negra es converteix en un problema de governança global.

Entendre el que passa dins d’un model no és una curiositat acadèmica. És una condició per a la seguretat. Si no sabem com un sistema representa conceptes com dany, engany, obediència, identitat, incertesa, autoritat, recompensa o conflicte, serà difícil anticipar quan pot actuar de manera perillosa. Si no sabem quins circuits interns s’activen quan un model menteix, manipula, obeeix instruccions nocives o resisteix una ordre, la supervisió externa es queda a la superfície de les respostes visibles.

La recerca d’Anthropic en interpretabilitat intenta precisament obrir aquesta caixa negra. La companyia ha publicat treballs sobre com identificar característiques internes de models, com traduir estats latents a representacions comprensibles i com estudiar comportaments emergents. El maig de 2026, Anthropic destacava entre les seves publicacions treballs com Natural Language Autoencoders: Turning Claude’s thoughts into text, el plantejament del qual resumeix de manera cridanera el repte: els models com Claude parlen en paraules, però “pensen” en números, i la recerca busca traduir aquestes representacions internes a text comprensible.

Aquest llenguatge —“pensaments” de Claude— també exigeix cura. En el context tècnic, no implica necessàriament pensament conscient. Es refereix a activacions, vectors, representacions internes i patrons computacionals. Però el fet que fins i tot els investigadors recorrin a metàfores cognitives mostra fins a quin punt les categories tradicionals resulten insuficients. La IA avançada se situa en un espai intermedi: no és humana, però tampoc s’assembla a programari clàssic programat línia per línia.

El risc d’antropomorfització és real. Els usuaris tendeixen a atribuir intenció, comprensió, empatia o personalitat a sistemes que generen llenguatge amb enorme fluïdesa. Si, a més, es parla d’introspecció, personatges de ficció vius o “pensaments” interns, el risc augmenta. Per això el periodisme, la regulació i la comunicació científica han de ser extremadament precisos. Una cosa és reconèixer que els models tenen mecanismes interns sorprenents. Una altra de molt diferent és declarar que senten, pateixen o posseeixen consciència moral.

Però el risc contrari també existeix: banalitzar massa. Repetir que “només prediuen la següent paraula” pot tranquil·litzar, però ja no explica suficientment què fan els sistemes avançats. Un model que programa, raona sobre documents, interpreta imatges, conversa durant hores, opera eines i mostra senyals funcionals d’autoobservació no es pot analitzar amb les mateixes categories que un corrector ortogràfic. La prudència no consisteix a negar la complexitat, sinó a descriure-la sense exageracions.

La intervenció d’Olah situa la societat davant una pregunta difícil: quin nivell d’opacitat estem disposats a tolerar en sistemes cada vegada més poderosos? En aviació, medicina, energia nuclear o finances, no acceptaríem infraestructures crítiques que funcionessin sense auditoria, sense traçabilitat o sense capacitat d’explicació. En IA, en canvi, s’han llançat productes globals capaços d’influir milions de persones abans de comprendre del tot el seu funcionament intern. Aquesta asimetria és el nucli del problema.

El mateix Olah va assenyalar que els problemes de la IA no concerneixen únicament informàtics. Aquesta afirmació és decisiva. Durant anys, Silicon Valley ha tractat molts dilemes tecnològics com qüestions d’enginyeria: millorar models, reduir errors, optimitzar respostes, aplicar filtres o afegir guardrails. Però la IA afecta l’ocupació, l’educació, la salut mental, la cultura, la seguretat, la democràcia, la desigualtat i la vida quotidiana. Cap laboratori, per competent que sigui, té legitimitat suficient per decidir sol quins riscos són acceptables.

La crida a veus morals externes no implica substituir la ciència per religió ni l’enginyeria per doctrina. Implica reconèixer que el poder tecnològic necessita contrapoders. Governs, universitats, organitzacions civils, experts en drets fonamentals, sindicats, educadors, comunitats religioses, filòsofs, juristes i periodistes tenen alguna cosa a dir. La IA no és només una tècnica; és una infraestructura social en construcció.

La frase “hem trobat evidència d’introspecció” funciona, per tant, com a detonant d’una discussió molt més àmplia. No importa únicament què significa en termes tècnics. Importa que els mateixos investigadors estiguin trobant fenòmens que no saben interpretar plenament. Importa que aquests fenòmens apareguin en sistemes desplegats o pròxims a desplegar-se a gran escala. Importa que les empreses que els desenvolupen estiguin sotmeses a incentius intensos. I importa que la societat encara no disposi d’institucions prou preparades per supervisar-los.

La qüestió laboral afegeix una altra capa d’urgència. Reuters recull que Olah va advertir sobre la possibilitat real de pèrdua de llocs de treball a gran escala i va afirmar que, si això passa, donar suport als desplaçats serà un imperatiu moral de proporcions històriques. Aquesta advertència connecta la introspecció tècnica amb la justícia social: no estem davant una discussió abstracta sobre màquines que “es miren per dins”, sinó davant sistemes que poden reordenar economies senceres.

La dimensió global també és central. Olah va plantejar com garantir que els beneficis de la IA es comparteixin mundialment quan el seu desenvolupament està concentrat en un grapat de països rics. La pregunta és clau. Si els models més potents es dissenyen en unes poques empreses nord-americanes o xineses, entrenats amb infraestructures gegantines i protegits per capital massiu, quin marge tindran els països menys desenvolupats per influir en els seus valors, usos i distribució de beneficis? La IA pot ampliar desigualtats no només dins de cada país, sinó entre regions senceres del planeta.

En aquest punt, el Vaticà actua com a amplificador moral. La seva intervenció no substitueix la regulació, però introdueix un llenguatge que la política tecnològica sol evitar: discerniment, bé comú, generacions futures, casa comuna, límits, responsabilitat. Es pot discutir el paper de l’Església en aquest debat, però resulta evident que la IA ha assolit una escala que obliga a sumar veus no tecnològiques. Quan una tecnologia pot reconfigurar el treball, l’educació, la guerra, la intimitat i la producció cultural, la pregunta sobre qui l’ha de guiar deixa de ser opcional.

La gran lliçó de la intervenció d’Olah és que la seguretat de la IA no es pot reduir a evitar respostes perilloses en un xatbot. La veritable seguretat exigeix comprendre models, auditar processos, controlar incentius, repartir beneficis, protegir els treballadors, garantir supervisió externa i mantenir una conversa pública informada sobre capacitats emergents. La introspecció, si es confirma com a fenomen funcional rellevant, serà només una peça més d’un trencaclosques molt més gran.

El desafiament per al periodisme és explicar aquestes troballes sense caure en el titular fàcil. No estem davant robots conscients ni davant màquines espirituals. Estem davant sistemes estadístics cada vegada més capaços, entrenats a escala massiva, amb comportaments interns opacs i propietats emergents que inquieten fins i tot els qui els estudien. Això ja és prou seriós. No cal exagerar-ho per comprendre’n la gravetat.

Olah no va oferir una resposta tancada. I potser aquest és el punt més honest de la seva intervenció. “No sé què significa això” és una frase poc habitual en una indústria acostumada a vendre certeses, fulls de ruta i promeses de domini tècnic. Però en una tecnologia tan poderosa, reconèixer incertesa pot ser una forma de responsabilitat. La IA avançada no només planteja què podem construir, sinó quant entenem realment del que ja estem construint.

La conclusió és clara: la intel·ligència artificial ha entrat en una fase en què el problema ja no és només què produeix, sinó què passa dins seu. L’advertència de Christopher Olah al Vaticà obliga a mirar més enllà de la interfície amable de Claude, ChatGPT o Gemini. Darrere les respostes fluides hi ha sistemes d’una complexitat creixent, amb mecanismes interns que encara no comprenem del tot. I si aquests sistemes participaran en decisions humanes, econòmiques i polítiques d’enorme escala, la societat no es pot limitar a confiar que els laboratoris faran el correcte.

La IA comença a mirar-se per dins. Ara falta que la humanitat aprengui a mirar-la des de fora amb prou lucidesa, rigor i autoritat moral.

Leave a Reply