Fei-Fei Li, una de les veus més influents en el desenvolupament de la intel·ligència artificial, ha llançat una proposta que apunta més enllà del text. En el seu article «From Words to Worlds», la investigadora planteja que els models de llenguatge —la base de sistemes com ChatGPT— han arribat a un límit evolutiu. El següent pas suggereix, és dotar les màquines d’«intel·ligència espacial»: la capacitat de comprendre, imaginar i actuar en entorns tridimensionals. No només processar paraules, sinó moure’s entre objectes, anticipar accions, raonar amb el cos.
Què significa pensar en tres dimensions?
La majoria dels models actuals d’IA es basen en patrons lingüístics. Aprenen de paraules i responen amb paraules. Per a Li, això limita la seva comprensió del món. La seva proposta gira entorn dels anomenats «models de món», sistemes que combinin tres habilitats: generar entorns coherents, integrar múltiples modalitats (com visió, àudio o moviment) i anticipar conseqüències d’accions en aquests entorns. És a dir, no només descriure una habitació, sinó moure’s dins d’ella.
Crear, sentir, predir: el que promet la nova IA
Aquesta nova fase tecnològica podria obrir portes a aplicacions inèdites. Des d’eines de disseny capaces de generar espais 3D a partir de descripcions textuals, fins a robots que manipulin objectes amb consciència de l’entorn. També es preveuen usos en simulacions científiques o educatives, on la IA actuï amb una comprensió implícita de la física, la geometria i el canvi. La promesa és una IA que no només respon, sinó que interpreta i actua.
Nous dades, nous desafiaments
Per assolir aquesta intel·ligència espacial, es requereixen dades més complexes. No només text, sinó gravacions de vídeo, mapes de profunditat, informació sensorial o moviments en entorns reals i simulats. També es torna central la interacció, com es comporta un objecte en ser empès, què passa en travessar una porta, com canvia un entorn amb el temps. Aquesta varietat de dades planteja desafiaments tècnics, des de com integrar-les, a com etiquetar-les o com representar-les sense perdre coherència entre modalitats.
Els dubtes també habiten l’espai
La visió de Li no està exempta d’interrogants. En fòrums tècnics, alguns assenyalen que l’assaig és més inspirador que concret. No detalla com es resoldran els obstacles tècnics ni quin tipus d’arquitectura farà possible aquesta transició. Altres recorden que la manipulació espacial continua sent una de les tasques més complexes per a la robòtica. A més, captar entorns reals implica riscos de privacitat, biaixos en la representació i un alt cost computacional. Crear mons també pot significar crear caixes negres més difícils d’auditar.
Ecos d’una tendència que ja es mou
La idea d’intel·ligència espacial no sorgeix en el buit. Investigacions recents han mostrat que els models actuals encara fallen en tasques com girar mentalment un objecte o estimar distàncies. Al mateix temps, la integració de visió, llenguatge i acció és un focus creixent en laboratoris d’IA i robòtica. El gir cap a agents que perceben i actuen recorda que la intel·ligència, tal com la coneixem, mai ha estat només verbal. Sempre ha implicat cos, entorn, context.
Del text al moviment: una decisió que no és només tècnica
El pas de «paraules» a «mons» marca un gir amb implicacions àmplies. Canvia què entrenem, com avaluem, perquè fem servir la IA. Cada laboratori, cada empresa, cada desenvolupador haurà de decidir si fa aquest salt i com ho fa.
Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.