Skip to main content

La pròxima frontera de la intel·ligència artificial no consisteix només a predir paraules o píxels, sinó a aprendre representacions internes del món capaces d’anticipar, raonar i planificar accions sense dependre d’etiquetes humanes.

Com aprèn una intel·ligència artificial com funciona el món si ningú no li explica què està veient? Com pot una màquina descobrir profunditat, objectes, moviment, causa i efecte sense milions d’etiquetes humanes i sense haver de reconstruir cada píxel de la realitat? Aquestes preguntes són al centre d’un dels debats més importants de la intel·ligència artificial contemporània: l’aprenentatge autosupervisat i els anomenats models del món.

El vídeo How does an AI learn how the world works — without labels, and without predicting every pixel? proposa un recorregut de més de trenta anys per aquesta història tècnica, des dels treballs pioners de Suzanna Becker i Geoffrey Hinton el 1992 sobre estereogrames de punts aleatoris fins a les arquitectures JEPA i els models moderns capaços d’aprendre a partir d’imatges i vídeos. La peça reconstrueix una evolució intel·lectual que connecta representació, col·lapse, aprenentatge contrastiu, destil·lació, autoencoders emmascarats i models predictius en espai latent.

L’assumpte pot semblar acadèmic, però té implicacions industrials enormes. La IA generativa actual ha demostrat capacitats extraordinàries en text, imatge, codi i vídeo. Tanmateix, bona part d’aquests sistemes continuen funcionant a partir de correlacions estadístiques i enormes quantitats de dades. El gran salt pendent és construir sistemes que no només reconeguin patrons, sinó que aprenguin models interns de la realitat: què canvia, què roman, què causa què, què és rellevant i què es pot ignorar.

Aquesta és la promesa dels models del món.

L’origen: aprendre sense etiquetes

La història comença molt abans de ChatGPT, Gemini, Claude o Sora. El 1992, Suzanna Becker i Geoffrey Hinton van publicar a Nature un treball sobre una xarxa neuronal autoorganitzada capaç de descobrir superfícies en estereogrames de punts aleatoris. El sistema no rebia etiquetes humanes explícites sobre profunditat o forma tridimensional. Aprenia a partir de regularitats internes de les dades visuals.

La idea era poderosa: potser el cervell, i també les màquines, poden aprendre molt sobre el món simplement observant les seves regularitats. No cal que algú etiqueti cada objecte. La mateixa estructura del món proporciona senyals d’aprenentatge.

Això és el que més tard es coneixeria com a aprenentatge autosupervisat. El sistema no necessita una etiqueta externa com ara “gat”, “cotxe” o “persona”. Crea la seva pròpia tasca d’aprenentatge a partir de les dades. Pot intentar predir una part absent d’una imatge, reconèixer si dues vistes provenen del mateix objecte, anticipar el fragment següent d’un vídeo o aprendre que certes transformacions no canvien la identitat d’una escena.

Aquest paradigma ha estat decisiu per a la IA moderna. Els models de llenguatge aprenen predient paraules o tokens. Els models visuals aprenen comparant imatges, reconstruint parts ocultes o predient representacions. Els models de vídeo intenten capturar com evoluciona una escena.

La qüestió de fons és sempre la mateixa: aprendre bones representacions.

El problema del col·lapse

Aprendre representacions sense etiquetes no és trivial. Un dels grans problemes de l’aprenentatge autosupervisat és el col·lapse representacional.

Si s’entrena una xarxa perquè produeixi representacions semblants de dues versions d’una mateixa imatge, pot trobar una solució inútil: assignar la mateixa representació a tot. Si totes les imatges es converteixen en el mateix vector, el sistema minimitza part de la pèrdua, però no aprèn res. Ha col·lapsat.

Aquest problema va obligar a dissenyar estratègies perquè les xarxes aprenguessin similituds útils sense caure en solucions trivials.

D’aquí va néixer bona part de l’aprenentatge contrastiu modern. La idea bàsica és senzilla: apropar representacions d’exemples relacionats i allunyar representacions d’exemples diferents. Si dos retalls augmentats de la mateixa imatge mostren el mateix objecte, les seves representacions han d’estar pròximes. Si provenen d’imatges diferents, s’han de separar.

Aquest principi va impulsar mètodes com CPC, MoCo i SimCLR.

L’era contrastiva: CPC, MoCo i SimCLR

Contrastive Predictive Coding (CPC) va plantejar una manera d’aprendre representacions predient informació futura en un espai latent. En lloc de reconstruir dades brutes, el model aprèn a distingir quins fragments futurs són coherents amb el context.

MoCo, desenvolupat per investigadors de Facebook AI Research, va introduir una cua dinàmica d’exemples negatius i un codificador de momentum per fer més eficient l’aprenentatge contrastiu.

SimCLR va simplificar l’enfocament i va demostrar que, amb augments de dades adequats, grans lots i una arquitectura ben dissenyada, l’aprenentatge contrastiu podia produir representacions visuals molt potents.

Aquests mètodes van demostrar que una xarxa podia aprendre característiques útils sense etiquetes humanes. La IA podia observar milions d’imatges i construir una noció interna de semblança, identitat i estructura.

Però també tenien limitacions. Dependien molt de transformacions dissenyades per humans i de grans conjunts de comparació. La pregunta següent era inevitable: pot una IA aprendre representacions sense exemples negatius?

BYOL i DINO: aprendre per destil·lació

BYOL (Bootstrap Your Own Latent) va sorprendre perquè va demostrar que era possible aprendre bones representacions sense exemples negatius explícits. El sistema utilitza dues xarxes: una xarxa online i una xarxa objectiu. La primera intenta predir la representació produïda per la segona sobre una altra vista de la mateixa imatge.

DINO va portar aquesta idea al terreny de la destil·lació autosupervisada i dels Vision Transformers. El model estudiant aprèn a imitar el professor sobre diferents vistes d’una imatge. El resultat van ser representacions sorprenentment semàntiques.

Aquests mètodes van representar un pas cap a una IA visual més autònoma. Però encara quedava un problema: moltes arquitectures aprenien a partir de transformacions d’imatges, no necessàriament a partir d’una comprensió profunda de l’estructura del món.

Autoencoders emmascarats: ocultar per aprendre

Una altra línia poderosa va ser la dels masked autoencoders o autoencoders emmascarats. La idea consisteix a ocultar parts d’una imatge i demanar al model que les reconstrueixi.

Aquesta estratègia va demostrar que era possible entrenar models eficients amagant grans percentatges d’una imatge i reconstruint-ne les parts absents. Això obligava el sistema a aprendre estructura global.

Però reconstruir píxels també té una limitació important. El món visual conté massa detalls irrellevants. Si una IA dedica recursos a predir exactament cada textura, ombra, fulla, reflex o soroll de càmera, pot perdre de vista allò essencial: quins objectes hi ha, com es relacionen, què pot passar després i què és important per actuar.

Aquesta crítica és al centre de la visió de Yann LeCun i de les arquitectures JEPA.

JEPA: predir en l’espai de les idees

Les Joint-Embedding Predictive Architectures (JEPA) plantegen una alternativa: no predir píxels, sinó representacions abstractes.

La idea és que una IA no necessita reconstruir cada detall d’una escena per entendre-la. Els humans tampoc no ho fan. Quan veiem una pilota rodolant darrere d’un sofà, no prediem cada píxel ocult. Anticipem que la pilota continuarà existint, que té una trajectòria i que pot reaparèixer per una altra banda.

Operem amb representacions latents, no amb fotogrames perfectes.

I-JEPA, presentat per Meta AI el 2023, va aplicar aquesta idea a les imatges. El model pren un bloc de context d’una imatge i prediu la representació d’altres blocs objectiu de la mateixa imatge. No intenta reconstruir píxels, sinó embeddings.

L’avantatge és doble. Primer, obliga el model a aprendre informació semàntica. Segon, evita malgastar capacitat en detalls de baix nivell. El sistema aprèn allò que importa per representar una escena, no cada píxel de l’escena.

D’I-JEPA a V-JEPA: aprendre del vídeo

El pas següent era natural. Si volem que una IA entengui el món físic, no n’hi ha prou amb imatges. El món es mou.

Aquí entra en joc V-JEPA, la versió de JEPA aplicada al vídeo.

La lògica és similar: el model observa fragments de vídeo i aprèn a predir representacions latents de parts ocultes o futures. No intenta generar cada píxel del fotograma següent, sinó anticipar l’estructura rellevant de l’escena.

Aquest enfocament és especialment important per als models del món. Un sistema que aprèn de vídeo pot començar a capturar regularitats físiques: permanència dels objectes, moviment, interacció, gravetat, trajectòries, contacte, velocitat i causalitat.

Meta va presentar V-JEPA 2 com un avanç cap a models capaços d’entendre, predir i planificar. Segons la companyia, és un model entrenat amb vídeo que permet comprensió, predicció i planificació sense necessitat de supervisió intensiva.

Aquí apareix el salt més important: passar d’observar a actuar.

Models del món: la IA que anticipa

Un model del món no és simplement un sistema que reconeix objectes. És un sistema que aprèn una representació interna de com evoluciona l’entorn.

Això té implicacions enormes.

Un robot que vol agafar una tassa necessita saber què passarà si mou el braç, quins objectes pot tocar i quines conseqüències tindrà cada acció. Un cotxe autònom necessita anticipar com es mouran vianants, ciclistes i vehicles. Un agent virtual necessita planificar en un entorn dinàmic.

Els models de llenguatge han demostrat una capacitat sorprenent per raonar sobre text. Però el món físic no està fet de text. Està fet d’espai, temps, matèria, energia, moviment i restriccions.

Per això els models del món són una de les grans apostes de la IA avançada.

La intuïció de LeCun

Yann LeCun fa anys que defensa que els sistemes actuals basats en models autoregressius tenen limitacions profundes. El seu argument és que la intel·ligència humana no es basa únicament a predir paraules o reconstruir detalls, sinó a construir models interns abstractes del món.

Els humans aprenem observant. Un infant no necessita milions d’etiquetes per entendre que una pilota cau, que un objecte ocult continua existint o que empènyer una caixa produeix moviment.

JEPA intenta traslladar part d’aquesta intuïció a la IA.

En lloc d’obligar el sistema a predir-ho tot, se li demana que prediqui allò important en un espai latent. Aquesta distinció pot semblar tècnica, però és fonamental.

Predir píxels pot ser innecessàriament difícil i poc eficient. Predir representacions pot assemblar-se més a entendre.

Per què importa ara

Aquest debat és important perquè la IA està entrant en una fase on el text ja no és suficient. Els pròxims grans salts poden venir de sistemes capaços d’entendre vídeo, espai, acció i causalitat.

Empreses com Meta, Google DeepMind, Nvidia, Runway o World Labs treballen en models del món. La raó és senzilla: si la IA ha d’operar en el món físic o simulat, necessita entendre dinàmiques, no només llenguatge.

Els models del món poden transformar la robòtica, els vehicles autònoms, els videojocs, la simulació industrial, la medicina, l’educació, la realitat virtual i moltes altres àrees.

La IA generativa ha demostrat que pot produir contingut.

Els models del món aspiren a alguna cosa més: comprendre prou bé la realitat per anticipar-la.

La nova frontera

La tesi que recorre tota aquesta història és senzilla i poderosa: per actuar de manera intel·ligent, una IA necessita aprendre quines parts del món són importants.

No n’hi ha prou amb veure. Cal representar.

No n’hi ha prou amb generar. Cal anticipar.

No n’hi ha prou amb predir píxels. Cal predir estructures, relacions i conseqüències.

L’aprenentatge autosupervisat ha estat el camí que ha permès avançar en aquesta direcció. I JEPA representa una de les formulacions més ambicioses: aprendre abstraccions útils del món observant imatges i vídeos, sense etiquetes, sense reconstrucció exhaustiva i amb capacitat potencial de planificació.

La pregunta inicial del vídeo torna amb més força: com aprèn una IA com funciona el món?

La resposta, després de més de trenta anys de recerca, sembla cada vegada més clara: no copiant cada píxel, sinó descobrint les representacions latents que fan que el món sigui previsible.

Leave a Reply