Skip to main content

World Labs, el laboratori fundat per la reconeguda investigadora Fei-Fei Li, presenta Marble, un model generatiu que no crea textos ni imatges, sinó entorns tridimensionals complets. Dissenyat per entendre i predir mons simulats, Marble representa un gir significatiu en com les màquines processen la realitat, no només identifiquen objectes o interpreten imatges, sinó que aprenen a anticipar conseqüències físiques com si intuïssin la lògica d’una escena en moviment en el desenvolupament de models d’intel·ligència artificial.

Un simulador que aprèn sol

Marble parteix d’una premissa senzilla, però potent, entrenar una xarxa neuronal perquè observi entorns 3D interactius i aprengui, a partir d’aquí, les lleis internes que els regeixen. Per a això, no utilitza dades textuals ni etiquetes. S’alimenta exclusivament de seqüències de vídeo generades en simuladors i videojocs amb físiques realistes.

Durant l’entrenament, Marble no rep regles explícites. Aprèn veient. Cada vídeo inclou les conseqüències d’accions específiques, com el que passa quan una pilota cau per una rampa o quan un objecte empès xoca contra una paret dins de l’entorn, com empènyer una caixa, activar una palanca o canviar el pendent d’una rampa. El model associa patrons, anticipa resultats i, eventualment, pot simular per si mateix què hauria d’ocórrer si s’empeny un objecte o si canvia el terreny.

Moure una caixa, entendre el món

L’objectiu de Marble no és crear videojocs ni pel·lícules, encara que els seus resultats puguin semblar cinematogràfics. El seu objectiu és construir un «model del món», una eina que permeti a les màquines simular i anticipar dinàmiques físiques del seu entorn, quelcom crucial en camps com la robòtica autònoma, la realitat virtual o la planificació de tasques complexes. És, en essència, una IA amb intuïció física. Aquesta capacitat podria permetre que una màquina prengui decisions basades no en regles preprogramades, sinó en una comprensió emergent de l’entorn.

En la seva versió actual, Marble pot generar entorns tridimensionals en els quals els objectes interactuen de forma coherent, i on es pot intervenir en temps real. Si es canvia la posició d’una caixa, el model ajusta l’entorn per reflectir l’impacte: ombres, col·lisions, moviments. Tot sense motors de joc externs.

Dades sintètiques, realisme emergent

Marble s’entrena amb dades sintètiques, entorns simulats en els quals cada variable està controlada. Això permet una precisió quirúrgica durant l’aprenentatge, com ajustar amb exactitud la resposta d’un objecte a una força o calibrar la trajectòria d’un moviment sense que intervinguin factors aleatoris o mal definits, és a dir, una capacitat d’ajustar el model amb gran detall i sense interferències externes.

A més, evita els problemes associats a l’ús de dades del món real, com el soroll o la manca de context. El resultat és un model que no necessita milions d’exemples. N’hi ha prou amb un entorn ben definit i moltes hores de simulació. Segons World Labs, això redueix el cost d’entrenament i obre la porta a models més eficients i escalables.

Màquines que raonen amb l’entorn

El que distingeix Marble no és només la seva capacitat de generar mons, sinó de raonar dins d’ells. Pot respondre preguntes com «què passa si la pilota roda cap a la rampa?» i mostrar la resposta en forma de simulació. Aquest tipus d’intel·ligència situacional podria ser clau per a futures aplicacions en robòtica, interfícies adaptatives o entorns d’entrenament virtual. L’aposta per models que aprenen de l’entorn sense instruccions recorda als sistemes d’aprenentatge autosupervisat que han revolucionat la visió per computador. Però en lloc de reconèixer patrons en imatges estàtiques, Marble els modela en acció.

La cursa pel model del món

Empreses com Google DeepMind i Meta també exploren els anomenats world models. El singular de Marble és el seu enfocament minimalista, res de text, res d’etiquetes, només vídeo sintètic i aprenentatge emergent. Queda per veure si aquesta línia aconseguirà integrar raonament abstracte amb percepció física. Però el rumb està marcat, les intel·ligències artificials ja no només completen frases. Comencen a imaginar l’escenari, col·loquen les peces i llancen la primera fitxa de dòmino.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply