DeepMind ha presentat Genie 3, un model capaç de generar entorns interactius en temps real a partir de descripcions textuals. Ho fa amb una coherència visual que es manté durant diversos minuts, com si improvisés un món amb memòria.
Mons que es despleguen com si estiguessin vius
Genie 3 funciona amb un model generatiu autoregressiu, una arquitectura que prediu cada fotograma de l’entorn en seqüència, en qualitat 720p i a 24 fotogrames per segon. És a dir, genera els mons pas a pas, com si estigués improvisant una pel·lícula a mesura que avança. A diferència de Genie 2 —que només podia sostenir la coherència visual durant uns vint segons—, aquesta nova versió manté la posició d’objectes, la lògica espacial i la continuïtat de l’escenari durant diversos minuts seguits.
Canviar el clima amb una frase escrita
Una de les claus està en els anomenats «esdeveniments promptables en el món», uns comandaments de text que modifiquen l’entorn sense interrompre la simulació. Pots demanar que caigui la nit, que aparegui un personatge o que comenci a ploure. DeepMind planteja això com una forma de crear escenaris contrafactuals, útils per entrenar agents virtuals que aprenen per assaig i error.
Sense geometria 3D, sense dades etiquetades
El sistema no es recolza en estructures tridimensionals com NeRFs o Gaussian Splatting. Cada món es genera mitjançant un model de vídeo entrenat amb dades sense etiquetar. Internament, combina un model espacial-temporal i un espai d’acció latent: una forma de codificar el que un agent pot fer, sense necessitat de definir-ho pas a pas.
Els límits també tenen forma
El potencial és evident, però també ho són els seus límits. Els agents només poden realitzar un conjunt reduït d’accions. Les simulacions amb diversos personatges encara ensopeguen. Encara que els objectes mantenen la seva posició durant minuts, el sistema no aconsegueix simular entorns reals amb precisió. I el text en pantalla rarament és llegible, tret que es descrigui lletra per lletra.
Dels videojocs a l’entrenament de màquines
Genie 3 millora amb claredat respecte a Genie 2, que amb prou feines oferia escenaris breus. També es distingeix de models com Veo 3, centrat en generar vídeo sense interacció. Aquí, la clau és la persistència interactiva. DeepMind ha reunit un equip específic per a aquesta línia, dirigit per Tim Brooks, amb aplicacions previstes en videojocs, robòtica i entorns d’entrenament per a IA.
Una escena que espera personatges
Genie 3 proposa que un text pugui convertir-se en un món que es camina. Una escena que no només es veu, sinó que respon. Però també evidencia que falta una coherència a llarg termini, llibertat d’acció, espais amb vida pròpia. L’avanç és real, però el terreny que s’obre encara no té camins marcats.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.