Skip to main content

Amb l’expansió global de Project Genie als subscriptors de Google AI Ultra 5X, Google ja no només competeix en models de llenguatge, vídeo o assistents intel·ligents: entra de ple en la cursa per crear universos interactius generats en temps real per intel·ligència artificial.

La intel·ligència artificial ha après a escriure textos, generar imatges, produir vídeos, crear música i programar programari. Ara vol construir mons. I Google acaba de fer un pas decisiu en aquesta direcció. La companyia ha anunciat l’ampliació de l’accés a Project Genie, el seu ambiciós experiment de creació d’entorns interactius mitjançant intel·ligència artificial, que a partir d’ara estarà disponible per als subscriptors de Google AI Ultra 5X a tot el món.

La decisió marca una nova fase per a una de les tecnologies més sorprenents desenvolupades per Google DeepMind durant els darrers anys: els anomenats world models o models del món. La notícia pot semblar una actualització menor dins del flux constant de novetats sobre IA. Tanmateix, representa alguna cosa molt més profunda. Project Genie no és un xatbot, ni un generador d’imatges, ni una eina de productivitat. És un sistema capaç de crear mons interactius explorables en temps real a partir d’instruccions escrites, imatges o referències visuals.

En altres paraules, és una plataforma que transforma una descripció en una experiència navegable.

Google va presentar inicialment Project Genie com un prototip experimental basat en Genie 3, el model del món desenvolupat per Google DeepMind. Durant els primers mesos, l’accés va estar restringit a usuaris seleccionats i posteriorment als subscriptors de Google AI Ultra als Estats Units. Ara la companyia amplia l’accés a escala global per als usuaris de la seva nova modalitat Ultra 5X, un senyal que considera aquesta tecnologia prou madura per començar a exposar-la a una comunitat molt més àmplia.

L’expansió té una lectura estratègica evident. Durant els darrers tres anys, la indústria de la IA ha estat obsessionada amb els models de llenguatge. ChatGPT, Claude, Gemini, Grok i altres sistemes han concentrat l’atenció pública i empresarial. No obstant això, als laboratoris més avançats s’està gestant una segona cursa: la dels models capaços de comprendre, simular i generar entorns complets.

No es tracta només de produir imatges estàtiques, sinó de construir espais tridimensionals, dinàmics i coherents on una persona pugui desplaçar-se i interactuar.

Project Genie és una de les primeres materialitzacions visibles d’aquesta visió. L’usuari pot descriure un entorn amb llenguatge natural, aportar una fotografia o fins i tot utilitzar una imatge existent com a punt de partida. A partir d’aquí, el sistema genera un món interactiu que pot explorar-se en temps real. L’experiència recorda en alguns aspectes un videojoc, però també una simulació, una maqueta digital o un entorn immersiu generat sobre la marxa.

La clau tecnològica resideix en Genie 3. Google DeepMind defineix aquest sistema com un model de propòsit general capaç de generar entorns fotorealistes explorables en temps real a partir de simples descripcions textuals. A diferència d’un videojoc convencional, on cada escenari ha estat dissenyat prèviament per artistes i desenvolupadors, Genie genera el món mentre l’usuari es mou per ell. La intel·ligència artificial prediu com ha d’evolucionar l’entorn i construeix nous fragments de realitat virtual a mesura que avança l’exploració.

Aquest enfocament representa un canvi de paradigma. Fins ara, la major part dels continguts digitals interactius requerien enormes equips humans. Crear un videojoc modern implica dissenyadors, programadors, modeladors 3D, artistes, animadors, guionistes i especialistes en experiència d’usuari. Els costos poden arribar a centenars de milions d’euros. Project Genie planteja una hipòtesi radical: què passa quan una sola persona pot generar un món complet simplement descrivint-lo?

La pregunta té implicacions que van molt més enllà de la indústria del videojoc. Google insisteix que Project Genie s’ha d’entendre com una plataforma de recerca sobre models del món. Aquests sistemes no serveixen només per a l’entreteniment. També poden utilitzar-se per entrenar agents d’intel·ligència artificial, simular escenaris físics, desenvolupar robòtica, crear entorns educatius, dissenyar arquitectura, planificar ciutats o formar professionals en entorns virtuals.

L’expressió “model del món” és especialment rellevant. Durant anys, la intel·ligència artificial ha destacat per reconèixer patrons en dades. Els models del món aspiren a alguna cosa més ambiciosa: construir representacions dinàmiques de com funciona la realitat. Un sistema d’aquest tipus no només genera imatges atractives; intenta predir què passarà quan algú actuï dins d’aquell entorn. Si una persona avança, gira, salta o interactua amb un objecte, el model ha de calcular com canvia el món en conseqüència.

Aquesta capacitat és considerada per molts investigadors com un dels passos necessaris cap a sistemes d’IA més generals. Un agent intel·ligent necessita comprendre com evolucionen els entorns en què opera. En aquest sentit, Genie no és únicament una eina creativa. És també un laboratori on Google experimenta amb capacitats que podrien acabar aplicant-se a robots, assistents autònoms o vehicles intel·ligents.

La relació amb Waymo és especialment il·lustrativa. Google DeepMind ja ha explicat que els models del món poden utilitzar-se per entrenar sistemes de conducció autònoma mitjançant simulacions extremadament realistes. En lloc de dependre exclusivament dels quilòmetres recorreguts per vehicles reals, la IA pot aprendre en entorns virtuals generats dinàmicament. Això permet provar situacions rares, perilloses o improbables sense posar en risc persones ni vehicles.

Però on Project Genie desperta més fascinació és en el terreny creatiu. Les demostracions publicades mostren oceans immensos, paisatges inspirats en fotografies històriques, escenaris naturals, ciutats imaginàries i mons híbrids que combinen elements reals i fantàstics. L’usuari pot explorar aquests entorns com si hi estigués immers.

Un dels elements més cridaners és la futura integració amb Street View. Google ha anunciat que incorporarà una capacitat que permetrà crear nous mons ancorats en llocs reals obtinguts a partir de les imatges de Street View. Això obre possibilitats enormes per a l’exploració virtual, l’educació geogràfica, el turisme digital i la creació d’experiències immersives basades en espais existents.

La idea recorda una combinació entre Google Earth, realitat virtual, generació procedimental i models generatius. Però el resultat apunta cap a alguna cosa nova: entorns que no només reprodueixen llocs, sinó que poden transformar-los, ampliar-los i reinterpretar-los.

Des del punt de vista empresarial, l’expansió de Project Genie també revela l’estratègia de monetització de Google. La companyia utilitza Google AI Ultra com a porta d’accés a les seves tecnologies més avançades. El pla Ultra inclou Gemini, Flow, Whisk, Project Mariner, capacitats avançades de cerca, eines per a desenvolupadors i ara també Project Genie. L’objectiu és convertir la subscripció premium en una mena de laboratori d’accés anticipat a la pròxima generació d’intel·ligència artificial.

El moviment intensifica igualment la competència amb OpenAI, Anthropic i Meta. Mentre OpenAI treballa en agents, raonament avançat i multimodalitat, Google intenta diferenciar-se apostant per la convergència entre models de llenguatge, vídeo, imatge, simulació i creació de mons. Gemini ja no és només un assistent conversacional. Comença a convertir-se en una plataforma integral de creació digital.

Tanmateix, Project Genie també planteja desafiaments importants. El primer és computacional. Generar mons interactius en temps real requereix enormes recursos de processament. A diferència d’una imatge o d’un vídeo, que poden produir-se una sola vegada, un entorn interactiu ha de respondre constantment a les accions de l’usuari. Cada moviment exigeix noves prediccions i noves generacions.

El segon repte és jurídic. Ja han aparegut exemples d’usuaris que recreen entorns inspirats en franquícies comercials, videojocs coneguts o propietats intel·lectuals protegides. La qüestió dels drets d’autor, que ja afecta la generació d’imatges i vídeo, esdevé encara més complexa quan la IA crea mons interactius complets.

També existeix una qüestió cultural. Durant dècades, la creació de mons digitals ha estat una disciplina artística complexa. Dissenyadors, arquitectes virtuals i desenvolupadors han construït universos memorables mitjançant anys de treball. Project Genie democratitza aquest procés, però també pot alterar profundament el paper dels creadors humans.

L’educació podria ser un dels sectors més beneficiats. Imaginar una classe d’història on els estudiants recorren una recreació dinàmica de Roma, Atenes o Tenochtitlán generada en temps real deixa de semblar ciència-ficció. El mateix passa amb l’ensenyament de ciències, arquitectura, geografia o enginyeria.

En recerca científica, els models del món també desperten un gran interès. Simular ecosistemes, ciutats, infraestructures o processos físics complexos podria accelerar l’estudi de fenòmens difícils d’observar directament.

L’expansió global d’accés indica que Google vol observar com interactuen milers d’usuaris amb aquesta tecnologia. Els models del món encara es troben en una fase inicial. La companyia necessita comprendre quins tipus d’entorns creen les persones, com els utilitzen, quines limitacions troben i quines aplicacions emergeixen espontàniament.

La història recent de la intel·ligència artificial mostra que els usos més transformadors rarament són els previstos inicialment pels seus creadors. És possible que Project Genie segueixi una trajectòria similar.

Per ara, la plataforma continua sent un prototip de recerca. Google insisteix que existeixen limitacions de realisme, control, persistència i complexitat. Però també reconeix que la tecnologia evoluciona ràpidament.

En perspectiva històrica, Project Genie pot representar un dels experiments més importants sorgits de Google DeepMind des d’AlphaGo. No perquè estigui destinat necessàriament a convertir-se en un producte massiu immediat, sinó perquè explora una idea fonamental: la possibilitat que la IA no només generi continguts, sinó realitats digitals completes.

L’expansió als subscriptors globals de Google AI Ultra 5X és un senyal inequívoc de confiança. Google creu que ha arribat el moment de treure els models del món del laboratori i posar-los en mans de milers d’usuaris. El que passi després podria redefinir no només la creació digital, sinó també la manera com interactuem amb entorns virtuals durant la pròxima dècada.

Si els models de llenguatge van transformar l’accés al coneixement i els generadors de vídeo estan transformant la producció audiovisual, els models del món podrien transformar la mateixa naturalesa dels espais digitals. I en aquesta cursa, Google vol ocupar la primera posició.

Leave a Reply