Google afina el seu motor de vídeo amb IA i fa un pas més amb l’actualització de Veo 3.1, una versió que permet generar clips a partir d’imatges de referència i un breu text. Es diu Ingredients to Video i no només obre noves formes de crear, sinó també preguntes sobre control i autenticitat.
Tres ingredients, un clip amb ritme
L’eina funciona com una recepta ràpida. L’usuari puja fins a tres imatges: un personatge, un fons, un objecte. Després escriu una frase que defineix l’acció o el to. Amb aquests ingredients, Veo 3.1 genera un vídeo breu, en moviment, amb coherència visual i una estètica que recorda als anuncis virals o a curts d’animació digital.
La novetat no és que un model d’IA generi vídeo, sinó el nivell de control que ofereix. Els personatges conserven la seva aparença entre escenes, els fons s’estabilitzen, i el moviment evita els salts visuals que fins fa poc eren el taló d’Aquil·les d’aquestes tecnologies.
Pensat per a pantalles que es desplacen
Una de les millores més visibles és el suport natiu per a format vertical (9:16), alineat amb els hàbits de consum actuals. TikTok, YouTube Shorts, Instagram Reels, plataformes on la imatge ha d’impactar en segons i en pantalla completa. Ara Veo genera contingut directament en aquest format, sense necessitat de retalls posteriors. Ja no es tracta només de crear, sinó d’anticipar com es veurà. La IA s’adapta al llenguatge visual de les xarxes amb primers plans, centrat automàtic, ritme narratiu pensat per al dit que es desplaça.
Des de Gemini fins a Vertex: totes les vies
Ingredients to Video no és una funció aïllada. Està disponible a l’app de Gemini, a YouTube Create, a Flow i també a través de l’API de Gemini i Vertex AI per a desenvolupadors. Això significa que tant creadors individuals com equips tècnics poden accedir al mateix motor, adaptar-lo al seu flux i escalar-lo segons les seves necessitats. La sortida per defecte millora en resolució, i pot escalar-se a 4K si l’entorn ho permet.
Una marca invisible per al visible
Cada vídeo generat inclou una signatura digital oculta mitjançant SynthID, una tecnologia desenvolupada per DeepMind que permet identificar contingut creat per IA fins i tot després d’edicions o compressions. És una forma de donar traçabilitat sense interferir en l’experiència visual. Aquesta pràctica no evita el mal ús, però marca una diferència, qui vulgui fer passar contingut artificial per real haurà d’esforçar-se més. El repte ara és que aquestes marques siguin reconegudes i respectades per altres plataformes.
La cursa continua, però el format importa
OpenAI avança amb Sora, el seu generador de vídeo amb text. Meta i Runway també empenyen en aquesta direcció. Però Google aposta pel control visual, la integració amb eines existents i una mirada centrada en l’ús quotidià, especialment en xarxes. El que abans eren demos tècniques avui són funcions disponibles en una app.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.