Skip to main content

Google ha presentat Veo 3.1, la seva nova versió del model generatiu de vídeo, juntament amb millores profundes en Flow, la seva eina de creació audiovisual. Aquest pas marca una evolució cap a vídeos més afinats, amb més control creatiu i so millor integrat.

Què canvia respecte a versions anteriors

Veo 3.1 amplia les funcions del seu antecessor i refina el control creatiu. Ara interpreta instruccions en text, imatge o vídeo breu i genera clips amb so sincronitzat. Incorpora versions “Fast” — més lleugeres — per a resultats àgils. I ja està disponible en Flow, a l’app Gemini i per a desenvolupadors mitjançant la Gemini API i Vertex AI.

En Flow, les funcions “Ingredients to Video”, “Frames to Video” i “Extend” ja integren so sense passos addicionals. A més, permeten intervencions específiques com inserir elements amb “Insert” i, en breu, eliminar objectes amb “Remove”. Segons Google, millora la fidelitat al prompt i eleva la qualitat audiovisual. També s’afegeix suport per a vídeos en format 16:9, tant horitzontals com verticals, optimitzats per a xarxes socials.

So, escena i continuïtat narrativa

Més que il·lustrar, Veo 3.1 busca narrar amb recursos auditius: veus, ambients, efectes. Amb “Frames to Video”, l’usuari tria un inici i un final, i el model construeix una transició visual i sonora. Una altra eina clau és “Extend”, que allarga l’acció partint de l’últim fotograma. L’escena creix, el so continua, i la lògica narrativa no es trenca. Aquestes extensions poden superar el minut i després encadenar-se per aconseguir peces més llargues. En paral·lel, funcions com “Insert” permeten afegir elements nous, ajustant llum, escala i profunditat de camp com faria un editor. “Remove”, en desenvolupament, reconstruirà el fons després d’eliminar el que molesti.

Què es pot fer, quant costa i què es vigila

Disponibilitat i cost
Veo 3.1 (i la seva versió Fast) està en vista prèvia de pagament a través de l’API de Gemini. Google manté el cost similar al de versions prèvies, encara que mitjans com VentureBeat esmenten xifres estimades d’uns 40 cèntims de dòlar per segon de vídeo.

Resolució i durada
El model genera clips en 720p i 1080p a 24 fps. La durada inicial és breu — entre 4 i 8 segons — però amb “Extend” pot superar el minut, segons el context.

Moderació i transparència
Cada vídeo inclou una marca d’aigua oculta basada en SynthID, cosa que facilita la seva traçabilitat. Google aplica filtres de contingut a les API i esborra automàticament els vídeos després de dos dies, excepte descàrrega explícita de l’usuari.

El que encara no flueix del tot

Errors subtils i artefactes
En proves inicials, alguns vídeos presenten fallades en animacions, desajustos labials o personatges inestables entre escenes.

Competència forta
L’anunci coincideix amb l’expansió de Sora 2 (OpenAI), que guanya tracció pel seu estil naturalista i facilitat d’ús. Mentre Sora busca fluïdesa visual i viralitat, Veo aposta per control, edició i precisió. La diferència, més que tècnica, és estratègica.

Manca en eines API
No totes les funcions de Flow estan encara disponibles via API: “Remove” o “Extend”, per exemple, arribaran més endavant a Vertex AI.

Aprenentatge i cost
L’accés segueix limitat per cost i corba d’aprenentatge. Crear vídeos coherents requereix prompts afinats i cert assaig-error.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply