Skip to main content

Revisem l’estat de la IA audiovisual a finals del 2024.

El camp de la intel·ligència artificial aplicada a la generació de vídeo viu un moment d’efervescència. Durant els darrers mesos, diverses plataformes, com Kling, Runway, Hailuo o Luma, han competit per ser l’opció estrella a l’hora de crear escenes espectaculars a partir de text o d’imatges estàtiques. Tanmateix, Sora, presentada fa dues setmanes durant l’esdeveniment “12 dies d’OpenAI”, s’ha convertit en la gran protagonista de les converses. El seu llançament mediàtic va despertar un interès sense precedents, encara que, després de l’entusiasme inicial, comencen a alçar-se veus que qüestionen si realment ofereix tant com promet.

La gran promesa (i el “hype”) de Sora

OpenAI va llançar definitivament Sora al públic el dia 9 de desembre, inicialment disponible per als usuaris de ChatGPT Plus i Pro. Tanmateix, Sora no estava disponible a totes les regions, deixant Europa fora del seu abast en aquest primer moment, amb una disponibilitat prevista per a algun moment del 2025.

Les demostracions inicials mostraven escenes d’acció, paisatges realistes i transicions cinematogràfiques que molts van qualificar de “revolucionàries”. La integració amb l’ecosistema de ChatGPT prometia un flux de treball simplificat per a creadors, influencers i petits estudis de producció. No obstant això, l’eufòria inicial es va veure temperada per les primeres anàlisis, que van constatar certs avenços en la consistència i els moviments de càmera i perspectiva, però també van assenyalar incoherències i deformacions, així com objectes que desapareixien, deixant un regust de decepció entre alguns usuaris.

No obstant, les anàlisis més recents han destacat que, tot i que Sora encara ofereix un rendiment irregular, la seva interfície operativa ha estat elogiada per ser intuïtiva i per permetre l’addició de múltiples keyframes. La divisió del prompt textual al llarg de la línia de temps és una altra característica que millora el control sobre el resultat final, la gran assignatura pendent de la IA de vídeo.

Encara que Sora no ha resultat ser tan aclaparadora com molts esperaven, aquestes funcionalitats la converteixen en una eina capdavantera dins del panorama de la IA generativa de vídeo, mereixedora de ser explorada i observada de prop pel seu potencial de desenvolupament.

El llançament de Sora, tot i ser una mica decebedor, deixa clar que la competència en la IA de vídeo continua oberta, amb Google i el seu prometedor Veo2 en camí, i Kling 1.6 com a favorita dels professionals

Google contraataca amb Veo2

El 17 de desembre de 2024, només 7 dies després del llançament de Sora, Google va anunciar Veo2. Tot i que encara no està disponible per al gran públic, un grup reduït de desenvolupadors ja l’ha provat i afirma que el model incorpora un realisme superior en partícules, llums i moviment. A més, oferirà eines d’edició en temps real que podrien posar en escac qualsevol rival, inclosa Sora.

Tot i que encara no hi ha una data concreta per a l’accés massiu a Veo2, els especialistes asseguren que, si Google compleix les seves promeses, podria establir un nou estàndard en la generació de vídeo assistida per IA. En definitiva, un rival formidable per a l’eina d’OpenAI.

Kling 1.6: el “cavall guanyador” dels professionals

Mentrestant, Kling, desenvolupada per l’empresa xinesa Kuaishou, continua el seu propi ritme de creixement sostingut. La versió 1.6 va arribar el passat 19 de desembre de 2024, marcant un altre avanç significatiu en la tecnologia de generació de vídeo per IA. La comunitat de creadors professionals destaca especialment:

  1. Realisme en escenes d’acció: explosions, lluites, moviments de càmera i física de partícules molt més refinats.

  2. Lip-sync i models facials personalitzats: ideals per a anuncis publicitaris, videoclips i fins i tot prototips cinematogràfics.

  3. Estabilitat i coherència: els entorns multitudinaris, ciutats futuristes i temples submarins mostren menys deformacions i transicions més fluides que en versions anteriors.

Aquesta combinació de rendiment i fiabilitat ha fet que molts estudis i agències continuïn apostant per Kling, per davant d’altres competidors com Hailuo, Runway o Luma.

La guerra silenciosa de les IAs

Fins fa poc, la batalla més visible es lliurava en el terreny del text, amb models com ChatGPT, Gemini, Llama, Grok o Claude disputant-se la supremacia. Tanmateix, la generació audiovisual també està guanyant protagonisme. Ja no es tracta només de crear imatges estàtiques, on Midjourney, Flux o DALL·E continuen brillant, sinó de generar seqüències cinematogràfiques completes: curtmetratges, anuncis, videoclips i fins i tot tràilers de grans produccions que ja estan suposant una autèntica revolució per a la indústria.

Un futur en disputa: Qui es quedarà amb el tron?

L’any 2025 es perfila com un moment crucial. Sora ha aconseguit un llançament mediàtic impressionant, però les crítiques i l’arribada de rivals forts com Veo2 li plantegen un desafiament real. Mentrestant, Kling 1.6 sembla ser la plataforma preferida per molts professionals, gràcies a la solidesa dels seus models i a l’agilitat amb què respon a les exigències del mercat.

Podrà OpenAI mantenir Sora en el primer pla quan Google obri les portes de Veo2 per a tothom? S’imposarà Kling en els circuits professionals gràcies a la maduresa de la seva tecnologia? L’única certesa és que la cursa de la IA generativa en vídeo està lluny de decidir-se. Queden mesos intensos per endavant, on cada actualització podria suposar un salt qualitatiu que redefineixi, una vegada més, la manera com concebem i produïm contingut audiovisual. Seguirem informant.

Expert en IA de vídeo

Aleix Perdigó

Autor a Parèntesi MÈDia i expert en IA a Lavinia i Goroka.

Autor a Parèntesi MÈDia i expert en IA a Lavinia i Goroka.