Skip to main content

Un grup d’investigadors de la Universitat de Califòrnia a Riverside ha publicat un innovador model anomenat UNITE (Universal Network for Identifying Tampered and SynthEtic videos), capaç de detectar amb alta precisió vídeos falsificats mitjançant IA, incloent-hi fons totalment generats sense presència de rostres. Mentre moltes solucions actuals depenen de l’anàlisi facial, aquest nou enfocament examina la coherència del moviment i textura del fons, el que el fa eficaç fins i tot quan no hi ha rostre visible.

Coherència visual com a nou enfocament

La clau de UNITE rau en la seva arquitectura basada en transformers, utilitzant SigLIP (model visual de Google) per aprendre correspondències entre imatge, vídeo i llenguatge natural. Aquest sistema pot identificar senyals subtils de manipulació: des de moviments massa suaus en objectes estàtics fins a inconsistències en la il·luminació o la textura de l’entorn. La fortalesa resideix en la seva visió holística: no està limitat a detecció facial.

Fallades en mètodes tradicionals

Aquest avanç arriba en un context on els mètodes tradicionals fallen davant de deepfakes cada vegada més sofisticats. Estudis recents com Deepfake‑Eval‑2024 mostren que els detectors de codi obert disminueixen el seu rendiment en entorns reals: es verifica una caiguda d’entre 45 % i 50 % en mètriques AUC respecte a benchmarks anteriors. Així mateix, informes de la premsa alerten sobre vulnerabilitats crítiques en eines comercials i de codi obert.

Advertències globals i desafiaments legals

Aquest tipus d’avanç tecnològic coincideix amb advertències recents sobre l’impacte social i legal dels deepfakes. Un informe de la ONU, presentat a la cimera AI for Good a Ginebra (juliol 2025), demana normatives globals que acompanyin tecnologies d’autenticació digital i estàndards de procedència multimèdia. També la justícia enfronta reptes: als EE. UU., tribunals ja alerten de la seva incapacitat per verificar cadenes de custòdia en evidència generada per IA.

Limitacions tecnològiques i el “dividend del mentider”

No obstant això, analistes subratllen que la tecnologia sola no és suficient. Les eines existents continuen mostrant limitacions de generalització davant de models desconeguts i atacs adversarials. A més, com destaquen articles recents, confiar exclusivament en programari pot generar un “dividend del mentider”: el públic acaba qüestionant fins i tot material genuí.

UNITE com a punt d’inflexió

Amb tot, UNITE representa un pas significatiu: amplia l’enfocament més enllà del rostre humà i empra modalitats visuals completes per identificar vídeos generats o alterats. Encara que no reemplaça la perícia forense humana, proporciona una eina més robusta per detectar deepfakes en entorns reals i no idealitzats.

Cap a una estratègia més completa

En definitiva, UNITE injecta aire fresc en l’estratègia contra la creixent marea d’IA generativa. Encara queden desafiaments tècnics i legals per superar, però el seu enfocament multimodal marca una direcció clara: la detecció digital ha d’abastar tot el vídeo – no només qui està present, sinó el que l’envolta. En un entorn on la confiança en el visual està en crisi, això podria ser un punt d’inflexió en matèries de salut informativa, ciberseguretat i justícia digital.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply