Alibaba ha fet un pas rellevant en la cursa global per la intel·ligència artificial amb l’anunci de Qwen‑VLo, un model generatiu multimodal que permet crear imatges a partir de text o imatges de referència. Però el que realment distingeix aquesta proposta és la seva innovadora forma de treballar, el model no genera la imatge de cop, sinó que la va «dibuixant» per etapes, mostrant el procés com si es tractés d’una obra pintada a mà. D’esquerra a dreta, de dalt a baix, l’usuari pot veure com sorgeixen els contorns, els colors i els detalls, la qual cosa redefineix la relació entre humà i màquina en la creació visual.
Evolució directa de l’ecosistema Qwen
Aquest nou sistema és una evolució de Qwen2.5‑VL, llançat a començaments de 2025. Conserva la seva arquitectura multimodal i l’amplia, permetent no només interpretar imatges, vídeos i gravacions, sinó també generar il·lustracions amb gran precisió semàntica. La fidelitat a les estructures i significats originals és un dels èxits tècnics més destacats, segons detalla l’equip de desenvolupament.
Edició intel·ligent amb instruccions mínimes
A més de crear imatges des de zero, Qwen‑VLo també pot modificar-les. Des d’alterar el seu estil, canviar elements, aplicar filtres o transformar la composició completa. El notable és que totes aquestes edicions es poden fer amb una sola instrucció i sense perdre la coherència visual ni el sentit de la imatge original.
El salt tècnic: generació progressiva
La clau tècnica darrere d’aquestes capacitats és el que Alibaba denomina “generació progressiva”. En lloc de construir la imatge des de soroll aleatori, com ocorre en models com DALL·E o Stable Diffusion, aquí es parteix d’una mena d’esbós difuminat que es va afinant capa a capa. Aquesta aproximació millora la transparència del procés creatiu, ja que permet intervenir mentre la imatge encara s’està formant, oferint major control i marge d’ajust a l’usuari.
Consistència semàntica com a prioritat
Un altre dels avenços de Qwen‑VLo és la seva capacitat per mantenir la coherència entre instruccions textuals complexes i els elements gràfics generats. Això resol un dels problemes més freqüents en models anteriors, on petits canvis en la indicació podien generar resultats erràtics o contradictoris.
D’ús professional i accés preliminar
De moment el model ja està disponible en versió beta, a través de la plataforma Qwen Chat, tant en anglès com en xinès, i Alibaba ha anunciat que treballa en la seva expansió a més idiomes. La seva estratègia apunta a professionals del màrqueting, l’educació i el disseny, amb la promesa de facilitar la creació de peces visuals complexes amb qualitat professional.
Alibaba es posiciona en la cursa global de la IA
Malgrat estar en fase preliminar, Qwen‑VLo representa un avenç significatiu en la generació d’imatges assistida per IA. Alibaba busca amb aquest llançament reforçar la seva posició en un mercat dominat per actors com OpenAI i Google, i ho fa integrant aquest nou model dins del seu creixent ecosistema Qwen, que ja abasta text, àudio, vídeo i raonament lògic. Amb això, la companyia xinesa demostra que la seva aposta per la IA és tant tecnològica com estratègica.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.