Skip to main content

OpenAI rellança la imatge a ChatGPT amb un salt que transforma el disseny, l’edició i la manera de demanar una escena.  ChatGPT Images 2.0 no es limita a generar imatges més atractives: combina millor comprensió del món, text més fiable dins la imatge, edició més precisa i una nova manera de “pensar” abans de dibuixar, acostant l’eina a usos creatius i professionals molt més exigents.

OpenAI ha presentat ChatGPT Images 2.0, una nova generació de creació visual dins de ChatGPT que la companyia defineix com un pas rellevant en capacitat d’imatge, amb millores en el seguiment d’instruccions, coneixement del món, gestió de detalls complexos i renderització de text dens dins la mateixa imatge. Juntament amb el model, OpenAI ha desplegat també un nou mode de “images with thinking”, que afegeix raonament i ús d’eines al procés de generació visual. Segons la documentació oficial, aquesta combinació permet al sistema investigar millor, planificar la composició, refinar la petició abans de generar i produir múltiples imatges a partir d’un mateix encàrrec.

La novetat és rellevant perquè canvia el paper de la imatge generativa dins l’ecosistema d’IA. Fins ara, el mercat havia acostumat els usuaris a demanar una il·lustració o una escena i obtenir una imatge més o menys impactant, però amb limitacions quan entraven en joc composicions complexes, tipografia, fidelitat a instruccions llargues o coherència narrativa. OpenAI intenta superar aquesta barrera: Images 2.0 es presenta com un model capaç de convertir un prompt senzill en un resultat més estructurat i útil.

Aquest matís és clau. La companyia no ven només més qualitat visual, sinó una evolució cap a la imatge com a tasca composta. A la pàgina de llançament s’hi mostren exemples que van des d’infografies i pòsters fins a material acadèmic, còmics, disseny editorial o continguts publicitaris. El missatge és clar: la generació d’imatges deixa de ser només estètica i passa a ser funcional.

Una de les millores més destacades és la generació de text dins la imatge. Històricament, aquest ha estat un dels punts febles dels models visuals. OpenAI afirma que Images 2.0 millora notablement la precisió tipogràfica i la coherència en composicions amb text dens, fet que obre la porta a usos reals en comunicació, disseny i educació.

Un altre avanç rellevant és el multilingüisme. El model està preparat per treballar amb múltiples idiomes i sistemes d’escriptura, ampliant el seu abast més enllà del context anglosaxó. Això pot tenir un impacte directe en mercats globals i en equips creatius que operen en entorns multilingües.

OpenAI també destaca una millora en el coneixement del món. Això implica una millor representació de contextos reals, objectes i escenes complexes. Aquesta evolució és especialment útil en àmbits com l’educació, la divulgació o el disseny informatiu, on la precisió és tan important com l’estètica.

On el salt és més conceptual és en el mode images with thinking. Aquest permet al sistema planificar abans de generar, utilitzar fonts externes i estructurar millor el resultat final. Això acosta la generació d’imatges a un model de treball més similar al d’un assistent creatiu que interpreta encàrrecs complets.

Aquesta capacitat pot ser especialment valuosa en entorns professionals. No es tracta només de generar imatges, sinó de produir peces visuals amb intenció, estructura i coherència. La IA deixa de ser una eina puntual per convertir-se en un col·laborador creatiu.

El model també s’integra en l’ecosistema de desenvolupament d’OpenAI a través de l’API GPT Image 2, cosa que permet la seva incorporació en aplicacions, eines de disseny i fluxos empresarials. Això reforça la idea que no és només una funcionalitat de ChatGPT, sinó una infraestructura visual.

Tanmateix, l’augment de capacitats comporta riscos. OpenAI reconeix que el model pot generar imatges més realistes i, per tant, més susceptibles de ser utilitzades de manera enganyosa. Per això incorpora múltiples capes de seguretat, incloent-hi filtres de text, anàlisi d’imatges i revisió de resultats abans de la seva publicació.

Aquest equilibri entre capacitat i control serà clau en l’adopció del model. Com més potent és l’eina, més important és garantir-ne un ús responsable.

El llançament també reflecteix un canvi en l’estratègia d’OpenAI. La imatge ja no és només un complement, sinó una peça central en la seva visió multimodal. La combinació de llenguatge, imatge i raonament apunta cap a sistemes més complets i versàtils.

Per al sector creatiu, això implica una transformació profunda. La generació d’imatges es fa més accessible, però també exigeix més criteri. Saber què demanar, com refinar-ho i com integrar-ho en un projecte serà tan important com la capacitat tècnica de generar la imatge.

En definitiva, ChatGPT Images 2.0 no és només una millora tècnica. És un pas cap a una nova manera de crear, on la IA no només executa, sinó que també interpreta i col·labora.

Leave a Reply