Skip to main content

Google ha fet un salt notable en l’edició d’imatges generades per IA amb la seva nova versió del model integrat en l’app Gemini: Gemini 2.5 Flash Image, amb el sobrenom “nano banana”. Llançat el dilluns 26 d’agost de 2025, aquest model apunta a superar eines de la competència com les d’OpenAI en precisió i coherència visual2.

La clau de l’èxit de nano banana és la seva capacitat per executar edicions avançades sense comprometre la semblança del subjecte. Ja sigui una persona, la seva mascota o altres elements, el model conserva els detalls essencials fins i tot al canviar escenaris, estils o fons. Aquest enfocament enfronta un dels majors reptes de la IA en imatges: la tendència a introduir inconsistències subtils que distorsionen el reconeixement.

Gemini 2.5 Flash Image ofereix opcions com “edició multitorn”, que permet modificar progressivament parts específiques sense afectar altres elements; i una funció de “style mixing”, que aplica textures o patrons d’una imatge a una altra, com vestir botes amb un disseny floral.

A més, els usuaris poden combinar fotos per crear escenes noves, per exemple, integrar una foto personal amb una de la seva mascota en un entorn imaginatiu com una carretera o una sala nova. Tot això està disponible per a tots els usuaris de Gemini, tant gratuïts com de pagament, i s’implementa globalment des d’avui.

Google també ha reforçat la transparència: cada imatge generada porta una marca visible i una altra digital imperceptible anomenada SynthID, cosa que ajuda a identificar continguts creats per IA. Aquesta implementació respon en part a crítiques prèvies sobre la generació d’imatges inapropiades o inexactes per part de Gemini.

En declaracions citades per TechCrunch, Nicole Brichtova, líder de producte a DeepMind, destaca que el model “fa una feina molt millor en unir edicions de forma fluida” i és ja usable per a qualsevol propòsit. En plataformes especialitzades com LMArena, el model ha estat avaluat com de vanguardia, evidenciant la seva eficàcia tècnica.

No obstant això, aquesta sofisticació té un costat fosc: mentre OpenAI expressà com el seu generador d’imatges va disparar l’ús de ChatGPT, Google competeix per tancar aquesta bretxa. Al juliol, es van reportar 450 milions d’usuaris mensuals de Gemini, enfront de més de 700 milions setmanals de ChatGPT, cosa que suggereix una adopció inferior i la necessitat d’innovar per atreure més audiència.

Amb Gemini 2.5 Flash Image (nano banana), Google redefineix l’estàndard en edició d’imatges per IA, combinant precisió, creativitat i seguretat. La capacitat de preservar la identitat visual durant edicions complexes i la inclusió de marques d’autenticitat situen la plataforma en una posició competitiva sòlida enfront de competidors com OpenAI. El repte ara serà traduir aquesta innovació tècnica en una major adopció entre usuaris i desenvolupadors.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply