La notícia és senzilla en aparença, però amb ecos que poden ressonar fort, Microsoft ha presentat el seu primer model de generació d’imatges desenvolupat íntegrament dins de la casa. El diuen MAI‑Image‑1, i ja ha irromput en el top 10 de LMArena. Aquest rànquing és simbòlic, no només demostra potència tècnica, també apunta cap a una estratègia d’autonomia davant de models externs.
Un model que dibuixa sense sortir de casa
Des de la versió oficial, Microsoft destaca que MAI‑Image‑1 està optimitzat per generar imatges fotorrealistes, amb especial atenció al tractament de la llum com reflexos, ombres o profunditat visual. També emfatitza la rapidesa: davant de models més grans, aquest permetria iterar idees amb més agilitat.
No s’han fet públics detalls com arquitectura, volum de paràmetres o datasets concrets. Com a validació primerenca, Microsoft l’ha posat a prova en LMArena, una plataforma de comparació directa entre models mitjançant vots humans.
Què és LMArena i per què importa?
LMArena és una plataforma oberta on usuaris comparen imatges generades per diferents models d’IA a partir del mateix text. Es mostren parells d’imatges sense indicar el seu origen i es demana triar la més convincent. Aquests vots humans es tradueixen en un rànquing dinàmic, on els models pugen o baixen en funció de les preferències col·lectives. La presència de MAI‑Image‑1 en el top 10 indica que, almenys en proves visuals comparatives, competeix de tu a tu amb referents del sector.
El que promet: menys artifici, més control
La proposta no es tracta només de generar imatges, sinó de fer-ho amb versatilitat i criteri. Microsoft afirma que MAI‑Image‑1 evita sortides repetitives o efectes genèrics, gràcies a una selecció acurada de dades i retroalimentació de professionals creatius. El model busca adaptar-se a diferents estils visuals sense imposar-ne un de propi. I, segons l’empresa, aviat s’integrarà en eines com Copilot o Bing Image Creator, i això podria suposar un canvi de peça dins de l’engranatge habitual.
Dades, vots i validacions creuades
En la taula de Text-to-Image Arena, publicada el 12 d’octubre, MAI‑Image‑1 apareix en novena posició amb una puntuació de «1096 (±94,091)». Aquesta classificació és preliminar i basada en comparacions visuals entre models, no en mètriques tècniques internes. No és un cas aïllat, a l’agost, Microsoft va llançar també els seus models MAI‑Voice‑1 i MAI‑1‑preview, tots sota el paraigua de construir IA amb segell propi.
Ecosistemes que volen el control de la imatge
Fins ara, eines com Bing Image Creator usaven tecnologia externa (per exemple, DALL·E). Amb aquest model, Microsoft busca tancar el cercle i controlar tota la cadena, des de la generació fins a la integració. El resultat a curt termini és un model que ja figura entre els deu més votats de l’entorn. El repte a mitjà termini és mantenir-se competitiu, diversificat i transparent en un espai on els detalls tècnics importen tant com les imatges finals.
Una imatge que Microsoft vol signar
Amb MAI‑Image‑1, Microsoft no només presenta un model, també llança una declaració d’intencions. Crear imatge amb segell propi, accelerar la producció visual i quedar-se amb tot el procés. La qualitat de les imatges, la seva diversitat estilística i la robustesa davant d’usos extrems posaran a prova aquesta ambició. Per ara, el primer traç ja està fet. I apunta cap a dins.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.