OpenAI ha presentat GPT-5-Codex, una versió ajustada del seu model GPT-5, entrenada amb un objectiu concret: programar. Però aquesta vegada no es tracta només de velocitat o precisió. Codex ha deixat de ser l’assistent que suggereix línies de codi. Ara es pren el seu temps. Raonar, revisar, corregir. Pot trigar segons, o quedar-se treballant més de set hores en una mateixa tasca. El nou no és el que fa, sinó com ho fa.
De suggeriments solts a cicles complets de treball
GPT-5-Codex no improvisa, planifica. Pot escriure una funció senzilla, sí, però també identificar un bug crític, reestructurar dependències, llançar tests i refer mòduls sencers si cal. Decideix quant esforç dedicar a cada encàrrec. A vegades n’hi ha prou amb segons. Altres, es queda processant durant hores sense intervenció humana.
Tot això és possible perquè ha estat afinat amb dades reals, codi, historial de versions, proves unitàries, tasques de refactorització. Segons OpenAI, el model ha estat entrenat no només per escriure, sinó per entendre el flux complet del desenvolupament de software.
També ajusta el seu consum: en tasques simples, utilitza fins a 93,7% menys tokens que la seva versió base. En les complexes, duplica l’esforç. És a dir, adapta el seu raonament al context sense necessitat d’intervenció externa.
El que canvia quan la màquina revisa el teu codi
Tres capacitats sobresurten: raonament sostingut, revisió tècnica i autonomia. GPT-5-Codex no només detecta errors; també comenta com un revisor experimentat. Sugereix millores, executa proves i decideix si la seva pròpia proposta funciona.
En proves internes, els comentaris que va generar van ser més encertats i menys dispersos. En projectes escrits en Python, Go o OCaml, el seu rendiment va superar el de versions anteriors. El rellevant no és que entengui el codi, sinó que comença a entendre el context.
A més, pot processar captures de pantalla per identificar errors visuals o problemes d’interfície. Analitza entrades visuals i retorna resultats il·lustrats amb imatges, útil en interfícies gràfiques o entorns web.
Quines dades ha vist i amb què l’han mesurat
Per entrenar-lo, OpenAI va utilitzar benchmarks com SWE-bench Verified, un repositori de tasques reals extretes de projectes de codi obert. Allà, el nou model va resoldre més problemes i amb millor qualitat que GPT-5 estàndard. També va ser avaluat amb còmits reals en producció, analitzats per enginyers humans. Van buscar correccions precises, impacte real i reducció d’errors. El model s’integra en múltiples entorns, des del terminal fins a GitHub, passant per ChatGPT en mòbil o la seva versió al núvol.
Quan pensar molt també té un cost
El raonament prolongat té avantatges. Però també implica preguntes pràctiques: quant costa deixar a un model processant durant hores? Com saber si utilitza bé aquest temps? I si s’equivoca, però de forma convincent? També hi ha qüestions de flux: com s’integra un agent autònom en un equip humà? Quines tasques deixem anar? Quines es revisen de nou, encara que la màquina digui que ja estan resoltes?
Què fa diferent a Codex davant d’altres agents
La competència es mou. Claude Code, Cursor, GitHub Copilot, tots volen ocupar aquest espai de copilot tècnic. El que OpenAI proposa amb Codex no és només una millora incremental, sinó un canvi de ritme. De resposta immediata a treball en segon pla. De suggeriment puntual a jornada estesa. Aquesta nova autonomia pot ser útil. O excessiva. Dependrà del projecte, del context i, sobretot, de quant estem disposats a deixar que pensi sol.
Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.