Fins ara, parlar amb ChatGPT implicava canviar de pantalla. Els qui activaven el mode de veu eren enviats a una interfície a part, sense text ni imatges, com si la conversa es traslladés d’habitació. La nova versió trenca aquesta barrera. Ara n’hi ha prou amb tocar la icona del micròfon i parlar directament, sense sortir del xat. La resposta arriba en veu, però també en text, i tot passa a la mateixa finestra. Una conversa contínua, sense interrupcions visuals ni salts de context.
You can now use ChatGPT Voice right inside chat—no separate mode needed.
You can talk, watch answers appear, review earlier messages, and see visuals like images or maps in real time.
Rolling out to all users on mobile and web. Just update your app. pic.twitter.com/emXjNpn45w
— OpenAI (@OpenAI) November 25, 2025
Què canvia en la pràctica
La transcripció apareix en temps real mentre es parla. No cal esperar que el sistema “pensi” per veure el que s’ha dit. I com que ja no s’abandona el fil principal, és possible veure imatges, mapes, gràfics o resultats de cerca en paral·lel. Tot en un mateix flux. Això converteix la IA en quelcom més semblant a un assistent que escolta, respon i mostra, sense exigir que es triï entre mirar o parlar.
Un mode estàndard i un altre més potent
La funció està disponible per a tots els usuaris, però amb diferències segons el pla. En la seva versió gratuïta, el mode de veu permet parlar, transcriure i rebre respostes parlades. Per a aquells que utilitzen GPT-4o, l’experiència és més precisa: hi ha menys latència, millor reconeixement de la parla i major capacitat per respondre en to natural. A més, continua estant disponible el mode clàssic —només veu, en pantalla a part— per a aquells que prefereixen una immersió sense distraccions.
Per a què serveix realment?
La integració del mode veu apunta a un ús més flexible. Es torna útil en moments en què escriure no és còmode com quan cuines, camines, o et mous. També pot facilitar el repàs d’idees en veu alta, dictar notes o fins i tot llegir textos amb una entonació propera a la humana. En l’àmbit de l’accessibilitat, investigacions recents mostren que aquestes funcions poden ajudar a persones amb baixa visió, encara que persisteixen desafiaments: en contextos dinàmics, com descriure una escena en moviment, la IA encara té marge d’error.
No és només una millora tècnica
Aquest pas arriba enmig d’una cursa entre plataformes per crear interfícies més humanes. La tendència ja no és només respondre bé, sinó fer-ho en el format que l’usuari prefereixi. Parlar, veure, escoltar i llegir, tot en un. ChatGPT s’alinea amb aquesta lògica, sense canviar el que pot fer, però sí com s’hi accedeix. L’experiència s’adapta al moment, hi ha mans lliures, però també context visual; hi ha veu, però sense sacrificar el que està escrit.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.