Skip to main content

OpenAI estrena GPT-Realtime-2 a l’API juntament amb nous models de traducció i transcripció en viu, una aposta per convertir la veu en la interfície natural dels agents d’IA capaços de mantenir context, utilitzar eines i resoldre tasques mentre la conversa continua oberta.

OpenAI ha fet un pas important en la cursa per convertir la veu en una interfície central de la intel·ligència artificial. La companyia ha presentat GPT-Realtime-2 a l’API, un nou model de veu en temps real dissenyat perquè els desenvolupadors construeixin agents capaços d’escoltar, raonar, mantenir una conversa fluida, utilitzar eines i actuar mentre l’usuari parla. L’anunci arriba en un moment en què la interacció per veu amb la IA comença a sortir del terreny anecdòtic per convertir-se en una forma pràctica d’abocar molt context sense escriure, demanar ajuda en moviment o delegar tasques complexes en converses naturals.

La novetat va ser avançada per Sam Altman a X amb una observació reveladora: cada vegada més persones estan utilitzant la veu per interactuar amb la IA, especialment quan necessiten transmetre molt context. El conseller delegat d’OpenAI va afegir que GPT-Realtime-2 arriba a l’API com “un pas bastant gran” i va assenyalar que la companyia treballa també en millores de veu per a ChatGPT. El seu comentari incloïa, a més, una intuïció generacional: els joves semblen preferir parlar amb la IA, mentre que la gent gran i els usuaris intermedis tendeixen més a escriure.

La publicació oficial d’OpenAI confirma que el llançament no es limita a un model aïllat. La companyia introdueix tres models d’àudio a l’API: GPT-Realtime-2, definit com el seu primer model de veu amb raonament de classe GPT-5; GPT-Realtime-Translate, orientat a traducció oral en viu des de més de 70 idiomes d’entrada cap a 13 idiomes de sortida; i GPT-Realtime-Whisper, un model de transcripció en streaming que converteix veu en text mentre la persona parla.

L’ambició és clara: passar de la veu com a dictat o interfície de consulta ràpida a la veu com a sistema operatiu conversacional. Fins ara, moltes experiències de veu amb IA continuaven sent essencialment torns de pregunta i resposta: l’usuari parlava, el sistema contestava, la conversa avançava de manera més o menys natural. GPT-Realtime-2 apunta a una altra cosa: agents que poden mantenir context durant sessions llargues, interpretar correccions o interrupcions, cridar eines externes, recuperar informació, actuar sobre sistemes i continuar la conversa sense trencar el flux. OpenAI afirma que aquests models mouen l’àudio en temps real des del simple intercanvi cap a interfícies que poden “escoltar, raonar, traduir, transcriure i actuar” mentre la conversa es desenvolupa.

La veu té un avantatge evident respecte al text: permet transmetre context de manera més ràpida, emocional i situada. Una persona pot explicar per veu un problema complex mentre condueix, camina per un aeroport, cuina, revisa un contracte, mostra un habitatge, atén un client o coordina una emergència. Teclejar obliga a condensar; parlar permet divagar, corregir-se, afegir matisos i canviar de direcció. Per a la IA, això obre un camp nou: no només respondre instruccions netes, sinó entendre converses reals, plenes d’interrupcions, reformulacions, dubtes i detalls imperfectes.

OpenAI estructura aquesta nova etapa al voltant de tres patrons emergents d’ús. El primer és “voice-to-action”: l’usuari descriu el que necessita i el sistema raona, utilitza eines i completa la tasca. La companyia cita l’exemple de Zillow, que està construint un assistent capaç d’escoltar peticions com trobar habitatges dins d’un pressupost, evitar carrers transitats i programar una visita per a un dissabte. El segon patró és “systems-to-voice”: el programari converteix context intern en orientació parlada, com una aplicació de viatges que avisa d’un retard, recalcula una connexió i ofereix una ruta dins de l’aeroport. El tercer és “voice-to-voice”: IA que facilita converses en diferents idiomes o contextos canviants, com suport al client multilingüe.

Aquests exemples mostren per què GPT-Realtime-2 no és només un avenç tècnic, sinó un canvi en el tipus de producte que es pot construir. Un assistent de veu tradicional respon a comandaments. Un agent de veu amb raonament pot coordinar processos. En un servei d’atenció al client, pot escoltar el problema, autenticar l’usuari, consultar una base de dades, obrir una incidència, explicar el resultat i escalar el cas si detecta risc. En una aplicació de viatges, pot modificar una reserva mentre l’usuari explica l’imprevist. En salut, pot acompanyar una preconsulta o transcriure una conversa clínica amb cauteles reguladores. En educació, pot dialogar amb l’alumne, traduir i adaptar el ritme d’explicació.

La diferència tècnica central està en la capacitat de mantenir la conversa viva mentre el model raona. OpenAI explica que GPT-Realtime-2 està construït per a interaccions de veu en directe en què el model ha de fer avançar la conversa mentre raona, crida eines, gestiona correccions o interrupcions i respon de manera adequada al moment. A més, la companyia amplia la finestra de context de 32K a 128K tokens per suportar sessions més llargues, coherents i complexes.

Aquest augment de context és clau per als agents de veu. Una conversa real no sempre es resol en dos torns. Un usuari pot començar explicant un problema, afegir restriccions, canviar d’opinió, corregir una dada, demanar una comparació i tornar a un punt anterior. En text, el context llarg ja era important; en veu, ho és encara més, perquè la conversa pot acumular informació de forma menys estructurada. La memòria de sessió permet que l’agent no obligui l’usuari a repetir el que ja ha dit i pugui operar amb una comprensió més completa de la tasca.

OpenAI també destaca millores en recuperació davant errors. GPT-Realtime-2 pot respondre amb més naturalitat quan alguna cosa no funciona o no entén una petició, en lloc de quedar-se bloquejat o trencar la conversa. Aquest detall pot semblar menor, però és crucial per a la veu. En text, un error es pot llegir, corregir i tornar a intentar. En veu, una pausa incòmoda, una resposta fora de lloc o una interrupció mal gestionada destrueix la sensació de fluïdesa. L’usuari espera que l’agent es comporti més com un interlocutor que com una API visible.

Les dades d’avaluació publicades per OpenAI apunten a millores respecte a GPT-Realtime-1.5. La companyia afirma que GPT-Realtime-2 obté un 15,2% més de puntuació a Big Bench Audio per intel·ligència d’àudio i que la versió xhigh millora un 13,8% a Audio MultiChallenge, una prova centrada en seguiment d’instruccions, integració de context, consistència i gestió de correccions naturals en diàleg parlat. Són xifres internes o seleccionades per la companyia, per la qual cosa s’han de llegir amb cautela, però assenyalen una direcció clara: la veu ja no es mesura només per latència o naturalitat, sinó per raonament conversacional.

El segon model, GPT-Realtime-Translate, apunta a un altre mercat enorme: la traducció oral simultània. OpenAI afirma que pot traduir parla en temps real des de més de 70 llengües d’entrada cap a 13 llengües de sortida, mantenint el ritme del parlant. La companyia el presenta com útil per a suport al client, vendes internacionals, educació, esdeveniments, mitjans i plataformes de creadors.

La traducció en viu no és una funció nova al mercat, però la seva integració en una API d’agents sí que canvia l’abast. No es tracta només de traduir una frase, sinó de sostenir una conversa on el sistema pot mantenir context, transcriure, traduir i eventualment activar eines. En atenció al client, per exemple, una persona podria parlar en el seu idioma, l’agent traduir, consultar l’expedient, explicar la resposta i registrar el cas. En educació, un professor podria oferir una classe amb traducció simultània i transcripció. En esdeveniments o mitjans, les barreres de distribució global es redueixen.

El tercer model, GPT-Realtime-Whisper, porta la transcripció cap a escenaris de baixa latència. OpenAI el descriu com un sistema capaç de transcriure àudio mentre la persona parla, per generar subtítols en directe, notes de reunió, actualitzacions de workflow o documentació en temps real.

La documentació de l’API diferencia entre sessions de veu-agent, sessions de traducció i sessions de transcripció: les primeres responen a l’usuari i poden cridar eines; les segones tradueixen contínuament; les terceres emeten deltes de transcripció sense resposta parlada del model.

Aquest llançament s’inscriu en una tendència més àmplia: la IA comença a desplaçar-se de l’escriptori cap a l’entorn. Escriure continua sent precís, silenciós i controlable, però parlar és més natural quan la tasca ocorre mentre l’usuari fa una altra cosa. La veu permet una IA més ambiental, menys tancada en una pantalla. Pot acompanyar desplaçaments, tasques domèstiques, feina física, trucades, reunions i atenció al client.

La veu, tanmateix, no és automàticament superior. Té problemes propis: privacitat, soroll ambiental, errors de reconeixement, accents, interrupcions, torns solapats, dificultat per revisar respostes llargues i menor precisió quan es gestionen dades exactes. Un contracte, un càlcul fiscal o una instrucció mèdica poden exigir text, cites, taules o confirmacions explícites. Per això el futur més probable no serà veu contra text, sinó veu més text més pantalla: parlar per donar context, veure per confirmar, tocar per aprovar i llegir per verificar.

Amb GPT-Realtime-2, OpenAI vol que la veu deixi de ser una demostració simpàtica i es converteixi en infraestructura per a software. L’API obre la porta a assistents que atenen trucades, traductors que treballen en directe, transcriptors que documenten reunions, copilots que guien tasques i productes que s’utilitzen sense teclat. La companyia no està anunciant únicament millors veus, sinó una nova capa d’interacció entre persones, aplicacions i agents.

La gran pregunta serà si els usuaris confiaran prou. Parlar amb una IA pot ser més íntim que escriure-li. La veu revela to, emoció, dubtes i context ambiental. També pot fer que la IA sembli més present, més convincent i més humana. Això obliga a dissenyar límits clars: quan l’usuari parla amb una màquina, quines dades es guarden, quines accions s’executen, què es transcriu i com es protegeix la informació.

L’arribada de GPT-Realtime-2 a l’API confirma que la cursa de la IA ja no es mesura només en models de text més intel·ligents. La següent batalla és en l’experiència: latència, naturalitat, context, eines, traducció, veu, memòria de sessió i acció. La interfície que guanyi no serà necessàriament la més espectacular, sinó la que desaparegui millor dins de la tasca. Per a moltes situacions, aquesta interfície serà parlar.

Leave a Reply