Mentre altres empreses exploren ulleres intel·ligents o pantalles plegables, OpenAI està treballant en alguna cosa menys visible: una interfície de veu que funcioni com a porta d’entrada als seus models d’intel·ligència artificial, segons The Information. En els darrers mesos, la companyia ha reestructurat equips, accelerat desenvolupaments i afinat la seva tecnologia d’àudio. Tot apunta a un llançament el 2026 d’un dispositiu centrat en la veu.
Conversar amb una màquina sense que es noti
L’objectiu és que parlar amb una IA resulti tan fluid com una conversa entre persones. Per aconseguir-ho, OpenAI ha reunit els seus equips d’enginyeria, producte i recerca en una sola unitat centrada en l’àudio. El repte no és només que la màquina entengui el que es diu, sinó que ho faci amb interrupcions, matisos, preguntes a mitges o silencis còmodes. En resum, amb tot allò que fa que una conversa humana sigui natural.
El dispositiu: sense pantalla, però amb moltes possibilitats
Tot i que OpenAI no ha confirmat oficialment el producte, diverses filtracions i moviments interns apunten cap a un dispositiu sense pantalla, possiblement un wearable o un bolígraf intel·ligent. Dissenyat en col·laboració amb Jony Ive, exdirector de disseny d’Apple, el dispositiu seria multimodal, capaç de rebre i generar àudio, text i potser imatge, segons declaracions del mateix CFO de la companyia.
La veu com a porta d’entrada a la IA
El moviment no és aïllat. OpenAI busca avançar-se a un possible canvi de paradigma, d’interfícies tàctils a interfícies conversacionals. En aquest model, l’usuari no necessita mirar una pantalla ni teclejar, sinó simplement parlar. En contextos com el treball en mobilitat, l’assistència a persones grans o la creació de contingut en temps real, la veu pot oferir una experiència més còmoda i natural.
Dades, privacitat i altres dilemes oberts
Per funcionar amb fluïdesa, aquests sistemes necessiten processar àudio en temps real, sovint al núvol, cosa que planteja dubtes sobre privacitat i seguretat. OpenAI no ha detallat com gestionarà aquestes dades ni quina part del processament es farà localment. La tensió entre funcionalitat i privacitat, ja present en assistents com Siri o Alexa, es mantindrà també en aquest nou format.
Silicon Valley escolta
L’interès per l’àudio com a interfície no és exclusiu d’OpenAI. Startups com Humane o Rewind també han presentat dispositius basats en la veu. Apple i Meta treballen en experiències més naturals per als seus assistents. La diferència és que OpenAI controla també el motor de llenguatge, el seu model GPT-4, cosa que li permet oferir una experiència integrada i potencialment més sofisticada.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.