Skip to main content

La nova funció de la IA de Google permet pujar àudios i obtenir transcripcions o resums en segons

Una funció per a aquells que escolten més del que escriuen

Des d’aquesta setmana, Gemini —la intel·ligència artificial de Google— no només genera textos o respon preguntes. Ara també entén arxius d’àudio. A la web i les apps mòbils, els usuaris poden pujar gravacions i demanar-li que les transcrigui, resumeixi o expliqui el seu contingut. La promesa és clara: convertir la veu en text sense esforç, útil per a estudiants, periodistes o qualsevol que faci servir notes de veu com a memòria portàtil.

Un clic, un àudio, un resum

El procés és senzill. N’hi ha prou amb prémer la icona “+” a Gemini, pujar un arxiu d’àudio (MP3, WAV, M4A o FLAC) i escriure una instrucció com “Transcriu-lo” o “De què tracta aquest àudio?”. En segons, la IA torna una transcripció paraula per paraula, o un resum del contingut. També pot respondre preguntes sobre l’arxiu, com si l’estigués escoltant amb tu. Això sí, els àudios de WhatsApp no entren en el joc directament, perquè estan en format OPUS i requereixen conversió prèvia.

Límits segons el que paguis

El servei té els seus marges. Els usuaris gratuïts poden analitzar àudios de fins a 10 minuts. Els subscriptors de Gemini Advanced, en canvi, poden processar arxius de fins a tres hores. En tots els casos, el sistema permet pujar fins a deu arxius alhora, sempre que el pes total no superi els 100 MB.

Què pot fer i per a qui serveix

Per a qui grava classes, entrevistes, reunions o idees al vol, aquesta funció pot estalviar temps i errors. Les transcripcions permeten repassar, citar o arxivar amb més precisió. Els resums poden convertir una conversa en una llista de temes clau. I la possibilitat de fer preguntes al contingut obre la porta a una forma de navegació més activa, no només llegir el que es va dir, sinó interactuar amb això. L’eina se suma així a una tendència més àmplia de fer que els àudios, tradicionalment difícils de cercar o consultar, es tornin llegibles i reutilitzables.

Una orella útil, però no del tot transparent

L’anunci de Google no aclareix què passa amb els arxius després de ser processats. Es guarden? Qui hi té accés? Tampoc hi ha detalls sobre com es gestiona la privacitat o si les dades alimenten futurs entrenaments d’IA. Són preguntes que es repeteixen en cada nova funció, i que segueixen sense resposta clara. A més, l’eficàcia de la transcripció pot variar segons la qualitat de l’àudio, els accents o el soroll ambient. L’eina promet molt, però encara no garanteix comprensió universal.

No només a l’app: també al núvol

Més enllà de l’ús quotidià, Google ha integrat aquesta capacitat en la seva plataforma per a desenvolupadors. Gemini pot analitzar àudio des de Vertex AI i Google AI Studio, generant resums, etiquetes o descripcions. Empreses ja l’utilitzen per subtitular vídeos, transcriure trucades o millorar l’accessibilitat en productes digitals. En aquest nivell, la IA no només escolta: també ordena, classifica i optimitza.

La veu com a nou text

Gemini comença a tancar el cercle: veure, llegir, escriure… i ara, escoltar. Ho fa sense soroll, amb una funció que sembla petita però que pot canviar rutines.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply