Google ha incorporat a Gemini, la seva intel·ligència artificial avançada, la capacitat de convertir documents en àudio natural directament des de Google Docs. Aquesta nova funció, anunciada el 19 d’agost de 2025 a The Verge, permet als usuaris escoltar documents en anglès en versió d’escriptori, amb veus personalitzables i control de velocitat.
Com funciona: dos accessos, una experiència fluida
Els lectors poden activar la funció des del menú Eines > Àudio > Escoltar aquesta pestanya, el que desplega un reproductor flotant amb controls de velocitat i selecció de veu. Per la seva banda, els autors poden inserir directament un botó d’àudio en el document (Insereix → Àudio), personalitzable en etiqueta, color i mida, perquè qualsevol pugui escoltar amb un sol clic.
Objectius: accessibilitat, revisió i flexibilitat de consum
La inclusió d’aquesta funcionalitat no és merament estètica: millora l’accessibilitat i la revisió de textos (permetent detectar errors en escoltar-los), i ofereix una alternativa per a aquells que prefereixen absorbir informació escoltant mentre realitzen altres tasques.
Qui pot utilitzar-ho? Rols, plataformes i limitacions
Per ara, la funció està disponible únicament en anglès i en la versió d’escriptori. El desplegament va començar el 18 d’agost de 2025 per als dominis de llançament ràpid, i continuarà en els dominis de llançament programat a partir del 25 d’agost. Només els usuaris amb plans de Google Workspace (Business Standard/Plus, Enterprise Standard/Plus, Education/education Premium, o antics add-ons Gemini Business/Enterprise) i subscriptors AI Pro o Ultra poden accedir a la funcionalitat.
Història recent: podcasts, resums i l’evolució de Gemini
A l’abril de 2025, Google ja havia anunciat la integració de “podcasts AI” a Docs, on Gemini convertia documents en resums parlats per IA. Aquesta faceta d’àudio s’ha anat refinant fins a arribar a aquesta experiència millorada de lectura completa, més accessible i directa. La preexistent funció Audio Overview, disponible a NotebookLM i l’app Gemini en mòbils, permetia convertir documents (PDF, DOCX, TXT, etc.) en resums tipus podcast amb narradors IA.
Panorama general: IA al servei de la productivitat
Aquest avenç representa una evolució notable en com interactuem amb els nostres escrits. Gemini ja no només genera text, sinó que també el narra, facilita la seva revisió i amplia la seva accessibilitat. En un entorn professional o educatiu, l’impacte és evident: s’adapta a diferents estils de consum d’informació, reforça la revisió i potencia l’eficiència en la gestió de continguts.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.