Skip to main content

Google no només millora la naturalitat de la veu sintètica: amb Gemini 3.1 Flash TTS transforma el to, el ritme, els accents i la intenció en variables controlables des del mateix text.

La cursa de la intel·ligència artificial ja no es juga només en els models que escriuen millor, raonen més o responen més ràpid. Un dels fronts més decisius, i potser menys visibles per al gran públic, és el de la veu. Qui aconsegueix que una màquina no només llegeixi un text, sinó que el interpreti. Que sàpiga quan abaixar el volum, on inserir una pausa, com sostenir una emoció, quin accent convé a cada mercat i quin ritme necessita una narració. És aquí on Google ha fet un pas endavant amb Gemini 3.1 Flash TTS, un model de text a veu que introdueix un nivell de control i expressivitat molt més sofisticat que els sistemes tradicionals.

La novetat no és només que la veu soni més natural. Aquest era, fins fa poc, l’argument habitual de qualsevol tecnologia TTS. El que canvia ara és el grau de direcció creativa que permet el model. Google el planteja com un sistema capaç d’obeir instruccions en llenguatge natural i també etiquetes dins del text per modular la interpretació: pauses, xiuxiueigs, èmfasi, canvis d’energia, tensió, entusiasme o curiositat. La veu deixa de ser una sortida mecànica per convertir-se en una superfície programable.

Aquest matís és clau perquè redefineix el valor de la síntesi de veu. Durant anys, aquestes eines han estat útils per a accessibilitat o locucions bàsiques, però amb limitacions evidents: podien sonar correctes, fins i tot agradables, però no realment interpretades. En canvi, Gemini 3.1 Flash TTS s’acosta a una locució dirigida, amb capacitat de controlar estil, accent, tempo i intenció directament des del prompt.

De la lectura automàtica a la interpretació dirigida

Gemini es construeix sobre una idea potent: el text ja no només conté el missatge, sinó també les instruccions d’execució. Això significa que el guió integra la direcció vocal. Un editor, un periodista o un equip de màrqueting poden decidir no només què es diu, sinó com sona.

Google afirma que el sistema funciona en més de 70 idiomes i variants regionals, amb capacitat d’adaptació a contextos culturals diferents. Aquest punt és especialment rellevant en mercats com el hispanoparlant, on la diferència entre un accent neutre, un castellà peninsular o una variant llatinoamericana pot determinar la percepció del contingut.

El control d’aquests matisos ja no depèn exclusivament de la selecció d’una veu predefinida, sinó de la capacitat d’indicar-ho dins del text. Això redueix costos, temps de producció i dependència de processos externs.

Els “tags”: la nova direcció d’actors sintètics

Un dels elements més destacats del model són els anomenats audio tags. Es tracta d’etiquetes que s’insereixen en el guió per definir com s’ha d’interpretar cada fragment. Google parla de més de 200 possibilitats: determinació, entusiasme, nerviosisme, admiració, frustració, tensió o fins i tot rialles.

Aquest sistema trasllada la direcció d’actors —tradicionalment humana— al terreny de la programació textual. Ja no cal ajustar múltiples paràmetres tècnics en interfícies separades. El control es concentra en el mateix text.

El resultat és una acceleració clara dels fluxos de treball. Es poden generar múltiples versions d’una mateixa peça —més formal, més propera, més dinàmica— en qüestió de segons. La síntesi de veu adopta així la lògica iterativa pròpia de la IA generativa.

De funcionalitat tècnica a infraestructura de producte

Google no presenta aquest model com una eina aïllada, sinó com una capa transversal. Està disponible a Google AI Studio per a desenvolupadors, a Vertex AI per a empreses i ja s’ha integrat a Google Vids dins de l’ecosistema Workspace.

Aquest desplegament indica una estratègia clara: convertir la veu en una funcionalitat estàndard dins de qualsevol producte digital. Des de vídeos corporatius fins a assistents virtuals, passant per formació, atenció al client o contingut editorial.

El fet que Google Vids incorpori noves veus conversacionals i la possibilitat de controlar emocions directament reforça aquesta idea. La tecnologia deixa de ser experimental i entra en els fluxos habituals de creació.

Impacte en el mercat i pressió sobre la indústria

Aquest tipus de models no només competeixen amb altres sistemes de TTS. També entren en el terreny de la producció audiovisual tradicional. Estudis de locució, serveis de doblatge, freelancers i equips interns poden veure com part del seu treball es transforma o es redueix.

No es tracta d’una substitució immediata del talent humà, especialment en produccions d’alt nivell. Però sí d’una erosió progressiva del segment intermedi: vídeos de producte, tutorials, contingut corporatiu, e-learning o notícies automatitzades.

La clau no és només la qualitat, sinó la combinació de qualitat, velocitat i cost.

Rendiment, especialització i nova arquitectura de models

Google situa Gemini 3.1 Flash TTS com un model optimitzat per producció a escala, amb bons resultats en benchmarks basats en preferències humanes. Més enllà de les xifres, el rellevant és el posicionament: un sistema prou bo per a usos reals, no només per a demostracions.

A més, la companyia diferencia clarament entre models de veu per a conversa en temps real i models per a locució dirigida. Aquesta segmentació respon a una realitat tècnica: no totes les veus serveixen per a tots els usos.

Això apunta cap a un futur amb famílies de models especialitzats, en lloc d’un únic sistema universal.

Seguretat i traçabilitat en l’era de la veu sintètica

Com més realista és la veu artificial, més rellevants són els riscos associats. Google incorpora SynthID, una marca d’aigua digital en l’àudio generat per facilitar la identificació de contingut creat amb IA.

Aquest tipus de mesures no eliminen el risc de manipulació, però indiquen que la indústria és conscient del problema. La credibilitat de la veu sintètica obliga a reforçar els mecanismes de control.

Cap a una nova economia de la veu

El moviment de Google no és només tecnològic, sinó estratègic. La veu és l’última capa per completar l’ecosistema multimodal: text, imatge, vídeo i ara també interpretació sonora.

En aquest context, el valor no serà només generar veu, sinó controlar-la. Qui domini aquesta capa tindrà un avantatge en la creació de productes digitals complets, escalables i adaptables a múltiples mercats.

Gemini 3.1 Flash TTS apunta precisament en aquesta direcció: convertir la veu en una extensió programable del text. I, amb això, redefinir la manera com es produeix, es distribueix i es consumeix el contingut.

Leave a Reply