El model Lyria 3 de DeepMind permet crear cançons completes amb veu, lletra i estil a partir d’una simple descripció, integrant la composició musical dins el flux quotidià de Gemini.
Google ha fet un pas decisiu en l’evolució de la intel·ligència artificial creativa en incorporar capacitats de generació musical directament dins de l’aplicació Gemini. La nova funció, basada en el model Lyria 3 desenvolupat per Google DeepMind, permet a qualsevol usuari crear cançons originals a partir d’instruccions en llenguatge natural, imatges o vídeos, consolidant un canvi estructural en la manera com la música pot concebre’s, produir-se i distribuir-se en l’era de la intel·ligència artificial.
L’anunci, publicat al blog oficial de Google i detallat en la cobertura tecnològica recent, confirma que la generació musical deixa de ser una eina experimental per convertir-se en una capacitat integrada dins d’un assistent generalista.
Aquesta integració no és un afegit marginal, sinó un senyal clar que els assistents d’intel·ligència artificial evolucionen cap a entorns de creació multimodal completa, capaços no només de generar text o imatges, sinó també música original amb coherència estètica, narrativa i emocional.
D’escriure prompts a compondre cançons: la música com a interfície conversacional
La nova funció musical de Gemini introdueix un paradigma radicalment diferent del de les eines tradicionals de producció musical. En lloc de treballar amb instruments, programari d’edició o interfícies tècniques complexes, l’usuari descriu en llenguatge natural el tipus de cançó que vol crear. La intel·ligència artificial interpreta aquesta instrucció i genera automàticament una peça musical completa.
Això inclou no només la composició instrumental, sinó també la lletra, la veu i elements visuals com la portada del tema, generada mitjançant un altre sistema d’intel·ligència artificial anomenat Nano Banana. El resultat és una experiència de creació musical que s’aproxima més a una conversa que a un procés tècnic convencional.
Per exemple, un usuari pot demanar a Gemini que generi “una balada còmica de R&B sobre un mitjó que troba la seva parella”, i el sistema produirà una pista original d’uns 30 segons amb veu sintetitzada, lletra coherent i estil musical alineat amb la descripció.
Aquest enfocament transforma l’acte de compondre en una activitat accessible per a qualsevol persona, independentment de la seva formació musical. La barrera d’entrada deixa de ser tècnica i passa a ser conceptual: l’important no és saber produir música, sinó imaginar-la.
Lyria 3: el model que converteix el llenguatge en so
El nucli tècnic d’aquesta nova capacitat és Lyria 3, el model de generació musical més avançat desenvolupat per Google DeepMind fins ara. Aquest sistema utilitza tècniques d’aprenentatge profund entrenades amb grans volums de dades musicals per comprendre les relacions entre ritme, harmonia, timbre, estructura i emoció.
A diferència de generacions anteriors de models musicals, Lyria 3 introdueix millores significatives en diversos aspectes crítics:
- Major realisme en la interpretació vocal
- Coherència estructural més sòlida
- Capacitat de mantenir continuïtat musical
- Control més precís sobre estil, tempo i atmosfera
Això permet que les cançons generades no siguin simples fragments experimentals, sinó composicions completes amb estructura recognoscible.
El model també permet a l’usuari ajustar paràmetres com el gènere musical, la velocitat, el tipus de veu o la intensitat emocional, fet que introdueix una capa de control creatiu que combina automatització i intervenció humana.
De la imatge al so: la generació musical multimodal
Una de les característiques més innovadores d’aquesta nova funció és la seva capacitat multimodal. Gemini no només pot generar música a partir de text, sinó també interpretar imatges o vídeos com a entrada creativa.
Això significa que un usuari pot pujar una fotografia —per exemple, un paisatge urbà nocturn— i demanar a Gemini que creï una cançó que en capturi l’atmosfera visual. El sistema analitza els elements visuals i en tradueix les característiques emocionals en paràmetres musicals.
Aquest procés representa un canvi fonamental en la relació entre mitjans visuals i sonors. La intel·ligència artificial actua com un traductor entre modalitats sensorials, convertint estímuls visuals en composicions musicals coherents.
La música deixa de ser una forma d’expressió aïllada per convertir-se en una extensió directa d’altres formats creatius.
YouTube Dream Track: expansió de l’ecosistema creatiu
La integració de Lyria 3 no es limita a l’aplicació Gemini. Google també ha estès aquest model a YouTube mitjançant la funció Dream Track, que permet als creadors generar música original per als seus vídeos.
Aquesta funció, inicialment disponible només als Estats Units, s’està expandint globalment, cosa que indica una estratègia clara: integrar la generació musical dins l’ecosistema complet de creació de contingut.
Això té implicacions significatives per als creadors digitals, que podran generar bandes sonores originals sense dependre de llicències externes o producció tradicional.
La intel·ligència artificial es converteix així en una infraestructura creativa integrada dins les plataformes de distribució.
Música original, no imitació: el dilema de l’autoria
Un dels aspectes més sensibles de la generació musical amb IA és la relació amb els estils existents i els drets d’autor. Google ha establert restriccions explícites per evitar que els usuaris imitin directament artistes específics.
Tot i que és possible sol·licitar cançons inspirades en un estil o atmosfera determinada, el sistema està dissenyat per generar composicions originals, no rèpliques directes.
Google ha implementat filtres tècnics per detectar similituds excessives amb material existent i evitar infraccions de copyright.
A més, totes les cançons generades inclouen una marca d’aigua digital anomenada SynthID, que permet identificar-ne l’origen artificial.
Aquest sistema actua com a mecanisme de traçabilitat, facilitant la detecció de contingut generat per intel·ligència artificial.
La democratització de la creació musical
La incorporació de la generació musical a Gemini representa un pas decisiu cap a la democratització de la creació artística. La música deixa de ser un domini exclusiu de músics professionals per convertir-se en un mitjà accessible universalment.
Aquest fenomen té paral·lelismes amb l’evolució de la fotografia digital o el vídeo mòbil, que van transformar activitats especialitzades en pràctiques quotidianes.
La intel·ligència artificial no elimina el talent humà, però redefineix el paper del creador. L’usuari passa de ser executor tècnic a ser director conceptual.
El centre del procés creatiu es desplaça de l’execució cap a la intenció.
Un nou model de creativitat híbrida
La integració de música generada per IA dins assistents com Gemini reflecteix una transformació més profunda en la naturalesa de la creativitat digital.
La intel·ligència artificial no substitueix el creador humà, sinó que amplifica la seva capacitat d’expressió.
La creativitat es converteix en un procés híbrid on la imaginació humana defineix l’objectiu i la intel·ligència artificial executa la materialització.
Aquest model redefineix la relació entre idea i resultat.
Implicacions econòmiques i culturals
La generació musical automatitzada també planteja preguntes sobre el futur de la indústria musical.
D’una banda, facilita la creació i redueix costos. De l’altra, introdueix noves dinàmiques de competència i redefinició del valor creatiu.
La música deixa de ser un recurs escàs des del punt de vista tècnic, però manté el seu valor com a expressió cultural.
El repte no és tecnològic, sinó econòmic i social.
L’assistent que crea, no només respon
La incorporació de generació musical marca una nova fase en l’evolució dels assistents d’intel·ligència artificial.
Gemini deixa de ser només una eina de consulta per convertir-se en un entorn creatiu complet.
L’assistent no només respon preguntes. Produeix art.
Aquest canvi redefineix el paper de la intel·ligència artificial en la vida quotidiana.
No és només una eina de productivitat.
És una eina de creació.