Music v2 no és només una millora tècnica d’ElevenLabs: és un senyal que la música generada per IA entra en la fase industrial, amb cançons completes, control per seccions, suport multilingüe, ús comercial i eines pensades per a creadors, desenvolupadors i marques.
ElevenLabs ha presentat Music v2, el seu nou model de generació musical per intel·ligència artificial, amb una promesa directa: millors veus, millor instrumentació, millors arranjaments en qualsevol gènere, suport multilingüe més sòlid i capacitats que fins ara no eren possibles. L’anunci, publicat per la companyia i difós també a X, situa ElevenLabs en una de les batalles més sensibles de la IA generativa: la creació de música completa, comercialment utilitzable i adaptable a les necessitats de músics, desenvolupadors, marques, agències i creadors de contingut.
La novetat no arriba de manera aïllada. ElevenLabs, coneguda inicialment per les seves eines de veu sintètica, doblatge, clonació vocal i generació d’àudio, fa mesos que construeix una plataforma musical més ambiciosa. A finals d’abril va presentar ElevenMusic, una aplicació per descobrir, remesclar, crear i monetitzar música generada o transformada amb IA, construïda sobre un model musical llicenciat. La companyia va explicar aleshores que ElevenMusic connecta escolta, remix i creació original en un mateix sistema, amb una capa pensada perquè els artistes puguin relacionar-se amb les seves audiències i generar ingressos.
Music v2 és el motor que reforça aquesta estratègia. Segons ElevenLabs, el nou model alimenta tres plataformes diferents: ElevenMusic, orientada a escoltar, remesclar i crear cançons; ElevenAPI, pensada perquè desenvolupadors integrin generació musical directament als seus productes; i ElevenCreative, dirigida a marques i equips de contingut que necessiten música descarregable per a anuncis, peces audiovisuals i contingut corporatiu. La companyia també ha reduït preus: fins a un 50% a Music v1 i Music v2 per a ElevenAPI i fins a un 40% per a clients self-serve d’ElevenCreative.
El salt tècnic més important és a l’estructura musical. Fins ara, moltes eines de música per IA impressionaven en clips breus, bases instrumentals o cançons d’aparença immediata, però patien quan calia sostenir una peça completa amb coherència. Music v2 promet avançar precisament en aquest terreny: permet construir cançons secció per secció —introducció, vers, tornada i altres parts— mantenint continuïtat i estructura. Això importa perquè la música no és una successió de sons agradables; és arquitectura emocional, repetició, tensió, resolució, contrast i memòria.
La nova versió introdueix també millores en inpainting musical. Això significa que l’usuari pot seleccionar una part concreta d’una cançó i regenerar només aquell fragment sense alterar la resta. En termes pràctics, permet canviar un pont, ajustar una entrada vocal, modificar una transició o corregir una secció feble sense destruir la tornada ni rehacer tota la peça. Per a creadors i productors, aquesta funció apropa la IA a un flux de treball més professional: no es tracta només de demanar una cançó i acceptar-ne el resultat, sinó de dirigir, corregir i refinar.
La companyia destaca també capacitats de complexitat vocal i compositiva. Music v2 pot, segons ElevenLabs, moure una cançó de l’òpera al heavy metal i tornar enrere, sostenir rap ràpid i lletres denses, i incorporar efectes sonors no musicals dins la pista sense trencar la coherència musical. Aquesta frase revela l’objectiu de fons: no produir només música de fons genèrica, sinó generar peces amb canvis, dramatisme, sorpresa, densitat lírica i control narratiu.
La millora multilingüe és un altre punt clau. ElevenLabs afirma que lletres, veus i arranjaments funcionen ara de manera més fiable en l’idioma en què s’escriuen. La pàgina del producte Music v2 menciona suport per a diversos idiomes, inclosos anglès, castellà, francès, alemany, japonès i molts més. Això és especialment important per a mercats com l’hispà, on la música no es pot limitar a traduir paraules: ha de respectar accent, mètrica, fraseig, prosòdia, cadència i naturalitat vocal.
Aquí ElevenLabs parteix amb avantatge reputacional. La companyia ja havia desenvolupat models de veu multilingüe, com Eleven Multilingual v2, que el 2023 va ser presentat amb suport per a 29 idiomes. Aquesta experiència en parla, entonació i expressivitat vocal explica per què la seva entrada a la música resulta especialment rellevant: cantar no és simplement parlar amb melodia, però la síntesi vocal expressiva és una de les bases perquè una cançó generada per IA resulti creïble.
El gran canvi, però, no és només tècnic. És comercial. ElevenLabs insisteix que Music v2 està entrenat únicament amb dades llicenciades i que les cançons generades estan autoritzades per a ús comercial, sense costos de sincronització ni retards per autoritzacions. En publicitat, vídeo corporatiu, continguts per a xarxes, videojocs, pòdcasts, branded content o campanyes digitals, aquesta promesa ataca un problema històric: llicenciar música pot ser car, lent i jurídicament complex.
Per a una marca, la possibilitat de descriure l’estat d’ànim sonor, el gènere, el tempo i la veu de marca, i rebre música utilitzable sense negociar drets de sincronització, pot canviar els temps de producció. ElevenLabs presenta ElevenCreative Music precisament amb aquest enfocament: música llicenciada a escala per a equips de contingut, amb instruccions més pròximes a un briefing creatiu que a un simple prompt tècnic.
La paraula “llicenciat” és decisiva. La indústria musical ha reaccionat amb enorme desconfiança davant molts models d’IA generativa pel possible ús de catàlegs protegits sense permís. Suno i Udio, dos dels noms més coneguts en música generada per IA, han estat al centre de debats i litigis sobre drets d’autor. ElevenLabs intenta diferenciar-se mitjançant una estratègia de col·laboració amb titulars de drets i models entrenats amb dades autoritzades. TechCrunch ja va recollir el 2025 que ElevenLabs llançava el seu generador musical afirmant que estava preparat per a ús comercial.
Aquesta promesa, tot i així, no elimina totes les preguntes. Els mateixos termes de Music estableixen restriccions importants: els usuaris no poden introduir noms reals o artístics d’intèrprets, compositors, títols de cançons, àlbums, editorials musicals o segells, ni fragments substancials de lletres que busquin referenciar una obra concreta. També es prohibeix generar sortides que infringeixin drets de tercers o imitin la veu, imatge o característiques identificables d’un artista de manera enganyosa o que suggereixi falsa associació.
Aquestes restriccions mostren la tensió central de la música per IA. L’usuari vol dir “fes-me alguna cosa com tal artista” perquè així funciona bona part del llenguatge quotidià de la creativitat. Però la indústria necessita impedir que els models es converteixin en màquines d’imitació d’artistes vius, morts o recognoscibles. La frontera entre inspiració, estil, referència i còpia serà una de les grans disputes legals i culturals dels pròxims anys.
Music v2 també apunta a un canvi de rol per als músics. La IA no substitueix automàticament la creació musical, però sí modifica la distribució del treball. Un compositor pot utilitzar-la per prototipar idees, provar arranjaments, convertir una lletra en una maqueta, explorar gèneres, generar bases o accelerar fases inicials. Un productor pot fer-la servir per buscar textures. Un creador de contingut pot obtenir música original sense recórrer a llibreries genèriques. Un desenvolupador pot integrar generació dinàmica en una aplicació. Una marca pot produir versions adaptades a mercats, formats i campanyes.
Però aquest nou escenari també pot precaritzar part de l’ecosistema. La música de llibreria, la composició per a publicitat de baix pressupost, els jingles, les bases per a vídeo, les peces corporatives i els encàrrecs funcionals són àrees vulnerables a l’automatització. Si una agència pot generar en minuts diverses opcions acceptables, alguns encàrrecs desapareixeran o es pagaran menys. El mercat no eliminarà els millors compositors, però sí que pot comprimir el valor de treballs intermedis.
La resposta no serà negar la tecnologia, sinó redefinir el valor humà. En un món on qualsevol pot generar una cançó funcional, el diferencial estarà en criteri, direcció, identitat, emoció, lletra, producció final, veu pròpia, interpretació, comunitat i relat artístic. La IA pot fabricar música; construir una carrera, una estètica recognoscible i una relació amb el públic continuarà sent una altra cosa. ElevenMusic intenta precisament situar-se en aquest espai participatiu, on artistes i fans no només consumeixen, sinó que remesclen, transformen i monetitzen.
La plataforma ElevenMusic ja va néixer amb aquesta lògica. ElevenLabs va afirmar que més de 4.000 artistes independents i emergents estaven creant a la plataforma en el moment del seu llançament, i que els usuaris podien descobrir música, remesclar-la canviant gènere o tempo, començar des d’una lletra, melodia o estat d’ànim i desenvolupar una pista completa. La companyia també planteja un model d’ingressos per a artistes en funció d’interacció i elegibilitat.
Aquesta idea converteix la música en un material més líquid. Una cançó ja no seria només un objecte tancat que s’escolta, sinó un punt de partida per a remescles, adaptacions i participació de fans. Això pot ampliar la vida d’una obra, però també desafia nocions tradicionals d’autoria. Qui és l’autor d’una versió creada per un fan amb IA sobre una base autoritzada? Quin percentatge correspon a l’artista original, a la plataforma, a l’usuari i al model? Quan una remescla és una obra nova i quan és explotació derivada? La tecnologia avança més ràpid que les respostes jurídiques.
La disponibilitat per API afegeix una altra capa. Quan Music v2 arribi plenament a ElevenAPI, podrà integrar-se en videojocs, aplicacions d’edició, plataformes de contingut, eines de màrqueting, apps de benestar, mons virtuals o experiències interactives. La música deixarà de ser un arxiu estàtic per convertir-se en una funció generativa: una banda sonora que s’adapta a l’usuari, a l’estat d’ànim, al ritme d’un joc, a una escena o a una campanya en temps real.
Aquest futur pot ser potent per a videojocs i experiències immersives. Una escena de tensió pot generar música dinàmica sense repetir bucles. Una app de fitness pot crear pistes adaptades al ritme de l’usuari. Un editor de vídeo pot produir música a mida per a cada clip. Una marca pot generar versions locals d’una mateixa identitat sonora. Un creador pot experimentar amb estils sense contractar músics per a cada maqueta. Però la facilitat també pot inundar el mercat de música indiferenciada.
La saturació serà inevitable. Si generar música es torna barat i ràpid, hi haurà més cançons, més pistes, més fons sonors, més jingles i més soroll. Plataformes de streaming, xarxes socials i biblioteques musicals hauran de gestionar una abundància extrema. El problema no serà crear música, sinó descobrir música rellevant. En aquesta economia, la curadoria, la reputació i l’autenticitat seran més importants que mai.
També hi haurà una batalla estètica. Molts models de música per IA tendeixen a produir resultats polits, correctes i previsibles. Sonen bé, però poden mancar de risc, imperfecció, tensió humana o estranyesa. La música popular no avança només per perfecció tècnica; avança per errors, accidents, personalitat, escena, context social i ruptura. Music v2 promet més control i complexitat, però el repte serà evitar que la generació massiva produeixi una homogeneïtzació sonora global.
La dimensió multilingüe pot ser un avantatge davant aquesta homogeneïtzació. Si la IA musical aprèn a respectar idiomes, accents, mètriques i estils locals, podria ampliar la creació en llengües menys dominants i facilitar que artistes o creadors produeixin en mercats diferents de l’anglòfon. Per al castellà, el català, el francès, el portuguès, el japonès o l’alemany, la qüestió no serà només que el model pronunciï bé, sinó que entengui com encaixa la llengua dins una melodia.
La regulació haurà de mirar de prop aquest camp. L’etiquetatge de continguts generats per IA, la protecció de drets d’imatge i veu, la traçabilitat d’obres, el repartiment d’ingressos, la protecció de menors i la transparència en plataformes musicals seran temes recurrents. Els termes d’ElevenLabs ja anticipen part d’aquestes tensions en prohibir usos en sectors sensibles, impedir referències directes a artistes i limitar imitacions enganyoses.
Per al mercat publicitari, Music v2 pot ser especialment atractiu. La música de campanya sol requerir velocitat, drets clars, adaptació a formats i coherència amb una marca. Una eina que generi peces amb briefing de mood, gènere, tempo i veu de marca pot reduir fricció. Però també obligarà agències i anunciants a preguntar-se quan una peça generada per IA s’ha de declarar, com es documenta el seu origen i quines garanties ofereix davant reclamacions futures.
Per a la indústria musical tradicional, el dilema serà més difícil. Rebutjar completament la IA pot deixar espai a nous actors. Abraçar-la sense regles pot erosionar el valor de compositors, intèrprets i productors. La via més probable serà una negociació: models entrenats amb llicències, repartiment d’ingressos, eines per a artistes, límits a la imitació, sistemes de detecció i noves formes de participació de fans.
La mateixa ElevenLabs sembla entendre que la legitimitat serà tan important com la qualitat tècnica. Music v2 no es presenta només com a “millor so”, sinó com a part d’un ecosistema amb dades llicenciades, ús comercial, restriccions d’imitació, plataformes diferenciades i models de monetització. Aquesta arquitectura busca respondre una pregunta que perseguirà tota la IA creativa: no n’hi ha prou que la màquina pugui crear; importa amb quines dades va aprendre, qui cobra, qui conserva drets i qui respon si hi ha conflicte.
La conclusió és clara: Music v2 marca una nova etapa en la música generativa perquè intenta unir qualitat, control, idiomes, llicències i distribució. ElevenLabs no vol limitar-se a oferir un generador de cançons; vol ocupar una part de la infraestructura creativa de la música digital. Vol servir el músic que prototipa, el fan que remescla, el desenvolupador que integra àudio dinàmic i la marca que necessita peces sonores sense esperes legals.
La pregunta de fons ja no és si la IA pot produir música convincent. Aquesta fase està quedant enrere. La pregunta és quin tipus d’ecosistema musical volem construir quan crear una cançó completa sigui tan fàcil com escriure una instrucció. Si la resposta respecta drets, remunera talent, amplia possibilitats creatives i manté espai per a la veu humana, la IA pot convertir-se en una eina poderosa. Si es limita a abaratir producció i omplir internet de música funcional sense ànima ni autoria clara, el cost cultural serà alt.
Music v2 arriba com a demostració tècnica, però també com a advertència industrial: la música entra en la mateixa transició que ja han viscut el text, la imatge i el vídeo. L’abundància artificial ha arribat al so. Ara comença la veritable prova: convertir aquesta abundància en valor, no en soroll.