Skip to main content

Quan Wikipedia i la intel·ligència artificial es creuen en els marges, el resultat no sempre és progrés. Un article recent a MIT Technology Review ho anomena «doom spiral», un cicle en què les llengües amb menys recursos són alimentades amb traduccions automàtiques defectuoses, que després contaminen les dades amb què s’entrena la següent generació de models. Les màquines aprenen de si mateixes. I aprenen malament.

Traduccions que es doblen com a miralls

Tot comença amb una intenció pràctica d’omplir de contingut les Wikipedies en idiomes poc representats. Però en molts casos, el contingut arriba per via automàtica. Es calcula que entre un 40% i un 60% dels articles en llengües africanes es recolzen en traduccions no revisades. A la Wikipedia en inuktitut, més de dos terços contenen segments generats per màquina. El problema no és només la falta de revisió. És l’eco. Aquests textos es converteixen en matèria primera per entrenar noves IA, que després repeteixen els mateixos errors. El que va començar com una ajuda per completar buits, acaba sent un cercle viciós: menys dades fiables, més errors, més dependència del que ja està malament.

Llengües que es deformen en el seu reflex digital

La promesa és que ningú quedi fora de la gran enciclopèdia lliure. Però l’execució deixa esquerdes. En fulfulde, una llengua del Sahel, la paraula «gener» es tradueix com «juny», «agost» o «setembre», segons el sistema. No és una anècdota. Per a qui cultiva segons el calendari, l’error importa. Les llengües no només viuen en els seus parlants. Viuen també en els textos que circulen. Si els materials disponibles ofereixen una versió distorsionada, els aprenentatges futurs es recolzaran en pilars torçats. En el món digital, això pot ser el principi de l’oblit.

Quan les dades no són suficients

L’escassetat és estructural. Moltes llengües simplement no tenen prou textos digitalitzats. El que existeix —sovint traduït automàticament— es reutilitza una vegada darrere l’altra, fins a tornar-se estàndard. Però no és un estàndard fiable, sinó l’únic disponible. I no totes les llengües parteixen igual. L’anglès, el castellà o el xinès tenen milions de pàgines per entrenar models. La resta, si no entra en els circuits econòmics o tècnics dominants, queda relegada. Es diu biaix estructural. Però també podria anomenar-se negligència digital.

Escriure des de dins, no traduir des de fora

Algunes iniciatives opten per un altre camí. Reunir parlants natius. Generar corpus des de zero. Validar-los a mà. Rebutjar les dreceres automàtiques. El català ha seguit aquest enfocament, i la seva salut digital ha millorat, segons l’informe European Language Equality (2022), que el situa entre les llengües no estatals millor preparades digitalment. També ho confirma Pangeanic, que destaca la col·laboració entre institucions, tecnòlegs i comunitats lingüístiques com a model replicable. No és només una qüestió tècnica. És política lingüística. I és comunitària. L’estudi Machines in the Margins ho mostra amb claredat: quan el contingut es genera sense intervenció humana, la qualitat cau. Però si les comunitats participen en la creació, la història canvia.

El que s’automatitza, el que es perd

Wikipedia és molt més que una base de dades. És, per a moltes llengües, la principal vitrina en línia. Si aquesta vitrina s’omple d’errors, no només es perd prestigi. Es perd utilitat. Es perd presència.

L’espiral no és inevitable. Però sí que exigeix decidir. Volem accessibilitat immediata, encara que amb contingut feble? O preferim processos més lents, però amb arrels fermes? En l’economia dels clics, la segona opció no sempre guanya. Però en la història de les llengües, pot marcar la diferència.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply