Reddit ha iniciat una batalla legal que va més enllà de l’habitual. Acusa Perplexity AI i a tres empreses tecnològiques d’extreure massivament comentaris públics dels seus usuaris sense autorització. Què passa quan una conversa digital es converteix en matèria primera per a la intel·ligència artificial?
Com funciona el sistema d’extracció
La demanda sosté que Perplexity AI—juntament amb Oxylabs UAB (Lituània), AWMProxy (un antic botnet rus) i SerpApi (Texas)—hauria eludit barreres tècniques de Reddit per raspar comentaris a gran escala. El mètode, segons Reddit, inclou ocultar la identitat dels bots, emmascarar ubicacions i extreure dades fins i tot des de resultats de Google quan l’accés directe estava bloquejat. El maig de 2024, Reddit va enviar una carta de cessament i desistiment a Perplexity. Poc després, l’empresa hauria multiplicat per quaranta les cites a Reddit.
Què proposa Perplexity AI
Perplexity es presenta com un «motor de respostes», una alternativa als cercadors tradicionals basada en IA. La seva promesa són respostes ràpides i fonamentades, amb cites visibles a les fonts originals. En la seva defensa, Perplexity afirma que «defensarà sempre el dret dels usuaris a accedir lliurement al coneixement públic». No obstant això, Reddit ja ha signat acords de llicència amb OpenAI i Google per compartir les seves dades sota condicions pactades.
El valor de les dades conversacionals
Les dades implicades són els comentaris públics de Reddit, generats en milers de subcomunitats temàtiques. L’empresa els considera un dels seus actius més valuosos i ha optat per llicenciar el seu ús de forma controlada. Segons la demanda, alguns actors han esquivat mesures com l’arxiu robots.txt, límits de taxa o bloquejos automatitzats per accedir a aquestes dades sense autorització expressa.
Tensions múltiples en el model d’IA
El cas planteja diverses friccions centrals en l’era dels models de llenguatge. Una d’elles és la tensió entre el «públic» i el «propietari», encara que els comentaris a Reddit són accessibles, l’empresa argumenta que la seva recol·lecció massiva sense permís ni compensació constitueix una extracció il·legítima. També entra en joc el dilema de l’entrenament d’IA, que requereix volums massius de text que, en molts casos, es recopilen sense acords formals.
A això se suma el debat sobre l’eficàcia dels mecanismes tècnics de control. Reddit, per exemple, ja ha modificat el seu arxiu robots.txt per bloquejar bots no autoritzats. Mentrestant, el rol de l’usuari final queda desdibuixat, les seves aportacions, encara que públiques, es transformen en inputs per a productes comercials. Finalment, si la demanda prospera, podria establir un precedent legal que redefineixi quins continguts poden usar-se lliurement per entrenar models d’IA i quins requereixen una llicència expressa.
Un conflicte que no és nou
Reddit no és l’única ni és la primera. Ja el juny de 2025 va demandar a Anthropic per raons similars. La pràctica del scraping afecta també mitjans de comunicació i editors, que reclamen protecció davant d’extraccions massives. A més, investigacions prèvies van assenyalar que Perplexity podria utilitzar rastrejadors que ignoren directives bàsiques de respecte a robots.txt, cosa que l’empresa nega, però que genera dubtes sobre les seves pràctiques.
Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.