Skip to main content

Investigadors del Data Analytics Lab de la Vrije Universiteit Brussel, la KU Leuven i la Harvard University analitzen milers de referències generades per LLM i descobreixen una tendència a afavorir treballs molt citats, recents i amb formats més simples

A mesura que els grans models de llenguatge (LLM) s’integren cada cop més en el procés d’investigació científica, el seu impacte en pràctiques fonamentals com la citació d’estudis previs esdevé una àrea clau d’estudi. Una investigació recent liderada per investigadors del Data Analytics Lab de la Vrije Universiteit Brussel, la KU Leuven i la Harvard University va analitzar 274.951 referències generades per GPT-4o per a 10.000 articles científics i va descobrir que, tot i que les recomanacions de la IA són semànticament rellevants, introdueixen biaixos sistemàtics que podrien reforçar patrons de citació ja dominants.

L’estudi va avaluar la capacitat de GPT-4o de generar referències basant-se només en el títol, autors, any, revista i resum d’un article. Un dels resultats més significatius és que els LLM reforcen sistemàticament l’«efecte Matthew» a les cites: els treballs molt citats tendeixen a acumular encara més cites amb el temps. Quan una IA suggereix lectures sobre un tema, gairebé sempre assenyala els «supervendes» de la ciència: nou de cada deu cites corresponen al 10% d’articles més influents de la seva especialitat, i sis de cada deu pertanyen a l’1% més citat.

En altres paraules, la IA s’inclina clarament pels grans èxits abans que pels estudis menys coneguts, fet que també s’observa en patents, assajos clínics i mencions a la premsa i a les xarxes socials.

Biaixos de GPT-4o: de l’efecte Matthew a la preferència per la novetat

L’estudi va detectar altres patrons. GPT-4o prefereix treballs recents, títols curts i amb pocs autors. El primer reflecteix el nostre propi gust per allò nou; el segon coincideix amb la percepció que els títols concisos són més fàcils de recordar; el tercer contrasta amb la realitat que els equips de recerca solen ser nombrosos. Finalment, la IA mostra debilitat per les revistes de més renom, reforçant així l’efecte Matthew: a qui ja té visibilitat, se li dóna encara més.

Tot i aquests biaixos, la IA demostra bona punteria: quan proposa cites, acostuma a triar treballs que s’ajusten realment al tema (els científics ho mesuren amb un índex de «semblança» i la màquina empata amb els autors humans). Si dibuixem un mapa de «qui cita qui» només amb les referències de la IA, el gràfic s’assembla força al de les cites tradicionals. A més, GPT-4o comparteix poques cites amb la bibliografia original de l’article, fet que indica que no copia sinó que identifica patrons apresos durant l’entrenament i proposa estudis coherents amb la conversa.

De què ens serveix això? Els autors veuen els models de llenguatge com a aliats per resumir i descobrir literatura rellevant a gran velocitat, però adverteixen: la IA no replica al mil·límetre els nostres hàbits de citació i, a més, tendeix a reforçar els desequilibris existents. Si no controlem aquests biaixos, correm el risc que les grans veus apaguen els investigadors emergents i que la ciència esdevingui menys diversa. Entendre i corregir aquests efectes serà clau perquè la IA impulsi —i no distorsioni— el progrés científic.

Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply