Skip to main content

En un moviment que podria redefinir l’entrenament de sistemes d’intel·ligència artificial, investigadors del Grup Alibaba han desenvolupat ZeroSearch, un marc d’aprenentatge per reforç que elimina la necessitat d’utilitzar motors de cerca reals durant l’entrenament

El entrenament de models de llenguatge a gran escala (LLM) que integren capacitats de cerca autònoma implica una enorme quantitat de consultes a motors de cerca, cosa que genera costos elevats i dades de qualitat imprevisible. Com assenyalen els investigadors: “L’entrenament mitjançant aprenentatge per reforç [RL] requereix execucions freqüents, que poden implicar centenars de milers de sol·licituds de cerca, la qual cosa comporta despeses importants en API i limita severament l’escalabilitat”.

La proposta de ZeroSearch consisteix a transformar un LLM, mitjançant petits ajustos, en un model de recuperació capaç de generar respostes simulades, tant rellevants com no rellevants, davant d’una consulta. A continuació, a través d’una estratègia d’entrenament pas a pas, el sistema degrada progressivament la qualitat dels documents generats, forçant el model a refinar la seva capacitat de recuperació. “El nostre principal descobriment és que els LLM han adquirit un coneixement extens del món durant el preentrenament a gran escala i són capaços de generar documents rellevants a partir d’una consulta de cerca”, explica l’anunci oficial.

Resultats prometedors amb un gran estalvi

Un dels aspectes més sorprenents de l’estudi és que els resultats de ZeroSearch no només coincideixen, sinó que en diversos casos superen els obtinguts amb motors reals. Un model amb 7.000 milions de paràmetres va igualar Google Search; un altre de 14.000 milions fins i tot el va superar. A més, s’aconsegueix una reducció radical de costos: entrenar 64.000 consultes amb Google via SerpAPI costaria uns 586,70 dòlars, davant dels 70,80 dòlars de ZeroSearch amb quatre GPUs A100. Això representa una reducció del 88%, un estalvi potencial enorme per a desenvolupadors i investigadors. “Això demostra la viabilitat d’utilitzar un LLM ben entrenat com a substitut dels motors de cerca reals en configuracions d’aprenentatge per reforç”, conclouen.

Més enllà de l’estalvi, el control que ofereix aquest sistema sobre el contingut d’entrenament és crucial. Els motors de cerca tradicionals introdueixen soroll i imprevisibilitat, mentre que un entorn simulat permet als desenvolupadors definir amb precisió les dades que rep la IA.

En un gir irònic, ZeroSearch podria fer menys rellevants els motors de cerca per al mateix desenvolupament d’IA. A mesura que els models es tornin més autosuficients, l’economia del desenvolupament d’intel·ligència artificial podria experimentar un gir. A més, Alibaba ha publicat el codi, els models i els conjunts de dades a GitHub i Hugging Face, facilitant la seva adopció per part de la comunitat.

Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Gerard Quintana

Periodista. M'encanta el periodisme i la tecnologia.

Leave a Reply