La cursa per desenvolupar agents d’intel·ligència artificial veritablement autònoms ha pres un nou rumb: la creació d’entorns simulats on aquestes IA puguin aprendre a operar com si fossin humans digitals. Silicon Valley ha girat la seva atenció —i el seu capital de risc— cap als entorns de reinforcement learning (aprenentatge per reforç), estructures simulades que permeten entrenar els agents d’IA en tasques complexes i seqüencials.
La idea no és nova. OpenAI va llançar el 2016 el seu “Gym” i DeepMind va assolir notorietat amb AlphaGo, ambdós exemples primerencs de l’ús d’entorns simulats. El que és nou avui és la combinació d’aquests espais amb models de llenguatge generatius molt més potents, com els transformadors actuals, capaços de generalitzar comportaments i adaptar-se a contextos variats. Ja no es tracta només de guanyar al Go, sinó de navegar un navegador web, comprar productes en línia, omplir formularis o interactuar amb programari empresarial.
L’article publicat per TechCrunch destaca com a actors clau de l’ecosistema tecnològic —des de startups emergents fins a grans proveïdors de dades— estan competint per construir el que molts comparen amb un “Scale AI, però per a entorns”. Empreses com Mechanize i Prime Intellect han sorgit amb aquesta missió, mentre que companyies ja consolidades com Mercor i Surge estan expandint les seves operacions per liderar aquesta nova fase. Surge, per exemple, ha creat una divisió dedicada exclusivament a entorns RL, mentre que Mercor aposta per desenvolupar simulacions específiques per a àrees com la medicina, el dret o la programació.
L’interès no és només tècnic, sinó econòmic. Segons The Information, Anthropic estaria considerant destinar més de mil milions de dòlars l’any vinent per a aquests fins. La magnitud d’aquestes inversions suggereix que els entorns RL no són una moda passatgera, sinó un component estructural de la pròxima generació d’IA.
Darrere d’aquesta tendència hi ha una convicció compartida: els datasets estàtics ja no són suficients. Perquè un agent d’IA pugui desenvolupar-se en el món digital amb eficàcia —com un assistent que gestioni emails, reservi vols o modifiqui fulls de càlcul— necessita enfrontar-se a entorns on pugui equivocar-se, rebre retroalimentació i aprendre.
Tot i això, hi ha interrogants. ¿Quina és la generalitzabilitat dels aprenentatges adquirits en entorns simulats? ¿Fins a quin punt poden aquests agents adaptar-se a tasques noves en contextos reals? El temps i les mètriques de rendiment diran si aquesta aposta transformarà el futur dels assistents digitals o si es quedarà com una promesa tecnològica més.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.