Un rigorós estudi publicat recentment planteja que els sistemes d’intel·ligència artificial dissenyats per actuar amb autonomia encara no estan preparats per substituir el treball professional d’alt nivell en contextos reals, i qüestiona la narrativa predominant sobre la seva arribada imminent al mercat laboral.
Gairebé dos anys després que alts executius del sector tecnològic prediguessin que la intel·ligència artificial reemplaçaria el treball del coneixement —les anomenades professions “white-collar” com a advocats, consultors, banquers o especialistes en TI—, la realitat comença a mostrar que aquest escenari encara està lluny de materialitzar-se. Encara que els models de llenguatge i els agents autònoms han avançat de manera impressionant, una avaluació meticulosa de capacitats en tasques laborals complexes posa en evidència limitacions significatives que no solen aparèixer en demostracions de producte o casos d’ús aïllats.
Una prova dissenyada per mesurar el que de veritat importa
La firma de dades i entrenament Mercor ha desenvolupat un nou benchmark anomenat APEX-Agents amb el propòsit d’avaluar la capacitat dels anomenats agents d’IA per dur a terme tasques que imiten el veritable treball professional. A diferència de proves més senzilles o d’entorns de laboratori, aquest benchmark construeix escenaris que reflecteixen activitats reals extretes de consultoria, banca d’inversió i dret, i que requereixen pensament prolongat, navegació de múltiples eines digitals i raonament cross-aplicació.
La metodologia de APEX-Agents parteix d’una anàlisi rigorosa de com treballen els professionals: no hi ha un únic context on es presenta tota la informació, sinó que es simula un entorn fragmentat i desordenat —com succeeix a la vida real— amb converses en plataformes de missatgeria, arxius en serveis compartits i documents en múltiples bases de dades. És precisament aquesta capacitat de navegar i sintetitzar informació distribuïda el que constitueix un dels obstacles més grossos per als agents actuals.
El nou benchmark APEX-Agents, que mesura la capacitat dels agents d’IA per dur a terme tasques reals de consultoria, banca d’inversió i dret, va revelar que fins i tot els models més avançats responen correctament a menys del 25% dels casos, exposant una bretxa crítica entre la promesa tecnològica i la practicitat en entorns professionals.
Resultats que posen fre a l’eufòria
Quan els models més avançats es van enfrontar a les preguntes del benchmark, cap va assolir nivells de precisió que permetin considerar-los fiables per a treball professional d’alt valor. Fins i tot els millors resultats es van limitar a menys d’una quarta part de respostes correctes en proves de “one-shot”, on el sistema ha de respondre de primera sense iteració o múltiples intents.
Per exemple:
- Un model líder va obtenir al voltant de 24% de precisió, tot just superant el llindar d’una de cada quatre respostes correctes.
- Altres models ben posicionats es van quedar prop del 18-23%, segons les mètriques inicials del benchmark.
Aquests percentatges reflecteixen no tant un fracàs estrepitós com una bretxa substancial entre les expectatives creades per la indústria i les capacitats reals. És a dir, ara com ara, un agent d’IA que treballi de forma autònoma amb el nivell d’un professional humà —capaç d’interpretar, navegar i sintetitzar informació transversal— encara no existeix en la pràctica.
Quines tasques es van tornar el veritable desafiament?
Els tests d’APEX-Agents van ser desenvolupats en col·laboració amb experts de mercats reals, que van definir què constitueix una resposta acceptable o “llesta per a client”. Una de les claus que fan tan exigent aquesta avaluació és la necessitat d’integrar contextos dispersos: revisar polítiques internes, creuar regulacions jurídiques europees, avaluar informació financera o interpretar múltiples fluxos de comunicació empresarial abans d’emetre un judici o recomanació fiable.
En un dels exemples més il·lustratius, els models van haver d’avaluar si una empresa podia tractar certes dades de producció basant-se en la seva pròpia política interna i legislació de privacitat comunitària. És el tipus d’anàlisi que requereix no només coneixements tècnics, sinó judici humà i contextualització profunda, qualitats que els sistemes avaluats encara no dominen.
Més enllà de la precisió: el repte del raonament cross-dominio
Un element crucial que emergeix d’aquest benchmark és el problema dels dominis múltiples: la capacitat per buscar, creuar i sintetitzar informació que no es presenta de forma consolidada. El CEO de Mercor, Brendan Foody, ha assenyalat que aquest aspecte representa un escull fonamental —molt més desafiant que respondre correctament a preguntes aïllades— perquè reflecteix fidelment com treballen les persones en entorns professionals, movent-se entre eines, converses i documents dispersos.
És precisament aquest tipus de raonament multi-tool i multi-source el que molts models encara no dominen bé. Encara que els agents poden “planificar” i executar tasques simples, el seu rendiment es dilueix notablement quan es requereix conservar context a llarg termini i aplicar judicis complexos que depenen de múltiples peces d’evidència.
Comparació amb altres mètodes d’avaluació
Alguns models han estat avaluats anteriorment amb benchmarks més generals —com els tests de coneixement professional o habilitats discursives— que ofereixen resultats més prometedors. No obstant això, la diferència amb APEX-Agents és que aquest últim no mesura únicament coneixement aïllat, sinó la capacitat d’executar treballs complexos en entorns realistes i distribuïts. En aquest sentit, APEX-Agents es perfila com una eina més adequada per respondre a la pregunta “pot aquest sistema realment treballa com un professional?”, en lloc de només saber coses.
El canvi tecnològic continua avançant… però no al ritme esperat
Encara que els resultats actuals semblen poc espectaculars, els autors del benchmark i experts del sector recorden que els sistemes d’IA han mostrat una millora molt ràpida fins i tot en proves exigents. Segons Mercor, el progrés recent suggereix que el que avui sembla un “intern digital” amb resultats correctes una de cada quatre vegades podria convertir-se en un col·laborador sòlid en pocs cicles de millora, donat el ritme accelerat de desenvolupament de models i arquitectures.
Això implica que la indústria no hauria de descartar el potencial dels agents d’IA, sinó replantejar com s’avalua el seu progrés i com s’introdueixen gradualment en entorns productius, començant per tasques complementàries o de suport i no substituint directament funcions professionals complexes com la presa de decisions estratègiques en dret o finances.
Impacte per a empreses i professionals
Per a empreses que ja estan explorant agents d’IA com a eines de productivitat, aquests resultats són una crida a la cautela. Encara que l’automatització de tasques rutinàries o parcials —com extracció d’informació, classificació de correus o generació d’esborranys— pot ser útil, dependre d’aquests sistemes per a treballs amb alt impacte —com assessorament legal o financer— encara no és viable sense supervisió humana intensa.
En sectors com la consultoria o la banca d’inversió, els líders tecnològics i de negoci hauran d’equilibrar expectatives d’eficiència amb la realitat de les limitacions actuals dels agents, dissenyant implementacions escalonades on la IA actua com a assistent o amplificador de capacitats humanes, no com a reemplaçament.
Cap a una avaluació més madura del paper de la IA en el treball
El benchmark APEX-Agents planteja una qüestió més profunda sobre com entenem el paper futur de la IA en el món laboral: ha de la tecnologia competir amb humans des del primer dia, o acompanyar-los com a eines cada vegada més capaces? La resposta a aquesta pregunta determinarà no només estratègies d’adopció tecnològica, sinó també polítiques públiques, formació professional i arquitectures organitzatives en empreses i administracions.
El que queda clar és que la narrativa simplista de “IA reemplaça treball del coneixement” no es sosté davant proves que aproximen models a situacions reals amb múltiples variables, informació distribuïda i necessitat de judici contextual. Encara queden passos significatius abans que els agents d’IA puguin ser considerats una força laboral autònoma, però el debat ha guanyat un nou marc empíric molt més sòlid gràcies a benchmarks rigorosos com APEX-Agents.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.