Skip to main content

El 25 de setembre de 2025, OpenAI va presentar una nova avaluació anomenada GDPval amb el propòsit de mesurar com de bé els seus models —i els d’altres— rendeixen davant de tasques reals de coneixement econòmic. En lloc de sotmetre els models a exàmens acadèmics, aquesta prova els exposa a lliuraments autèntics: textos legals, plànols d’enginyeria, plans de cura sanitària, informes financers i més. La idea és avaluar productivitat, no només “intel·ligència”.

Què mesura exactament GDPval

La versió inicial de GDPval cobreix 44 ocupacions representatives de 9 indústries que aporten molt al producte interior brut dels EUA. Per a cada ocupació es van construir tasques reals —1.320 en total, amb un subconjunt obert de 220 “gold tasks”— dissenyades per professionals amb, de mitjana, 14 anys d’experiència. Cada tasca ve amb context, arxius de referència, plantilles, i demana resultats multimodals (gràfics, presentacions, documents amb estructura).

Com s’avaluen els resultats

Per qualificar-les, OpenAI va recórrer a jurats experts que, en condicions cegues (sense saber si el lliurament és humà o generat per IA), comparen qualitat, precisió, estil i utilitat. També van utilitzar un autograder —un sistema intern d’IA— per predir com jutjaria un humà, encara que reconeixen que aquest sistema automatitzat encara no pot reemplaçar l’avaluació humana.

Que tan bé ho fan els models

Els resultats, segons OpenAI, mostren avenços notables. Models com GPT‑5 i Claude Opus 4.1 han assolit rendiments que són “millors o al nivell de l’humà” —és a dir, empats o victòries en comparació amb experts— en una part significativa de les tasques del conjunt “gold”. En comparació amb GPT‑4o (versió de 2024), el progrés ha estat més que lineal: el rendiment “més que es va duplicar” de GPT‑4o a GPT‑5. A més, els models completen aquestes tasques unes 100 vegades més ràpid i amb costos bruts 100 vegades menors (considerant inferència i tarifes d’API).

Límits i advertències

Però l’anunci no manca de cautela. OpenAI adverteix que GDPval és una primera versió, limitada: moltes tasques reals no estan incloses, no captura iteracions múltiples, ni el valor del diàleg, l’adaptabilitat o la supervisió humana que apareix en entorns reals. I en el seu propi document afirmen que els èxits de velocitat o reducció de costos no comptabilitzen els costos d’integració, control de qualitat ni correccions humanes.

Més que intel·ligència: cap a una economia augmentada

Aquest tipus d’avaluació representa un canvi de paradigma: mesurar quanta “tasca útil real” pot fer un model d’IA, no només quan pot raonar en proves artificials. Per a empreses, això pot convertir-se en una mètrica per planificar automatització. Però també obliga a repensar quin valor distingeix l’humà: judici en l’ambigüitat, negociació, ètica, responsabilitat, adaptació davant el que és inesperat.

Una frontera que es mou

En conclusió, GDPval no anuncia que les IA substituiran massivament a treballadors d’oficina d’un dia per l’altre, però suggereix que la frontera entre “el que només pot fer un humà” i “el que ja pot fer una IA” s’està desplaçant ràpidament. Aquest tipus d’avaluacions permetrà traslladar el discurs de “revolució hipotètica” a “mesura concreta”. I en aquest encreuament, toca replantejar el treball del futur.

Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply