La indústria de la intel·ligència artificial podria estar a punt d’arribar a un punt d’inflexió en el desenvolupament de models de raonament
La promesa dels models de raonament, com el o3 d’OpenAI, ha estat durant mesos una de les grans apostes de la intel·ligència artificial avançada. La seva capacitat per resoldre problemes complexos en matemàtiques i programació, a canvi d’un major ús de computació i temps de resposta més llargs, s’ha presentat com un pas important cap a sistemes més intel·ligents. Tanmateix, un informe recent de l’institut sense ànim de lucre Epoch AI posa en dubte si aquest progrés es pot mantenir molt més temps.
Segons Epoch AI, «el progrés d’aquests models podria alentir-se en tan sols un any», fet que suposaria un canvi de ritme important per a una indústria que ha depès d’increments exponencials en rendiment. El desenvolupament d’aquests models de raonament implica una primera fase d’entrenament amb grans quantitats de dades, seguida d’una etapa d’aprenentatge per reforç, on el model rep retroalimentació sobre les seves solucions a problemes difícils.
Fins ara, les principals empreses d’IA, com OpenAI, no havien aplicat una gran quantitat de potència de computació a aquesta segona etapa. Tanmateix, això està canviant. OpenAI ha indicat que va utilitzar aproximadament díhuit vegades més capacitat de computació per entrenar el model o3 en comparació amb el seu predecessor o1, i es rumoreja que gran part d’aquest poder es va dedicar a l’aprenentatge per reforç.
El rol de l’aprenentatge per reforç en el progrés del raonament
L’aprenentatge per reforç permet que el model rebi retroalimentació sobre els seus intents de resoldre problemes difícils, la qual cosa, en teoria, millora el seu raonament. Dan Roberts, investigador d’OpenAI, va assenyalar que els futurs plans de la companyia prioritzen el reforç amb encara més computació que en l’entrenament inicial del model. Però, segons l’autor de l’estudi, Josh You adverteix que hi ha límits: «si hi ha un cost persistent associat a la recerca, els models de raonament podrien no escalar tant com s’espera», escriu You. «L’escalat ràpid informàtic és potencialment un ingredient molt important en el progrés dels models de raonament, així que val la pena seguir-lo de prop».
Les dades d’Epoch AI mostren que, mentre l’entrenament estàndard quadruplica la seva eficàcia anualment, l’aprenentatge per reforç ha mostrat millores deu vegades superiors. No obstant això, You anticipa que «el progrés de l’entrenament en raonament probablement coincidirà amb el desenvolupament de frontera cap al 2026».
Barreres econòmiques i possible saturació
Més enllà dels límits tècnics, hi ha barreres econòmiques. «Si hi ha un cost persistent associat a la recerca, és possible que els models de raonament no escalin tant com s’espera», adverteix l’informe.
La indústria ha invertit enormes recursos en aquesta línia de treball, però l’anàlisi d’Epoch AI suggereix que el rendiment d’aquests models podria estar arribant a un punt de saturació. Si això es confirma, podria obligar els actors del sector a repensar les seves estratègies o a explorar nous camins.
Obre un parèntesi en les teves rutines. Subscriu-te a la nostra newsletter i posa’t al dia en tecnologia, IA i mitjans de comunicació.