L’avaluació PersonQA, que mesura les al·lucinacions, atorga el 48% a o4-mini, enfront del 14,8% de la seva versió anterior
Els nous models de raonament d’OpenAI, o3 i o4-mini, han estat llançats recentment amb la promesa de millorar en tasques complexes com programació i matemàtiques. Tanmateix, han generat certa preocupació a causa d’un augment significatiu en les “al·lucinacions”, és a dir, respostes incorrectes o inventades.
Un retrocés inesperat
Històricament, cada nova generació de models de llenguatge ha mostrat millores en la reducció d’al·lucinacions. No obstant això, segons l’informe tècnic d’OpenAI, el model o3 presenta una taxa d’al·lucinació del 33% en l’avaluació PersonQA, mentre que o4-mini arriba a un preocupant 48%. En comparació, models anteriors com o1 i o3-mini van registrar taxes del 16% i 14,8%, respectivament.
Per què més raonament implica més errors?
OpenAI suggereix que l’augment d’al·lucinacions podria deure’s al fet que els models de raonament generen més afirmacions en general, cosa que incrementa tant les respostes correctes com les incorrectes. A més, es planteja que el tipus d’aprenentatge per reforç utilitzat en aquests models podria amplificar problemes que normalment es mitiguen en etapes posteriors de l’entrenament.
Casos preocupants
Algunes investigacions independents, com les realitzades pel laboratori Transluce, han observat que el model o3 no només proporciona informació incorrecta, sinó que també inventa processos que no pot realitzar. Per exemple, va afirmar haver executat codi en un MacBook Pro de 2021 fora de ChatGPT, la qual cosa no és possible, segons informa TechCrunch.
Implicacions per a l’ús empresarial
Aquestes al·lucinacions representen un desafiament significatiu per a l’adopció d’aquests models en entorns on la precisió és crucial, com en l’àmbit legal o mèdic. Encara que els models mostren millores en tasques tècniques, la manca de fiabilitat en certes respostes limita la seva aplicabilitat en contextos delicats.
Possibles solucions
Una estratègia prometedora per millorar la precisió és integrar capacitats de cerca web en temps real. Models com GPT-4o, que compten amb aquesta funcionalitat, han assolit una precisió del 90% en l’avaluació SimpleQA. Tanmateix, aquesta solució implica compartir les consultes amb proveïdors de cerca externs, cosa que planteja algunes consideracions de privacitat.