Per què els grans models de llenguatge topen just quan la conversa es torna interessant?
Un estudi publicat a arXiv per Microsoft Research i Salesforce Research posa xifres a una sospita habitual: quan la informació arriba en diversos torns, la IA respon pitjor.
Després d’analitzar més de 200.000 diàlegs amb quinze sistemes —incloent-hi GPT-4o, Claude 3 i Gemini—, els investigadors calculen una caiguda mitjana del 39% en la qualitat de les respostes respecte a les instruccions d’un sol missatge.
En teoria, un xatbot hauria de destacar precisament quan hi dediquem més temps: com més pistes li donem, millor hauria d’entendre’ns. Tanmateix, el nou treball revela l’efecte contrari. Després d’analitzar més de 200.000 converses simulades amb 15 models diferents, els autors constaten una caiguda mitjana del 39% en el rendiment en passar d’una instrucció única a tres torns de comentaris.
El descens no s’explica només per “fer-ho pitjor”. L’equip separa l’aptitud (el millor que el model sap fer) de la fiabilitat (el que realment fa en cada intent). L’aptitud gairebé no cau —només un 16%—, mentre que la fiabilitat s’enfonsa un 112%: dues preguntes gairebé idèntiques poden generar respostes radicalment oposades.
Els investigadors identifiquen quatre hàbits que precipiten el caos: respostes massa llargues, solucions prematures, suposicions errònies que se solidifiquen i una confiança cega en les mateixes sortides anteriors.
Què pot significar per a les empreses?
Xatbots d’atenció al client: el risc del darrer aclariment: imagina un canal de suport on cada interacció exigeix matisar polítiques, terminis o contrasenyes oblidades. Cada pregunta extra eleva la probabilitat que l’agent d’IA barregi versions, oblidi restriccions o fins i tot inventi funcions que el teu servei no ofereix. Les proves de l’estudi demostren que recapitular tot el context abans de cada nova petició mitiga —però no soluciona— el problema.
Automatització de processos i agents encadenats: les plataformes d’“agents autònoms” prometen orquestrar cadenes de crides a LLM per omplir formularis, generar informes o programar codi. El descobriment principal és un glop d’aigua freda: el coll d’ampolla no està en la cadena, sinó en cada tram de conversa intermedi. Si un sol esglaó se’n despista, tot el flux hereta l’error.
Governança en sectors regulats: finances, salut o administració pública no es poden permetre una resposta “alternativa” al minut quinze de conversa. L’estudi aconsella auditar sessions completes, monitoritzar desviaments i reiniciar el diàleg quan es detectin incoherències majúscules.
L’impacte social d’aquest descobriment posa en qüestió la confiança i l’accessibilitat de la IA, ja que qui s’inicia en la IA sol provar, corregir i tornar a demanar… i topar-se amb incoherències que erosionen la confiança pot generar rebuig. La paradoxa és que els usuaris experts eviten el problema escrivint prompts llargs i específics; els novells —qui més es beneficiaria de la conversa pas a pas— pateixen les limitacions actuals. Si aspirem a una IA inclusiva, la fiabilitat ha de convertir-se en prioritat de disseny, no en simple mètrica acadèmica.
Bones pràctiques que ja funcionen
- Consolida el primer missatge, és a dir, agrupa els requisits abans de llançar la consulta inicial.
- Després d’interaccionar amb la IA, resumeix tot el context i envia’l de nou al model abans de continuar la conversa.
- Si la resposta s’allarga o contradit informacions prèvies, força un reinici amb l’historial net.
- Reduir l’aleatorietat (paràmetre conegut com a temperatura) minimitza les divagacions, però no corregeix suposicions errònies.
- Per formar equips i usuaris, ensenya a detectar quan convé començar una conversa nova en comptes d’afegir-hi un altre matís.
Un missatge per als creadors de models
L’estudi llança un repte clar als laboratoris d’IA: no n’hi ha prou amb batre rècords en benchmarks d’un sol torn. La fiabilitat conversacional ha de mesurar-se, publicar-se i millorar-se amb la mateixa obsessió que la puntuació en un examen de comprensió lectora, perquè la IA pugui arribar a ser un assistent brillant.
