Skip to main content

Un simulacre que pensa com un metge

Microsoft ha creat un entorn de simulació clínica a partir de 304 casos reals publicats al New England Journal of Medicine. Amb aquests casos, ha creat una prova anomenada Punt de Referència de Diagnòstic Seqüencial, que avalua si una IA és capaç de raonar pas a pas com un metge: des dels primers símptomes fins a arribar al diagnòstic.

El protagonista de l’experiment és MAI - DxO, un sistema que replica el procés diagnòstic d’un metge: comença amb una presentació clínica, formula preguntes, sol·licita proves i emet una conclusió. Però no es tracta d’un únic model d’intel·ligència artificial. MAI - DxO actua com un orquestrador que organitza el raonament clínic amb diferents models de llenguatge —com GPT-4o (OpenAI), Gemini (Google), Claude (Anthropic), Grok (xAI) o DeepSeek— avaluats de forma separada sota les mateixes condicions.

Més precisió, menys despesa

Quan es combina amb el model o3 de OpenAI, MAI - DxO va resoldre entre el 80 % i el 85,5 % dels casos clínics presentats al simulador. Els mateixos casos van ser resolts també per un grup de 21 metges en exercici, d’Estats Units i Regne Unit, però sota condicions restringides: sense accés a col·legues, literatura mèdica ni eines de suport digital. La seva taxa d’encert va rondar el 20 %.

La distància entre ambdós resultats no només reflecteix una diferència en la capacitat de diagnòstic. També evidencia una eficiència diferent en l’ús de recursos. MAI - DxO va seleccionar proves de forma estratègica, valorant cada decisió com si tingués un cost real. De mitjana, va reduir la despesa estimada entre un 20 % i un 30 %, simulant un escenari clínic on la precisió no pot separar-se del pressupost.

Reptes abans de l’hospital

Els resultats obren la porta a un nou tipus d’assistència diagnòstica, però també plantegen límits. Les proves es van centrar en casos especialment complexos, no en consultes comunes amb símptomes com febre, tos o malestar general.

Tampoc es va reproduir el context habitual de treball perquè els metges van participar sense accés a materials de referència ni possibilitat de discutir amb col·legues. Microsoft admet que el sistema necessita validació en entorns reals i el vistiplau de les autoritats reguladores abans de qualsevol desplegament clínic.

Un horitzó amb matisos

Tot i així, l’ambició està clara. Mustafa Suleyman, responsable de Microsoft AI, assegura que el sistema podria operar «pràcticament sense errors» en un termini de cinc a deu anys. Però fins i tot amb aquest horitzó, el paper del metge no desapareix. La decisió final, la generació de confiança i la gestió de la incertesa seguiran sent funcions humanes. La IA es presenta com una eina per reduir càrrega, no per assumir el control complet.

Ecos d’una carrera més àmplia

El cas de MAI - DxO se suma a una carrera més àmplia per integrar IA en la pràctica clínica. Google treballa amb Med - PaLM  M en entorns radiològics. Microsoft, per la seva banda, ja aplica DxGPT en el sistema de salut madrileny, amb prop de mig milió de pacients i un 60 % d’encert en diagnòstics automatitzats.

Ara, el pla és portar MAI - DxO a eines com Copilot i Bing Salut. Només en aquestes plataformes, Microsoft estima més de 50 milions de sessions diàries relacionades amb salut. També desenvolupa eines complementàries com RAD‑DINO per a radiologia o Dragon Copilot, un assistent de veu clínic.

Qui prendrà la darrera decisió?

La promesa de la superintel·ligència mèdica no es mesura només en percentatges d’encert. A mesura que aquests sistemes s’integrin en l’atenció diària, sorgiran noves preguntes: Qui defineix els marges d’error acceptables? Qui assumeix la responsabilitat quan l’algoritme falla? Per ara, la IA s’ofereix com a copilot. Però a mesura que guanya protagonisme, també redefineix els límits entre l’ajuda i la decisió clínica.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply