El projecte First Proof va tancar deu problemes de matemàtiques de nivell recerca i els va obrir durant una setmana perquè la IA intentés resoldre’ls; Google afirma que el seu agent Aletheia, basat en Gemini Deep Think, n’ha resolt 6 de 10 de manera autònoma, amb validació d’experts (i debat puntual en un dels casos).
L’obsessió per mesurar la “intel·ligència matemàtica” de la IA acostuma a topar amb un mur: quan els models encerten, sempre queda el dubte de si ja havien vist el problema (o la solució) en el seu entrenament. Per això First Proof s’ha convertit, de cop, en un experiment tan incòmode com útil: deu preguntes de matemàtiques a nivell d’investigació, aportades per matemàtics, amb solucions preparades i guardades fins al final del repte, i una finestra curta perquè els sistemes d’IA hi provessin sort. La idea no és fer un “quiz” d’olimpíada, sinó simular una situació real de recerca: un problema natural, no trivial, que demana tècnica, intuïció i una prova coherent.
Un benchmark fet a consciència: deu problemes, una setmana i transparència final
First Proof descriu el seu primer lot (“First Batch”) com un paquet divers de problemes que travessen camps molt diferents —des de combinatòria algebraica fins a geometria simpèctica o anàlisi estocàstica— amb proves que, quan existeixen, tenen una llargada aproximada d’unes poques pàgines. Les solucions, segons el projecte, es van publicar a les 11:59 pm (Pacific Time) del 13 de febrer de 2026, juntament amb comentaris i materials perquè la comunitat pugui revisar què ha passat. Aquesta publicació a posteriori és clau: fixa un “moment de tall” i converteix l’experiment en auditable.
A diferència d’altres benchmarks, aquí el valor és doble. Primer, l’organització insisteix que les preguntes no estaven “circulant” com a exercicis típics resolts a repositoris populars; segon, el mateix projecte ofereix un espai de discussió comunitària perquè la validació no quedi tancada dins d’una empresa. En altres paraules: First Proof intenta evitar el teatre de la demo i forçar un debat de recerca, amb criteris de prova i amb desacords quan toquen.
La peça que sacseja el tauler: Aletheia n’encerta 6 (amb experts al darrere)
En aquest marc arriba la confirmació que ha encès el relat: Aletheia, un agent de recerca matemàtica “powered by” Gemini 3 Deep Think, ha resolt 6 dels 10 problemes (els números 2, 5, 7, 8, 9 i 10) dins del temps permès, “segons l’avaluació majoritària d’experts”. L’article tècnic que ho reporta afegeix un detall important: en el problema 8 no hi va haver unanimitat (la majoria el dona per bo, però hi ha debat), cosa que, paradoxalment, reforça la credibilitat del procés: no és un “tot perfecte”, sinó matemàtiques reals, amb criteri humà i fricció acadèmica.
El mateix treball remarca que publica detalls d’interpretació del repte, metodologia i avaluació, i que posa a disposició prompts i sortides “en brut” (un altre punt crític: sense traça, un resultat així és només màrqueting).
Què és Aletheia (i per què no és “només un model”)
El matís de fons és que el protagonista no és un LLM “a pèl”, sinó un agent amb un flux de treball iteratiu. En la línia del que Google explica sobre Deep Think, el sistema combina generació de candidates, verificació i revisió, i —això és rellevant en recerca— també pot admetre que no pot resoldre un problema, una propietat que, si és real i robusta, estalvia temps i evita “proves” fantasmes.
A la pràctica, aquesta arquitectura introdueix una idea que cada cop pesa més en IA: el salt no és només “un model més potent”, sinó un pipeline que explora, contrasta i refina. Dit planerament: l’agent intenta fer una cosa semblant al que fa un matemàtic quan avança a base d’intents, contraexemples, reformulacions i comprovacions locals.
El punt delicat: “autònom” no vol dir “sense matemàtics”
El titular fàcil és “la IA resol problemes oberts”. La realitat operativa és més interessant: el repte posa en evidència que, quan el nivell és alt, la IA pot generar una prova plausible, però la certificació de “això és correcte” continua exigint expertesa. First Proof mateix estructura l’experiment perquè la comunitat pugui inspeccionar solucions i comentaris; i el treball sobre Aletheia parla explícitament d’“avaluació d’experts”.
Això no és una rebaixa del resultat; és la fotografia realista del nou repartiment de feina:
- la IA accelera la producció d’idees i proves candidates,
- el matemàtic es desplaça cap a validació, selecció, refinament i contextualització (què aporta? és generalitzable? hi ha una via més elegant?).
Si aquest patró s’estabilitza, pot aparèixer un efecte “laboratori”: equips petits amb bona supervisió podrien atacar molts més problemes en paral·lel. Però també hi ha el risc simètric: un excés de producció de “proves candidates” que saturi revisors i generi una nova mena de soroll científic.
“Pensar més, pensar millor”: el cost com a variable explícita
Un dels detalls més sucosos del relat (i dels fils que han circulat aquests dies) és la idea que alguns problemes demanen molta més computació que d’altres: el mateix sistema pot “picar pedra” més estona fins que troba la combinació d’eines adequada. Google, en el discurs de Deep Think, emfatitza que escalar computació en inferència millora el rendiment en matemàtiques avançades, i que aquests patrons d’escalat també es traslladen a exercicis de nivell superior.
Això apunta a un canvi de paradigma en com s’“avaluarà” la IA matemàtica: no només “què resol”, sinó a quin cost i amb quina estabilitat. Si la IA necessita quantitats enormes de computació per a un subconjunt petit de problemes, la pregunta passa de “pot?” a “quan és rendible?” i “per a qui?”. En recerca pública, aquesta qüestió no és menor: el pressupost energètic i de maquinari es converteix en part de la metodologia.
Per què aquest episodi és un abans i un després
First Proof no és una competició de popularitat; és un termòmetre. I el resultat “6/10” té impacte per tres motius:
- Desplaça la frontera: un agent pot tancar una majoria de problemes de nivell recerca en un format acotat, amb experts al darrere que n’avaluen la correcció.
- Normalitza el model híbrid: IA per generar i explorar; humans per verificar i convertir en coneixement publicable.
- Obre el debat de governança: si els agents milloren, com documentem autoria, traçabilitat, responsabilitat i reproductibilitat? I com evitem que el “volum” es mengi el rigor?
La lectura més sòbria és aquesta: no estem davant d’una substitució del matemàtic, sinó d’un canvi d’escala. La IA comença a ser capaç de produir material que mereix ser revisat en terreny de recerca. I això, per si sol, ja és un canvi estructural.