Autoresearch no proposa només automatitzar proves d’entrenament: planteja una nova divisió del treball entre humans i agents, en què la persona reescriu l’estratègia i la IA reescriu el codi per investigar sense descans.
Andrej Karpathy ha convertit una idea que fins fa poc sonava a ciència-ficció en un repositori mínim, executable i, sobretot, conceptualment molt provocador. El seu projecte autoresearch empaqueta un sistema de recerca autònoma sobre models de llenguatge en una versió autocontinguda, d’una sola GPU i de tot just unes 630 línies de codi per al nucli d’entrenament. La proposta, presentada a GitHub com una derivació simplificada de nanochat, no consisteix només a deixar que un agent toqui hiperparàmetres mentre un humà observa. Va força més enllà: l’agent modifica el codi d’entrenament, llança experiments de cinc minuts, mesura si millora la pèrdua de validació, conserva o descarta canvis i repeteix el cicle en bucle, mentre l’humà deixa de tocar el .py i passa a iterar sobre el fitxer d’instruccions, program.md.
Aquesta inversió del flux de treball és el que fa el projecte especialment interessant. En l’esquema clàssic, l’investigador humà toca el codi, ajusta arquitectura, optimitzador i lots, llança proves, compara resultats i decideix la hipòtesi següent. A autoresearch, Karpathy proposa separar les capes: l’humà dissenya la “organització de recerca” a través del prompt o programa; l’agent s’encarrega de l’execució experimental sobre train.py. El README ho explica sense embuts: l’agent edita el fitxer d’entrenament; la persona itera sobre program.md, que funciona com una mena de skill ultralleugera per orientar el treball autònom.
La imatge que acompanya el projecte ajuda a entendre l’ambició. S’hi veu una gràfica titulada “Autoresearch Progress: 83 Experiments, 15 Kept Improvements”, amb una escala descendent en la mètrica de validació BPB, on cada punt representa una execució completa d’entrenament de cinc minuts exactes. Els experiments descartats apareixen en gris; els retinguts, en verd; i la línia mostra la millor trajectòria acumulada. Més que una simple corba d’optimització, la visualització suggereix una altra cosa: una narrativa de progrés autònom, on el sistema explora configuracions, aprèn quines milloren i construeix una seqüència de petits guanys sense intervenció humana contínua. Aquesta estètica de laboratori automatitzat és deliberada i forma part de l’encant del projecte. La mateixa introducció del repositori, amb un to mig èpic i mig paròdic, presenta la recerca de frontera com el domini futur d’eixams d’agents autònoms corrent sobre “megastructures de còmput als cels”.
Cal subratllar que, malgrat el to juganer, autoresearch no és una ocurrència buida. El repositori està dissenyat per funcionar amb regles força concretes. Només hi ha tres fitxers que realment importen: prepare.py, que conté constants fixes, preparació de dades i utilitats; train.py, que és l’únic fitxer que l’agent pot modificar; i program.md, que conté les instruccions d’alt nivell per a l’agent. El sistema està construït perquè cada cursa d’entrenament duri exactament cinc minuts de rellotge, excloent arrencada i compilació, i per mesurar el resultat en val_bpb —validation bits per byte—, una mètrica que Karpathy destaca com a comparable entre canvis arquitectònics i no dependent de la mida del vocabulari.
Aquest disseny té implicacions importants. La primera és metodològica: fixar una finestra de cinc minuts converteix cada experiment en una unitat estandarditzada. Segons el mateix README, això permet esperar aproximadament 12 experiments per hora i al voltant de 100 experiments durant una nit, sempre en funció de la plataforma concreta. L’avantatge és doble: d’una banda, tots els canvis que faci l’agent es poden comparar sota el mateix pressupost temporal; de l’altra, el sistema no busca el millor model en abstracte, sinó el millor model possible sota aquest temps d’entrenament i sobre aquest maquinari. És una manera molt pragmàtica de plantejar la recerca: no optimitzar una teoria universal, sinó optimitzar una trajectòria local de millora dins de restriccions reals de còmput.
La segona implicació és més estratègica. Autoresearch no automatitza només una tasca concreta, sinó una manera de treballar. L’agent té permís per canviar arquitectura, hiperparàmetres, optimitzador, mida de lot i altres elements de l’entrenament dins de train.py. L’humà, en canvi, deixa de tocar el centre experimental i passa a actuar com a dissenyador de l’entorn cognitiu de l’agent. Dit d’una altra manera: la persona deixa de ser executora de proves i es converteix en arquitecta d’una organització de recerca artificial. Aquesta és probablement la idea més potent del projecte, perquè desplaça el valor humà des de la manipulació directa del codi cap al disseny de les regles, prioritats i estils de cerca del sistema.
Per això el projecte es pot llegir com un petit manifest sobre la pròxima etapa de l’enginyeria amb IA. La pregunta ja no seria només “què pot programar l’agent?”, sinó “com dissenyem agents capaços d’investigar indefinidament i cada vegada millor?”. En el text que acompanya el llançament, Karpathy ho formula de manera explícita: l’objectiu és enginyar agents perquè facin el progrés de recerca més ràpid possible, indefinidament i sense cap implicació pròpia. Aquesta frase resumeix una intuïció que comença a estendre’s en moltes capes del sector: el rendiment de la IA ja no depèn només del model base, sinó del bucle de retroalimentació que uneix prompting, execució, avaluació i selecció de millores. A autoresearch, aquest bucle queda cristal·litzat en una estructura mínima i visible. L’agent prova; la mètrica jutja; l’historial de Git conserva.
Aquí entra en joc un altre element central: Git com a memòria de recerca autònoma. L’agent treballa sobre una branca de funcionalitats, acumula commits a mesura que troba configuracions millors i conserva únicament aquelles modificacions que milloren la mètrica final. En aquest detall hi ha una intuïció elegant. En lloc de pensar la IA com una caixa negra que “fa coses”, Karpathy la situa dins d’una disciplina de programari coneguda, traçable i llegible: branques, diffs, commits, historial d’iteracions. Això no elimina la complexitat, però sí que la converteix en una cosa auditable. La recerca deixa de ser una sèrie de proves disperses i passa a ser una seqüència versionada d’hipòtesis i resultats.
El caràcter “mínim” del repositori també és una declaració de principis. El README insisteix que no hi ha entrenament distribuït, configuracions complexes ni dependències externes a part de PyTorch i uns quants paquets petits. Una GPU, un fitxer, una mètrica. Aquesta reducció del sistema a una forma gairebé pedagògica compleix dues funcions. La primera és facilitar que altres persones ho provin durant un cap de setmana, que és precisament com Karpathy ho presenta. La segona és fer visible el mecanisme conceptual sense enterrar-lo sota capes d’infraestructura industrial. Autoresearch no intenta ser el sistema definitiu de recerca autònoma, sinó una demostració compacta de com podria començar aquest futur.
Per això el projecte es mou en una frontera curiosa entre experiment seriós, joguina d’elit i peça cultural del moment IA. Karpathy el defineix amb ironia com “part code, part sci-fi, and a pinch of psychosis”. La fórmula no és casual. El repositori té alguna cosa d’artefacte narratiu: dramatitza una idea molt present avui a la comunitat tècnica, la que diu que la recerca i el desenvolupament poden convertir-se en processos parcialment autoaccelerats per agents que iterin sense descans. Però, al mateix temps, ofereix prou concreció perquè no quedi en metàfora. Hi ha codi, hi ha instruccions, hi ha mètrica, hi ha historial i hi ha un camí reproducible d’arrencada.
La relació amb nanochat també importa. El repositori es presenta com una versió reduïda del nucli d’entrenament d’aquest projecte, destil·lada a una implementació d’una sola GPU. Això situa autoresearch en una tradició molt recognoscible de l’ecosistema Karpathy: construir sistemes didàctics, compactes i transparents per explicar idees complexes d’entrenament i ús de models de llenguatge. Només que aquí el focus ja no està a ensenyar a l’humà com entrenar un model, sinó a mostrar com un agent pot encarregar-se d’una bona part d’aquesta exploració si se li dissenya l’entorn correcte.
Hi ha, a més, un aspecte que mereix atenció des del punt de vista organitzatiu. En el README, Karpathy suggereix que la versió per defecte de program.md és un baseline bare bones, una base mínima, i deixa caure amb claredat que el més interessant serà iterar sobre aquest fitxer per trobar el “codi d’organització de recerca” que aconsegueixi el progrés més ràpid. L’expressió és molt reveladora. No parla només de prompts ni d’instruccions. Parla de “research org code”, com si l’equip de recerca s’hagués convertit en programari. Aquesta formulació apunta cap a una idea poderosa: el know-how ja no residirà només en hiperparàmetres o arquitectures, sinó en com es programa els agents perquè cooperin, provin, decideixin i es corregeixin.
Aquesta visió connecta amb una tendència més àmplia de la IA contemporània: la transició des d’eines que assisteixen tasques cap a sistemes que orquestren bucles complets de treball. En lloc de demanar-li a un model que redacti un text o suggereixi codi, se li demana que formuli hipòtesis, modifiqui un fitxer, executi un experiment, llegeixi una mètrica, conservi o reverteixi canvis i torni a començar. Encara no som davant de recerca científica plenament autònoma, però sí davant d’un embrió de flux agentiu molt més proper a un laboratori automatitzat que a un simple copilot. Autoresearch importa precisament perquè condensa aquesta transició en un format entenedor i replicable.
Naturalment, també convé llegir el projecte amb una certa distància crítica. El mateix README deixa clar que el codi ha estat provat sobre una sola GPU NVIDIA, concretament una H100, i que el repositori no pretén resoldre per ara el suport general per a CPU, MPS o altres plataformes, tot i que ofereix recomanacions per a qui vulgui fer forks i adaptar-lo a maquinari més petit. També subratlla que els resultats no seran comparables entre equips diferents, precisament perquè el pressupost es fixa en temps de paret i no en nombre de passos abstractes. Això limita la universalitat del benchmark, però és coherent amb la filosofia local del projecte: optimitzar el progrés sobre una plataforma concreta, no establir una taula global.
El README fins i tot ofereix recomanacions força terrenals per a qui vulgui rebaixar el sistema a màquines menys potents: utilitzar datasets de menor entropia com TinyStories, baixar la mida del vocabulari, reduir MAX_SEQ_LEN i ajustar altres paràmetres per acomodar-se a ordinadors molt més modestos. Aquest detall és important perquè mostra que, darrere de la posada en escena futurista, hi ha una intenció real que la comunitat jugui, adapti i estengui el sistema. Autoresearch no es presenta com una demo tancada, sinó com un repositori obert per experimentar amb diferents combinacions de prompts, agents i condicions de còmput.
La dimensió cultural del projecte potser és, al final, tan rellevant com la tècnica. Karpathy està empaquetant en un sol gest diverses obsessions del moment: l’auge dels agents, l’automatització del treball intel·lectual, la importància dels bucles d’avaluació, l’enginyeria de prompts com a sistema i la fascinació gairebé mitològica per laboratoris on el progrés es produeix mentre els humans dormen. La gràfica amb 83 experiments i 15 millores retingudes, el to de ciència-ficció del README i la idea de “jugar el cap de setmana” amb un repositori autònom formen part d’una estètica més àmplia: la d’una informàtica que ja no vol només programar màquines, sinó dissenyar poblacions d’agents capaços de programar, provar i optimitzar per nosaltres.
Vist així, l’interès d’autoresearch no depèn tant que avui mateix transformi la recerca de frontera com del fet que fa visible un canvi de paradigma. La unitat bàsica del treball ja no és l’script, sinó el bucle autònom. La intervenció humana ja no es mesura només en línies de codi escrites, sinó en la qualitat del marc de decisió que es lliura a l’agent. I la recerca deixa d’assemblar-se a una seqüència lineal d’hipòtesis humanes per acostar-se a una exploració contínua en què el paper de l’humà és dissenyar el sistema que explora.
Aquí és on el projecte adquireix més profunditat. No proposa simplement “usar IA per investigar”, una cosa que el sector fa temps que fa. Proposa convertir la mateixa recerca en una capacitat operativa agentiva, amb memòria, criteri de selecció, ritme fix i acumulació de millores. És una diferència important. Perquè una cosa és que un model ajudi un científic; una altra de molt diferent és que una xarxa de pràctiques, prompts, regles i agents comenci a comportar-se com un laboratori semiindependent. Autoresearch encara no és això en plenitud, però sí que és una maqueta molt clara de com podria arrencar aquest camí.
En aquest sentit, el projecte s’entén millor no com una promesa tancada, sinó com una pregunta oberta llançada a l’ecosistema: si ja podem deixar un agent modificant codi d’entrenament, executant proves de cinc minuts i retenint millores en una branca de Git, quina part de la feina de recerca continuarà sent intervenció humana directa i quina part passarà a ser disseny d’organitzacions autònomes? Karpathy no ofereix una resposta definitiva. Ofereix una cosa potser més útil: un repositori petit, operatiu i prou suggeridor perquè aquesta pregunta deixi de ser teòrica.