La conversa al voltant de la intel·ligència artificial ha anat evolucionant tan de pressa com els models que la impulsen. El que abans semblava un objectiu inabastable —construir models més grans i complexos— ara es veu eclipsat per un altre desafiament, que aquests models funcionin ràpidament i de manera fluida per a milions de persones. Aquest gir estratègic ha quedat clar amb l’anunci més recent d’OpenAI: una aliança de més de 10.000 milions de dòlars amb la firma de xips Cerebras Systems per dotar els seus sistemes d’IA de força bruta en la fase que realment importa per als usuaris, la inferència, o execució ràpida de models.
De l’entrenament «a la cosa bèstia» a la resposta en mil·lisegons
Durant anys, la indústria de la IA va competir per augmentar la mida dels models i les dades amb què s’entrenaven. Aquesta obsessió, en part, va definir OpenAI des dels inicis de ChatGPT. Entrenar models gegantins consumia recursos immensos com milers de GPU i enormes quantitats d’energia per ajustar milions o fins i tot milers de milions de paràmetres. L’objectiu era fer models que entenguessin el llenguatge amb una precisió cada vegada més gran.
Però aquest enfocament ha començat a perdre força. A mesura que la millora en qualitat per afegir més dades i potència d’entrenament s’ha tornat marginal, les empreses han canviat el seu focus cap a l’eficiència en el desplegament d’aquests models. Ja no és suficient que un model sigui capaç, ha de ser ràpid, eficient i econòmic a l’hora de respondre peticions.
El paper de la inferència, velocitat per interactuar
Quan un usuari escriu una pregunta a ChatGPT o demana una imatge o un fragment de codi, no està ocorrent entrenament, està ocorrent inferència. És a dir, el model ja entrenat calcula la seva resposta en temps real. Aquesta fase requereix molt processament, memòria i rapidesa, i és el que defineix l’experiència d’ús. És aquí on OpenAI ara posa la seva mirada. L’acord amb Cerebras Systems busca dotar OpenAI de fins a 750 megawatts de computació de baixa latència que es desplegaran entre 2026 i 2028 per accelerar aquesta fase d’inferència. Els xips de Cerebras estan dissenyats per manejar enormes fluxos de dades i accelerar la generació de respostes, cosa que les GPUs tradicionals no fan amb la mateixa eficiència.
Per què importa la velocitat
La competència en aquest punt és ferotge. Els xips d’inferència no només han de processar més de pressa, sinó també amb menor cost energètic i eficiència global més gran. Això influeix directament en productes com a assistents conversacionals, eines de desenvolupament, motors de cerca intel·ligents i sistemes que automatitzen tasques complexes.
La velocitat de resposta es mesura en «tokens per segon», una mètrica que indica quants fragments de text pot processar un sistema en un segon. Com més gran és aquesta xifra, més ràpida sembla la IA per a l’usuari final, especialment en diàlegs llargs o tasques que requereixen raonament profund.
Una aliança que redefineix prioritats
L’associació entre OpenAI i Cerebras no és només un contracte més de computació. Representa un canvi de paradigma en la indústria. Es deixa enrere la cursa per acumular models cada vegada més grans i es prioritza la capacitat de servir aquests models a escala. Aquesta tendència ja era detectable en altres empreses com Google, que també ha apostat per xips optimitzats per a la inferència abans que per a l’entrenament pur.
A més, aquest acord arriba en un moment en què la demanda de computació per a IA encara explota. OpenAI maneja centenars de milions d’usuaris actius cada setmana i els seus sistemes han d’estar disponibles 24/7 amb temps de resposta competitius.
El negoci darrere del rendiment
Encara que l’aliança suposa un moviment tecnològic clau, també té implicacions econòmiques i estratègiques. Cerebras, fins ara una startup amb xips especialitzats, es posiciona com un actor global en infraestructura d’IA, i la relació amb OpenAI podria ajudar-lo a escalar el seu negoci mentre es prepara per a una possible IPO. Per la seva banda, OpenAI diversifica la seva base de maquinari, reduint dependència dels proveïdors tradicionals com Nvidia i explorant solucions que encaixin millor amb les seves necessitats específiques d’inferència.
Un paisatge que canvia
Aquest viratge d’OpenAI és també un reflex de l’evolució del mateix camp de la IA. Ja no es tracta només de com pot ser de gran un model, sinó de com d’útil i ràpid pot ser en mans d’usuaris reals. El futur de la intel·ligència artificial ja no es mesurarà només en teraflops o bilions de paràmetres, sinó en velocitat, eficiència i adaptabilitat per respondre a demandes massives.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.