Skip to main content

Inception presenta Mercury 2, un model de llenguatge que abandona la generació paraula a paraula i promet respostes “en temps real” amb més de 1.000 tokens per segon, abaratint el cost per ús i apuntant directament a agents, veu i fluxos de treball en bucle.

Durant dos anys, la indústria de la IA generativa ha viscut obsessionada amb una mètrica: “quin model raona millor?”. El 2026, comença a imposar-se una altra pregunta igual d’incòmoda: a quina velocitat pot fer-ho sense trencar l’experiència, el cost i l’escalabilitat? En aquest gir entra Mercury 2, el nou model d’Inception, que es presenta com el model de raonament més ràpid i ho fa amb una idea que pot sonar contraintuïtiva per al públic general, però molt clara per a qualsevol enginyer de producte: canviar el motor de generació.

La promesa és contundent: 1.009 tokens per segon en GPUs d’última generació (NVIDIA Blackwell, segons la companyia), amb un enfocament “de difusió” en lloc del mecanisme autoregressiu clàssic. Dit planer: en comptes d’escriure com una màquina d’escriure —token a token, d’esquerra a dreta—, Mercury 2 treballa com un editor que produeix un esborrany i el refina en paral·lel en pocs passos, fins que convergeix. La velocitat ja no és un “extra”; passa a ser el nucli del disseny.

Per què ara la velocitat pesa més que abans

L’argument d’Inception no és “volem que el xat respongui més ràpid”, sinó que la IA en producció ja no és una pregunta i una resposta. És una cadena: agents que criden eines, sistemes de recuperació (RAG) que consulten diverses fonts, extracció de dades, verificació, reintents, validacions… i tornar a començar. Cada pas afegeix latència. I quan aquesta latència es multiplica per usuaris, per concurrència i per pics de càrrega, el sistema deixa de “semblar intel·ligent” i passa a “semblar lent”.

Aquí hi ha la tesi més rellevant: la latència composta mata els fluxos en bucle. En un assistent de programació, un retard de dos segons et treu del fil; en veu, et trenca el torn conversacional; en agents, t’encareix cada iteració i t’obliga a retallar passos (o qualitat). Mercury 2 intenta atacar exactament aquest coll d’ampolla.

La peça tècnica: del “un a un” a la refinació paral·lela

La majoria de grans models actuals comparteixen un patró: descodificació seqüencial. Preveuen el següent token condicionat pels anteriors, repeteixen i repeteixen. És robust, universal, i ha estat l’estàndard perquè encaixa amb l’entrenament massiu i amb les infraestructures existents.

L’enfocament per difusió proposa una altra dinàmica: generar una estructura inicial i refinar múltiples parts alhora, convergint en un nombre petit de passos. És la mateixa família conceptual que va convertir la generació d’imatge en un fenomen mainstream: en lloc de “dibuixar línia a línia”, “polir” una aproximació fins que pren forma. L’important aquí no és la metàfora, sinó l’efecte: trenca la dependència estricta de la seqüència i desplaça la corba cost–qualitat–temps.

Aquesta mudança té conseqüències pràctiques:

  • Més rendiment (throughput) sota alta concurrència (si el sistema està ben dissenyat).
  • Més marge per al raonament sense disparar la latència, perquè part del “càlcul en test” pot integrar-se en el procés de refinació.
  • Nous perfils de cost: la velocitat no només es nota; també pot abaratir el “cost per resultat” si redueixes reintents o escurces cadenes.

Les xifres: velocitat, preu i prestacions “de producte”

Inception acompanya l’anunci amb un paquet que, vist com a producte, apunta al mercat de desenvolupadors i operacions:

  • Velocitat: al voltant de 1.000 tokens/seg en GPUs NVIDIA Blackwell.
  • Preu: 0,25 dòlars per 1 milió de tokens d’entrada i 0,75 dòlars per 1 milió de tokens de sortida.
  • Context: 128K.
  • Ús natiu d’eines i sortida JSON alineada a esquema, dos requisits cada cop més “obligatoris” quan deixes el xat i passes a automatització i agents.

En un mercat on el preu per token s’està convertint en palanca estratègica, aquestes xifres no són decoració: busquen posicionar Mercury 2 com infraestructura de baix cost per a càrregues intensives, no com “model boutique”.

Quines aplicacions desbloqueja (si compleix en la pràctica)

Inception emmarca Mercury 2 en quatre fronts on l’usuari nota la latència:

1) Programació i edició interactiva.
Autocompletat, refactors, suggeriments de “següent edició”, agents de codi… La velocitat decideix si el producte s’integra en el flux mental del desenvolupador o si queda com una eina de consulta externa.

2) Agents i bucles d’eines.
Un agent útil no fa una crida; en fa dotzenes. Reduir latència per crida no només estalvia temps: permet més passos, i per tant millors resultats. La velocitat és qualitat indirecta.

3) Veu i conversa en temps real.
La veu no perdona: si el sistema dubta, l’usuari ho percep com torpesa social. Un model ràpid pot sostenir raonament sense “pauses de robot”, sempre que tot l’stack acompanyi (ASR, TTS, eina, xarxa).

4) Cerca i RAG amb raonament.
La recuperació multi-hop suma latències. Si el model és més ràpid, pots permetre més verificació, més re-ranking o millors resums sense rebentar el temps total.

La pregunta crítica: velocitat a canvi de què?

Quan apareix un salt d’arquitectura, el mercat hauria de desconfiar per defecte i preguntar tres coses:

  • Qualitat sota pressió. No només “benchmarks”, sinó rendiment estable amb prompts llargs, dades sorolloses i eines reals.
  • Consistència. La velocitat importa si no introdueix variabilitat estranya entre torns o degradacions quan el sistema va carregat (p95/p99).
  • Alineament i control. Si el model “raona” més ràpid, també pot equivocar-se més ràpid. El valor real és com s’instrumenta: logs, avaluacions, guardrails, proves.

Inception i tercers parlen de competitivitat davant models “speed-optimized” i destaquen metodologies de mesura, però el llistó del sector ja no és una demo: és producció amb SLA.

Un moviment amb lectura estratègica: menys culte al model, més culte al sistema

Mercury 2 arriba en un moment en què la IA es desplaça d’“assistent brillant” a infraestructura operativa. En aquesta transició, l’avantatge no sempre és “ser el més llest”, sinó ser el més útil dins del pressupost de temps. Si la difusió aplicada al llenguatge es consolida, pot obrir una bifurcació al mercat:

  • Autoregressius cada cop millors per a tasques de màxima fidelitat.
  • Models per difusió (o altres enfocaments) per a interacció instantània, agents i càrregues massives.

I si això passa, la competència deixarà de ser només d’“IQ de benchmark” per assemblar-se més a la indústria de bases de dades o motors de cerca: latència, cost, fiabilitat i ergonomia d’integració.

Leave a Reply