Kimi K2.5 no es va anunciar amb focs artificials, però sí amb una ambició clara: veure, programar i coordinar eixams de subagents com a flux de treball normal.
Mentre bona part del sector continuava comparant l’última fornada de models “frontier” occidentals, Moonshot AI va optar per una estratègia poc habitual: llançar Kimi K2.5 amb un “silent rollout” (desplegament silenciós), primer visible a la seva interfície web i app, sense keynote ni campanya massiva. L’efecte buscat és doble: iterar ràpid amb dades d’ús real i, alhora, comunicar confiança (si el producte és bo, els usuaris el descobriran en el dia a dia). La companyia ho ha formalitzat després amb documentació tècnica i repositori obert: K2.5 és un model open-source, nativament multimodal i orientat a tasques agèntiques.
La combinació de “visió nativa + agents” importa perquè apunta a un canvi d’etapa: ja no n’hi ha prou amb escriure text millor o programar més de pressa. L’objectiu es desplaça cap a sistemes que perceben (imatges, vídeo), decideixen (selecció d’eines, planificació) i executen (múltiples tasques en paral·lel) amb menys supervisió humana. En el relat de Moonshot, Kimi K2.5 no és només una actualització; és la presentació del que anomenen “visual agentic intelligence”: la idea que la multimodalitat deixa de ser un complement i passa a ser el nucli del treball autònom.
1) La clau tècnica: visió “nativa”, no empeltada
Fins fa poc, moltes solucions multimodals es basaven en un patró: un encoder visual extern converteix la imatge en vectors i el model lingüístic “interpreta” aquesta representació. A K2.5, Moonshot insisteix en una diferència: el model està entrenat com a nativament multimodal, amb visió i llenguatge integrats des del preentrenament (no com un mòdul afegit). La xifra que repeteix l’equip és enorme: ~15 bilions (trillions) de tokens barrejant text i visió durant l’entrenament continu sobre la seva base prèvia.
Per què això és més que una etiqueta de màrqueting? Perquè, en teoria, redueix friccions típiques de la “multimodalitat enganxada amb cinta”: pèrdues de fidelitat en detalls, lectura deficient de layouts, fallades en OCR, o inconsistències quan una tasca exigeix raonar amb imatge i després produir codi o passos verificables. El salt que descriuen molts usuaris primerencs (i que la mateixa documentació suggereix) no és “veu una imatge”, sinó que la fa servir com a input operatiu: comprendre una interfície i replicar-la, extreure estructura d’un document, o transformar un disseny en codi funcional.
2) Del copilot a l’“eixam”: Agent Swarm com a proposta de producte
La segona gran aposta és l’agentificació a escala. Moonshot no es conforma amb “function calling” i eines: introdueix un mode específic d’agent swarm (eixam d’agents) que permet dividir un objectiu en subtasques i executar-les en paral·lel amb coordinació interna. Al seu blog, Kimi ofereix modes separats (instant, thinking, agent i agent swarm beta) i planteja l’swarm com un patró d’execució per a tasques llargues o complexes.
Aquest enfocament no és només “més agents = més velocitat”. La promesa real és més cobertura: explorar rutes alternatives, validar hipòtesis diferents, o fer QA en paral·lel (tests, lint, revisió d’interfície, comprovacions). Un exemple típic en programari: mentre un agent refactoritza, un altre escriu tests, un altre revisa edge cases i un altre documenta. L’usuari no “xateja”: gestiona un flux de treball. En el material compartit per la comunitat es parla fins i tot de desenes de subagents en paral·lel; el punt rellevant, periodísticament, és que la interfície i el model es dissenyen pensant en aquesta multiplicació com a comportament normal, no excepcional.
3) Arquitectura i eficiència: el truc del MoE per no arruïnar-te en inferència
K2.5 hereta l’ADN de Kimi K2: arquitectura Mixture-of-Experts (MoE) amb una xifra total gegantina de paràmetres, però un subconjunt activat per petició. Al repositori oficial, Moonshot torna a fixar el marc: de l’ordre d’un trillion total i desenes de milers de milions activats per inferència (cosa que redueix cost i latència en comparació amb models densos equivalents).
En paral·lel, l’enfocament cap a la quantització (per exemple, INT4 en certs escenaris) apareix com a part de l’objectiu: mantenir rendiment alt sense disparar costos, cosa crucial si vols que els “agent swarms” no siguin un luxe. Un eixam que fa 30 o 100 subtasques és inviable si cada subtasca costa com una sessió premium d’un model propietari. Aquí Moonshot intenta competir on fa mal: cost total per feina acabada, no cost per token aïllat.
4) Benchmarks que importen: SWE, HLE i vídeo multimodal
En IA és fàcil ofegar-se en taules, així que convé separar senyal de soroll. Kimi K2.5 s’està empenyent en tres fronts mesurables:
Programació: apareix amb força a SWE-Bench Verified, una referència d’“arreglar issues reals” en repositoris. VentureBeat reporta una xifra concreta (76,8% en la seva cobertura, amb comparacions davant de models propietaris), tot i que les taules exactes depenen de configuració i “thinking modes”.
Raonament/agentificació: Kimi destaca resultats en “agentic benchmarks” i emfatitza que el seu rendiment arriba “a una fracció del cost” respecte a opcions propietàries.
Vídeo: TechCrunch recull que el model entén text, imatge i vídeo, i que en benchmarks de vídeo supera alguns parells propietaris en tasques de raonament multimodal.
El rellevant aquí no és el “qui guanya per dècimes”, sinó el patró: si un open-source s’acosta als líders en codi i, a més, afegeix visió/vídeo amb un mode swarm, entra en la conversa d’eina de treball, no només de “model interessant”.
5) Kimi Code: l’ofensiva pel terminal i l’IDE
Moonshot acompanya el model amb un producte de distribució: Kimi Code, pensat per usar-se des del terminal o integrar-se amb editors. TechCrunch menciona integració amb eines com Visual Studio Code, Cursor i Zed, i la possibilitat d’usar imatges i vídeo com a input en fluxos de desenvolupament.
Això no és un detall menor: els models competeixen, sí, però les “superfícies” (CLI, plugins d’IDE, apps) són on es guanya quota. Si aconsegueixes que K2.5 sigui el motor al darrere d’un flux habitual de desenvolupament, el model deixa de ser un esdeveniment i es converteix en infraestructura. A més, el vincle “visió + codi” obre un cas d’ús molt buscat: mirar una UI (imatge/vídeo) i generar una interfície equivalent, una tasca que avui defineix bona part del ROI del “coding amb IA”.
6) L’angle geopolític i de mercat: la Xina ja juga en multimodalitat i agents
Kimi K2.5 també s’entén com un moviment del mercat xinès cap al “frontier” amb una narrativa pròpia: open-source, cost baix, multimodalitat forta i agents. TechCrunch situa Moonshot com una empresa recolzada per actors rellevants del capital asiàtic, com Alibaba i HongShan (ex Sequoia Capital China), i recorda el seu fundador, Yang Zhilin.
Aquesta base financera explica per què Moonshot pot apostar per recerca cara (15T tokens), tooling (Kimi Code, API, app) i distribució. I, de passada, per què el “silent rollout” té sentit: si tens canal propi (Kimi.com) i una comunitat àmplia, pots desplegar canvis sense dependre de la premsa per generar trànsit.
7) El que no convé exagerar: límits reals del “salt agent”
El discurs d’“agentic evolution” pot sonar a automatització total, però fins i tot la documentació oficial suggereix una lectura més sensata: K2.5 millora en orquestració, ús d’eines i percepció, però la qualitat final depèn de (1) eines disponibles, (2) permisos, (3) cost d’execució i (4) avaluació. En agent swarms, el risc no és només “que s’equivoqui”, sinó que faci molta feina equivocada en paral·lel.
Per això és important que Moonshot insisteixi en modes (instant vs thinking vs agent vs swarm) i en benchmarking reproduïble via API. Dit d’una altra manera: el producte suggereix que han après el mateix que la resta del sector: quan dones autonomia, necessites controls, traçabilitat i configuració, o el rendiment percebut s’ensorra per errors acumulats.
8) Per què aquest llançament importa encara que “sortís sense soroll”
La foto final és clara: Kimi K2.5 consolida una tendència que ja s’està imposant el 2026: la cursa no és només pel “millor xat”, sinó pel millor treballador digital. I aquest treballador digital necessita tres potes:
Percepció (visió nativa: entendre pantalles, documents, escenes, vídeos).
Execució (eines + codi + control d’entorn).
Paral·lelització (swarm/subagents per a tasques complexes amb terminis humans).
Moonshot planteja que les tres encaixen en un model open-source competitiu i, sobretot, usable: web/app/API + eina de coding. Si el rendiment real en projectes s’acosta al que prometen els benchmarks, K2.5 no serà recordat pel seu “silent rollout”, sinó per una cosa més pràctica: haver posat multimodalitat i treball agèntic a l’abast de pressupostos que abans només permetien autocompletar.