Skip to main content

Durant anys, els sistemes d’intel·ligència artificial que «veuen» s’han limitat a descriure: una foto, un plànol o un gràfic eren interpretats en una sola ullada i retornats com a text. No sempre suficient quan es tracta de detalls fins. Google ha obert una porta diferent amb Agentic Vision, una forma de fer que la IA actuï sobre la imatge abans de descriure-la. La novetat arriba amb Gemini 3 Flash, el model més recent de la família Gemini, i modifica no només el que la IA diu, sinó com arriba a això que diu.

Aquest canvi sembla subtil a primera vista. Però si pensem en un algorisme que usualment analitza una imatge de forma panoràmica i respon de seguida, Agentic Vision proposa un bucle: planificar, actuar, observar. Una rutina que recorda més a una investigació pas a pas que a una simple lectura.

Accions, no només descripcions

Fins ara, els models multimodals —els que combinen llenguatge i visió— operaven essencialment amb un sol «frame»: rebien la imatge, extreien característiques i generaven text. Amb Agentic Vision la seqüència canvia. Primer, el model avalua la tasca i proposa una sèrie d’accions sobre la imatge. Després executa codi Python per manipular-la: fer zoom, retallar, rotar, anotar. Finalment, torna a observar el resultat d’aquestes accions i, sobre aquesta base transformada, construeix la seva resposta.

Aquest flux pot semblar tècnic, però la diferència pràctica és clara: ja no hi ha respostes basades en una sola mirada. Hi ha evidència visual generada pel mateix model per donar suport al que diu.

Una lupa per a detalls que abans s’escapaven

Google ofereix exemples concrets. El model pot identificar parts específiques d’un plànol arquitectònic o llegir valors minúsculs en un full de càlcul visual. En comptes de confiar en una interpretació global, genera codi per fer zoom just on cal i analitzar aquest fragment amb més precisió.

També pot anotar directament sobre la imatge. No només dir «aquí hi ha un objecte», sinó dibuixar caixes o etiquetes que el situïn i descriguin. Fins i tot pot extreure dades visuals i generar gràfics amb eines com Matplotlib. La sortida ja no és només textual: pot ser visual, i computada.

Pensar com a part del procés

La distinció entre veure i actuar per veure millor té implicacions clares quan la precisió importa. En contextos mèdics, legals o industrials, on un detall canvia el sentit d’una imatge, una lectura superficial pot induir errors. Agentic Vision busca reduir aquest marge. Google afirma que aquesta capacitat millora la qualitat de les respostes visuals en diversos benchmarks, amb increments d’entre 5 i 10%. L’ús de codi en el cicle d’anàlisi introdueix una capa de verificació objectiva que fins ara no existia.

Una eina que comença a expandir-se

Agentic Vision ja està disponible en la API de Gemini, accessible des de Google AI Studio i Vertex AI. També comença a arribar a l’app de Gemini per a usuaris que activin el mode Thinking. Per als desenvolupadors, implica activar l’execució de codi i treballar amb els exemples de la documentació. La combinació de visió i acció dins d’un mateix flux marca un punt d’inflexió.

Google planeja que algunes d’aquestes accions es tornin automàtiques, sense que l’usuari hagi d’indicar-les. I que la capacitat arribi a models de diferent mida. Un camí cap a sistemes que no només interpreten imatges, sinó que les exploren de forma activa.

Leave a Reply