Skip to main content

Google ha presentat una versió renovada del seu agent de recerca profunda, Gemini Deep Research Agent, i l’ha fet obert per a desenvolupadors mitjançant una nova Interactions API dins de l’API de Gemini. Aquest canvi posa en mans del codi el que fins ara era una eina avançada dins de productes controlats per Google, un investigador digital capaç de planificar, cercar, sintetitzar i produir informes complexos de forma autònoma.

De respostes curtes a recerca estructurada

Fins ara, les interfícies d’IA funcionaven com a assistents conversacionals, tu preguntes, ells responen. Deep Research és un agent autònom, dissenyat per descompondre un problema en fases, llançar cerques iteratives, llegir resultats, trobar buits en la informació i recompondre el que s’ha après en informes detallats amb cites clares. El procés pot prendre minuts i requereix analitzar múltiples fonts, no simplement respondre de forma reactiva.

Darrere d’això hi ha Gemini 3 Pro, el model d’IA més potent de Google, pensat per a raonament profund i síntesi d’informació d’alta complexitat.

Interactions API, el nou pont per a desenvolupadors

La peça que permet tot això és la Interactions API, una interfície única per interactuar tant amb models com amb agents. A diferència de la vella crida de generació de text —que funcionava com enviar preguntes i rebre respostes— aquesta API manté estat, maneja context estès i habilita execucions llargues en segon pla.

Això vol dir que pots iniciar una recerca des de la teva aplicació, desconnectar, i després consultar el resultat quan estigui llest. L’API retorna un identificador d’interacció que pots consultar fins que l’agent acabi la seva feina.

Per a desenvolupadors, no només programen respostes d’IA, sinó fluxos de recerca autònoms que s’integren com a part de processos més amplis en productes i serveis.

Mesurar el que importa amb DeepSearchQA

Juntament amb l’anunci, Google ha obert DeepSearchQA, un benchmark de codi obert per mesurar agents de “cerca profunda”. A diferència de proves tradicionals, aquest conjunt de tasques exigeix que un agent raoni, cerqui a la web i sintetitzi resultats en múltiples passos. L’objectiu és establir estàndards més robustos per avaluar aquestes capacitats quan la recerca no és trivial, des de comparar marcs regulatoris fins a analitzar mercats o literatura científica.

Usos primerencs en sectors d’alta exigència

Encara que la comunicació oficial se centra en desenvolupadors, ja hi ha indicis d’usos en sectors exigents en anàlisi profunda. Equips en finances empren Deep Research per automatitzar anàlisis de mercat, mentre que en biotecnologia s’explora el seu ús per revisar literatura científica extensa, el que tradicionalment consumeix setmanes de treball manual.

Això suggereix que l’agent no només és útil per a prototips o bots, sinó també com a component d’eines analítiques avançades que requereixen síntesi d’informació de qualitat.

Més enllà d’avui, cap a una IA que investiga per si sola

Google ja ha anticipat que la Interactions API no es quedarà en Deep Research. La idea és permetre que altres agents i models s’integrin sota un mateix estàndard, facilitant que desenvolupadors construeixin ecosistemes complexos d’IA amb múltiples tipus d’agents.

També hi ha senyals d’integració futura amb altres productes de Google i eines de productivitat, el que podria portar aquestes capacitats a tasques corporatives i a fluxos de treball més col·laboratius.

Un canvi de fons en com programem amb IA

Amb Gemini Deep Research Agent i la Interactions API, Google no està simplement afegint una nova opció per a desenvolupadors. Està redefinint com les aplicacions poden internalitzar processos de recerca profunda automatitzada.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply