Google converteix Gemini en un sistema operatiu cognitiu i porta la IA a YouTube, Search i Workspace

Google ja no presenta Gemini com un chatbot: l’està convertint en la capa d’intel·ligència que connectarà cerca, vídeo, documents, correu, Android, productivitat, agents i generació multimèdia a tota la companyia.

Google ha celebrat aquest 19 de maig la seva conferència anual Google I/O 2026 amb una conclusió clara: la companyia vol que Gemini deixi de ser percebut com una aplicació i passi a funcionar com una infraestructura universal d’intel·ligència artificial integrada a tota la seva plataforma. L’esdeveniment de Mountain View ha servit per presentar una allau de novetats que afecten pràcticament tots els productes estratègics del gegant tecnològic: Search, YouTube, Workspace, Android, Google Cloud, generació de vídeo, agents autònoms i eines multimodals.

La sensació dominant després de l’esdeveniment és que Google està intentant recuperar la iniciativa narrativa en la cursa de la IA davant d’OpenAI, Anthropic i Microsoft. Però ho fa des d’una posició diferent. Mentre OpenAI va construir primer un producte viral i després va començar a estendre’l, Google està utilitzant un avantatge que cap altre competidor posseeix: un ecosistema de milers de milions d’usuaris distribuïts entre cercador, correu, documents, mapes, Android, YouTube i cloud.

El missatge implícit de Sundar Pichai durant la keynote va ser precisament aquest: la IA ja no és una eina aïllada, sinó la nova interfície de l’ecosistema Google.

La gran protagonista de l’esdeveniment va ser Gemini Omni, una nova família de models multimodals dissenyada per combinar generació de vídeo, imatge, àudio i raonament contextual en un únic sistema. Google la va descriure com un salt cap a la idea de “crear qualsevol cosa des de qualsevol entrada”. El primer model anunciat, Omni Flash, permet generar clips de vídeo amb so utilitzant text, imatges, àudio o vídeo previ com a base d’edició.

El concepte és important perquè marca un canvi respecte a eines anteriors com Veo. Fins ara, molts models generatius estaven especialitzats: uns creaven imatges, altres text i altres vídeo. Gemini Omni intenta fusionar aquestes capacitats dins d’un mateix model multimodal coherent. L’aposta recorda la direcció general de la indústria, on les companyies persegueixen models capaços de raonar i operar simultàniament sobre diferents formats.

Segons Google DeepMind, Omni Flash pot generar vídeos de fins a 10 segons amb àudio integrat i té molta més “comprensió del món” que generacions anteriors gràcies a la base de coneixement de Gemini.

La integració d’Omni dins de Google Flow també va ser una de les peces centrals de l’esdeveniment. Google va presentar una nova versió de Flow on els usuaris poden treballar amb agents creatius capaços d’ajudar a idear, editar i produir continguts multimèdia. La idea d’“agent creatiu” apareix constantment en la nova estratègia de Google: sistemes que no només responen preguntes, sinó que col·laboren activament en processos de treball.

La companyia va presentar Flow com un entorn on Gemini Omni actua com a motor multimèdia multimodal. Google fins i tot va comparar el sistema amb “Nano Banana per a vídeo”, en referència al model de generació d’imatges que ja havia acumulat milers de milions de creacions.

El moviment és extremadament significatiu per al futur de YouTube, Shorts i l’economia de creadors. Google vol posicionar-se no només com a distribuïdor de vídeo, sinó també com a plataforma nativa de producció audiovisual assistida per IA. Això suposa entrar directament en el territori on competeixen OpenAI amb Sora, Runway, Pika o Luma.

Però potser la novetat més estratègica de l’esdeveniment va ser l’expansió del concepte d’“agents” a tota l’experiència Google. La companyia va anunciar Daily Brief, un nou agent integrat a Gemini capaç de construir un resum personalitzat diari combinant informació de Gmail, calendari, tasques i context personal de l’usuari.

L’objectiu és que Gemini funcioni com una mena de centre operatiu cognitiu. Daily Brief organitza prioritats, sintetitza informació i proposa accions següents. Google el va presentar com “la primera parada del matí”. El sistema comença a desplegar-se per a usuaris AI Plus, Pro i Ultra als Estats Units.

La importància d’aquest anunci va molt més enllà d’una funció concreta. Google està intentant redefinir la relació entre usuari i intel·ligència artificial. El chatbot clàssic comença a quedar petit. La nova direcció apunta cap a assistents persistents que coneixen context, correu, agenda, documents, hàbits i prioritats.

OpenAI ja ha avançat parcialment en aquesta direcció amb memòria, connectors i agents. Anthropic treballa en Claude Cowork. Microsoft desenvolupa Copilot com a interfície empresarial universal. Google respon ara utilitzant l’avantatge estructural de tenir Gmail, Calendar, Docs, Android i Search dins del mateix ecosistema.

La companyia també va confirmar una profunda renovació estètica i funcional de Gemini. Google va presentar un nou llenguatge visual anomenat Neural Expressive, dissenyat per fer l’experiència més dinàmica, contextual i multimodal.

No es tracta únicament de disseny. La interfície s’està convertint en part fonamental de la guerra de la IA. Els models són cada vegada més similars en capacitats bàsiques, de manera que la diferenciació comença a desplaçar-se cap a experiència d’usuari, integració i flux de treball.

En aquesta línia, Google va anunciar millores importants per a Workspace. Els usuaris podran crear documents de Google Docs utilitzant la veu, interactuar conversacionalment amb documents i utilitzar eines tipus “Docs Live”.

L’aposta per la veu és especialment rellevant. Durant anys, la interacció dominant amb IA ha estat textual. Però Google sembla convençuda que la següent fase serà multimodal i conversacional de manera natural. L’objectiu ja no és només escriure prompts, sinó parlar, mostrar imatges, editar vídeo i navegar continguts de manera integrada.

YouTube va rebre també un dels anuncis més importants del dia. Google permetrà fer preguntes directament sobre vídeos utilitzant IA conversacional. El sistema “Ask YouTube” busca transformar la relació amb el contingut audiovisual.

Això podria alterar profundament el funcionament de YouTube com a motor de cerca audiovisual. En lloc de navegar manualment vídeos llargs, els usuaris podran preguntar directament al contingut. És un pas cap a un YouTube on la IA actua com a capa semàntica sobre milers de milions d’hores de vídeo.

Les implicacions econòmiques són enormes. YouTube no és només una plataforma d’entreteniment; és una de les majors bases de coneixement audiovisual del planeta. Si Google aconsegueix convertir Gemini en interfície universal d’accés a aquest coneixement, reforçarà enormement la seva posició davant ChatGPT i altres assistents.

Search va ser un altre gran eix de l’esdeveniment. Google va confirmar que la IA continuarà integrant-se al nucli del cercador, aprofundint el gir iniciat amb AI Overviews i AI Mode.

La companyia intenta respondre així a l’amenaça existencial que representen els chatbots conversacionals per al negoci tradicional de cerca. Durant més de vint anys, Google va organitzar la web mitjançant enllaços i rànquing. Ara necessita reorganitzar-la mitjançant respostes generades, agents i context conversacional.

El desafiament és delicat perquè el cercador continua sent la principal font d’ingressos d’Alphabet gràcies a la publicitat. Google necessita introduir IA sense destruir l’economia de Search. Per això la seva aproximació està sent gradual: respostes generatives integrades, navegació multimodal i capes conversacionals damunt del model clàssic.

La conferència també va confirmar que Gemini ja supera els 900 milions d’usuaris mensuals, segons Reuters. La xifra mostra que Google està aprofitant la seva enorme distribució per accelerar l’adopció de IA a escala massiva.

Una altra dimensió clau de l’esdeveniment va ser la infraestructura cloud. Bloomberg va revelar que Google prepara una nova empresa de cloud orientada a IA juntament amb Blackstone, amb la intenció de competir amb companyies com CoreWeave.

La notícia és fonamental perquè mostra fins a quin punt la batalla de la IA depèn ja d’infraestructura energètica i computacional. Entrenar i desplegar models multimodals gegants requereix quantitats massives de GPUs, centres de dades i energia. Google no vol dependre únicament de Google Cloud tradicional: busca construir capacitat especialitzada per a IA generativa.

Això connecta amb una transformació més profunda del negoci tecnològic. Durant anys, les empreses cloud competien per emmagatzematge i computació clàssica. Ara competeixen per capacitat d’inferència i entrenament per a models d’IA.

Google també va aprofitar l’esdeveniment per reforçar la seva narrativa empresarial. Sundar Pichai va insistir que les empreses poden estalviar milers de milions utilitzant models Gemini més eficients.

Aquest discurs respon a un problema creixent del sector: el cost. La IA generativa consumeix enormes recursos. Moltes companyies comencen a descobrir que desplegar agents, models multimodals i automatització massiva és extremadament car. Google vol posicionar-se com el proveïdor més eficient i rendible.

Android XR i les ulleres intel·ligents també van tenir una presència important. Google va mostrar avenços en dispositius XR i noves aliances amb marques com Warby Parker i Gentle Monster.

Encara que continuen semblant productes de transició, la direcció estratègica és clara: Google creu que la IA acabarà desplaçant-se cap a interfícies permanents i ubiqües. Ulleres, assistents persistents i agents contextuals formen part d’aquesta visió.

La companyia també va insistir molt en SynthID i eines de detecció de contingut generat per IA. Això revela que Google assumeix que la pròxima fase d’internet estarà inundada de continguts sintètics i que serà necessari autenticar procedència i manipulació.

L’anunci de Gemini 3.5 Flash va ser una altra peça rellevant. Google va presentar el model com més ràpid, eficient i orientat a automatització i programació.

La guerra entre OpenAI, Anthropic i Google s’està movent clarament cap a programació assistida i agents autònoms. Claude Code, Codex, Gemini Flash i eines similars representen una nova categoria de software on la IA deixa de ser només chatbot per convertir-se en col·laborador tècnic.

Google també va deixar entreveure que el concepte d’“agent” serà central en tota la seva estratègia futura. El terme va aparèixer constantment durant la keynote: agents creatius, agents de productivitat, agents de cerca, agents de vídeo i agents empresarials.

Això suposa una transició conceptual important. La indústria comença a abandonar la idea d’IA com a simple interfície conversacional. El nou objectiu és construir sistemes capaços d’executar tasques complexes, coordinar eines i operar amb cert grau d’autonomia.

La diferència entre un chatbot i un agent és enorme. Un chatbot respon. Un agent actua.

Google vol clarament posicionar-se en aquesta transició abans que OpenAI, Microsoft o Anthropic consolidin avantatge narratiu.

L’esdeveniment d’avui també va mostrar una altra realitat: la IA ja no és un producte separat dins Google. S’està convertint en l’estructura organitzativa de tota la companyia. Gemini apareix a Search, Docs, Gmail, Android, YouTube, Flow, Workspace i Cloud. La IA ja no és un experiment; és el nou sistema operatiu conceptual de Google.

La pregunta ara és si Google aconseguirà convertir aquesta integració massiva en avantatge competitiu real davant OpenAI. Durant els últims anys, la companyia va ser criticada per reaccionar tard al fenomen ChatGPT tot i haver inventat gran part de la tecnologia subjacent.

I/O 2026 sembla dissenyat precisament per respondre a aquesta percepció. Google vol demostrar que no només té models potents, sinó també l’ecosistema més gran del món per desplegar-los.

El problema és que la companyia també arrossega contradiccions. Ha de protegir Search sense destruir-lo amb IA. Ha de monetitzar Gemini sense canibalitzar publicitat. Ha d’introduir agents sense generar rebuig per privacitat. I ha de competir en creativitat generativa mentre controla riscos de desinformació i contingut sintètic.

Tot i així, l’esdeveniment deixa una conclusió contundent: Google ha decidit accelerar de forma radical la transformació de tots els seus productes al voltant de Gemini.

L’era del cercador clàssic està acabant. L’era de l’ecosistema cognitiu multimodal acaba de començar.

Tags:

agents autònoms agents IA Android XR Ask YouTube Blackstone CoreWeave Daily Brief Flow Google Gemini AI Gemini Flash Gemini Omni Gemini Ultra Google AI Google Cloud Google Deepmind Google Docs Google Flow Google Gemini Google I/O 2026 Google I/O novetats Google Search Google Workspace IA de Google IA Generativa IA multimodal intel·ligència artificial multimodal Omni Flash Search AI Sundar Pichai vídeo generatiu Workspace AI YouTube IA YouTube Shorts

Google converteix Gemini en un sistema operatiu cognitiu i porta la IA a YouTube, Search i Workspace

Google ja no presenta Gemini com un chatbot: l’està convertint en la capa d’intel·ligència que connectarà cerca, vídeo, documents, correu, Android, productivitat, agents i generació multimèdia a tota la companyia.

Tags:

Paréntesis MEDia

Previous PostUtah es rebel·la contra el gran centre de dades de la IA

Next PostLleó XIV porta la IA a la doctrina social: la primera encíclica del Papa reunirà el Vaticà i Anthropic

Leave a Reply

Qui som

Política de Privadesa

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)