Voxtral: el model de veu de Mistral que entén, transcriu i actua

La startup francesa Mistral ha presentat Voxtral, el seu primer model de veu de codi obert pensat per a empreses. Promet transcriure, comprendre i executar ordres parlades, amb precisió professional i sense dependre de plataformes tancades.

Com funciona Voxtral

Voxtral és un model d’intel·ligència artificial que converteix àudio en text i entén el que es diu. Utilitza com a base Mistral Small 3.1, un model entrenat per captar el significat complet d’una conversa.
Hi ha dues versions: una petita (Mini, amb 3.000 milions de paràmetres) per funcionar en dispositius locals o edge; i una altra més gran (Small, amb 24.000 milions) pensada per a servidors al núvol. Ambdues permeten analitzar fins a 30 minuts d’àudio amb comprensió contextual.

Què ofereix exactament

Voxtral transcriu àudio en diversos idiomes —espanyol, anglès, francès, alemany, italià, portuguès, neerlandès i hindi— i també permet interactuar amb el contingut. Per exemple, se li pot preguntar sobre el que algú va dir o demanar-li que resumeixi una conversa.
A més, va un pas més enllà i pot detectar comandes en la veu i llançar accions automàtiques, com respondre correus o activar sistemes externs, sense intervenció humana.

Dades, privacitat i control

El model és completament open source, sota llicència Apache 2.0. Això significa que les empreses poden utilitzar-lo, adaptar-lo i allotjar-lo sense cedir les seves dades a tercers.
Està disponible a través d’una API o per descàrrega directa des de plataformes com Hugging Face, cosa que facilita integrar-lo en productes propis o utilitzar-lo en entorns privats.

Quin rendiment ofereix

En proves publicades per Mistral, Voxtral supera models populars com Whisper (d’OpenAI), ElevenLabs Scribe i Gemini 2.5 Flash tant en precisió com en cost.
La versió Mini, optimitzada per transcriure, també manté un rendiment alt i cost baix, cosa que la fa atractiva per a desenvolupaments mòbils o sense connexió.

El dilema del model obert

El llançament planteja una vella tensió en el món de la IA: models tancats que ofereixen resultats polits però poc controlables, davant d’opcions obertes que prioritzen transparència i flexibilitat. Voxtral vol ocupar un punt mitjà: obert però fiable.
El repte serà veure si manté el seu nivell en entorns reals, on la qualitat de l’àudio, els accents o el soroll poden complicar la comprensió. I si no es repeteixen problemes com els de Whisper, que va arribar a inventar paraules en el procés de transcripció.

Què es mou en el sector

Voxtral se suma al recent model Magistral, de la mateixa empresa, enfocat en raonament. Mistral, recolzada per Microsoft i fons d’Abu Dhabi, competeix directament amb gegants com OpenAI i Google. La seva estratègia es basa a oferir IA potent sense tancar-la al públic ni lligar-la a una plataforma.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Tags:

Voxtral: el model de veu de Mistral que entén, transcriu i actua

Com funciona Voxtral

Què ofereix exactament

Dades, privacitat i control

Quin rendiment ofereix

El dilema del model obert

Què es mou en el sector

Tags:

Aina Vall

Previous PostQuatre claus per créixer amb la IA sense perdre el nord

Next PostGoogle obre la llibreta: arriben els notebooks ja fets pel seu assistent d'IA

Leave a Reply

Qui som

Política de Privadesa

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)