Skip to main content

Google Research (en col·laboració amb DeepMind) acaba de presentar VaultGemma, descrit com “el model més capacitat entrenat des de zero amb privacitat diferencial” (differential privacy, DP). El seu objectiu: reduir la zona fosca entre utilitarisme i privacitat en els grans models de llenguatge, mantenint un nivell fort de protecció formal.

El repte de fons és que aplicar privacitat diferencial a models d’aquest tipus implica costos significatius. D’una banda, afegir soroll (noise) per garantir privacitat sol degradar l’estabilitat de l’entrenament: poden sorgir pics de pèrdua (“loss spikes”) o fins i tot divergències. D’altra banda, es requereixen lots de dades molt grans (“batch size”) i un major còmput per compensar el soroll afegit. Google/DeepMind elaboren unes lleis d’escalat (scaling laws) que modelen com interactuen la mida del model, la quantitat de dades, el pressupost de privacitat, i el cost computacional.

Amb base en aquestes lleis, VaultGemma es va construir com un model de ~1.000 milions de paràmetres (1B) entrenat des de zero amb privacitat diferencial, usant metodologies optimitzades. Dues novetats tècniques importants:

  • Ús de mostreig de Poisson per als exemples d’entrenament, la qual cosa permet millors garanties de privacitat en reduir el soroll necessari.
  • Adaptacions per mantenir lots de mida fixa (padding o retall) encara que les dades entrenin amb mostreig aleatori, preservant garanties mentre s’aprofiten eficiències.

Rendiment i garanties formals

En benchmarks acadèmics estàndard – com HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC – VaultGemma rendeix considerablement a prop de models no privats de mida similar, encara que per darrere dels més avançats. Comparativament, la seva utilitat és similar a la de models no privats de fa uns cinc anys. És a dir: hi ha progrés, però encara no està finalitzat.

Pel que fa a privacitat formal es refereix, VaultGemma va ser entrenat amb garantia de privacitat diferencial a escala de seqüència (“sequence-level DP”), amb paràmetres ε ≤ 2.0 i δ ≤ 1.1·10⁻¹⁰, usant seqüències de 1.024 tokens extretes de fonts heterogènies. En proves de memorització, es va verificar que per a un “prefix” donat de 50 tokens pres d’un document d’entrenament, el model no reproduïa el sufix corresponent de 50 tokens, la qual cosa suggereix que no memoritza directament aquests fragments.

Implicacions i reptes

VaultGemma marca un hite: demostra que models relativament grans poden entrenar-se amb DP mantenint un grau d’utilitat útil. Proveeix a més unes regles pràctiques (“scaling laws”) que poden servir de full de ruta a altres desenvolupadors que vulguin replicar aquest enfocament. No obstant això:

  • El cost computacional encara és alt, tant en hardware com en temps, la qual cosa limita la seva adopció immediata en moltes organitzacions.
  • El rendiment roman per darrere dels models privats “no DP” més moderns, particularment en tasques complexes.
  • La garantia de privacitat és “per seqüència”, la qual cosa no equival necessàriament a privacitat per usuari; si molts documents comparteixen certa informació delicada, aquest es podria inferir en haver-hi múltiples seqüències relacionades.

En conclusió, VaultGemma representa un pas significatiu cap a models de llenguatge que integren la privacitat com a fonament, no afegit. La ruta cap a models encara més potents amb garanties formals robustes implica continuar refinant la mecànica de l’entrenament, millorar les lleis d’escalat i reduir els costos associats. Per a la comunitat d’IA responsable, aquest és sens dubte un desenvolupament prometedor.

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Leave a Reply