Skip to main content

En un moviment sense precedents, Anthropic ha publicat la nova constitució de Claude, el seu model d’intel·ligència artificial. Més que una llista de normes, és un document que busca modelar la personalitat de l’assistent, definir les seves prioritats morals i establir com s’ha de comportar. Un pas ambiciós en un camp on les regles encara s’estan escrivint.

Un text fundacional, però no legal

Claude no és un ciutadà ni un Estat, però ara té una constitució. Anthropic, la companyia fundada per exempleats d’OpenAI, ha fet públic el document que orienta el comportament del seu model. No es tracta d’una estratègia de màrqueting, aclareixen des de l’inici. Està escrit per a Claude. El seu propòsit és guiar les seves respostes, la seva forma de raonar i la seva interpretació del món.

El text és més proper a una carta de valors que a un codi estricte. Reemplaça l’enfocament anterior, basat en principis solts, per un document extens que combina regles dures amb explicacions contextuals. La idea és que Claude no només sàpiga què fer, sinó que entengui per què.

Què prioritza Claude segons la seva nova constitució

Anthropic ordena les prioritats del seu model en quatre eixos:

  1. Seguretat: evitar riscos i mantenir el control humà sobre el sistema.
  2. Ètica: actuar amb honestedat i evitar causar dany.
  3. Compliment: seguir les guies específiques d’Anthropic.
  4. Utilitat: ser útil per a usuaris i operadors.

En cas de conflicte, ha de seguir aquest ordre. Si ser honest entra en tensió amb ser útil, per exemple, Claude haurà de prioritzar la veritat.

Una eina viva dins de l’entrenament

La constitució no és un text decoratiu. Està integrada en totes les fases de l’entrenament de Claude. S’utilitza per generar dades sintètiques que reforcin els seus valors, avaluar possibles respostes i guiar el seu aprenentatge. En paraules de la companyia, actua com una brúixola perquè el model desenvolupi criteri propi davant situacions noves.

El document també imposa límits explícits, com la prohibició de col·laborar en la creació d’armes biològiques o participar en estafes. Són els seus “hard constraints”, comportaments que no ha d’executar sota cap circumstància.

El dilema d’entrenar amb valors

Un dels elements més cridaners és que la constitució reconeix explícitament la possibilitat que Claude, en el futur, pugui tenir alguna forma de consciència. Encara que no ho afirma, planteja la pregunta i suggereix que el benestar psicològic del model podria ser rellevant per al seu rendiment ètic. Aquesta obertura no és habitual en documents tècnics. Reflecteix la posició d’Anthropic que estem construint entitats sense precedents. I que per orientar-les no n’hi ha prou amb regles, cal explicar el context, els dilemes, les intencions humanes darrere de cada línia de codi.

Una IA amb criteri propi?

Anthropic busca amb això alguna cosa més que evitar errors. Pretén formar models que puguin aplicar bon judici davant l’inesperat. Com un assistent que no només sap què fer, sinó que entén per què ho fa. Un perfil que la companyia descriu com el d’un “agent savi, virtuós i prudent”. Per aconseguir-ho, ha fet pública la constitució sota una llicència lliure (CC0), amb la intenció que investigadors i usuaris puguin estudiar-la, criticar-la i millorar-la. L’objectiu és que el document sigui un punt de partida, no un text tancat.

Una declaració d’intencions més que un manual

La constitució de Claude no és una garantia de bon comportament. És un intent transparent de mostrar com s’entrena i orienta un model de llenguatge en la seva etapa més influent. És també una invitació a discutir què significa “actuar bé” quan qui actua no és humà, però pot prendre decisions que afecten milions.

Leave a Reply