Anthropic vient de partager les règles suivies par son chatbot Claude 3, mais comment

Anthropic vient de partager les règles suivies par son chatbot Claude 3, mais comment

[ad_1]

La dernière étape en avant dans le développement des grands modèles de langage (LLM) a eu lieu plus tôt cette semaine, avec la sortie d'une nouvelle version de Claude, le LLM développé par la société d'IA Anthropic, dont les fondateurs ont quitté OpenAI fin 2020 en raison d'inquiétudes concernant les performances de l'entreprise. rythme de développement.

Mais parallèlement à la sortie de Claude 3, qui établit de nouveaux records dans les tests populaires utilisés pour évaluer les prouesses des LLM, une deuxième innovation, plus inhabituelle, est apparue. Deux jours après qu'Anthropic ait dévoilé Claude 3 au monde, Amanda Askell, philosophe et éthicienne qui étudie l'alignement de l'IA à Anthropic et qui a travaillé sur le LLM, partagé l'invite système du modèle sur X (anciennement Twitter).

L'invite système de Claude compte un peu plus de 200 mots, mais décrit sa vision du monde. « Il doit donner des réponses concises à des questions très simples, mais fournir des réponses approfondies à des questions plus complexes et ouvertes », indique l'invite. Il contribuera à l’accomplissement des tâches à condition que les opinions exprimées soient partagées par « un nombre important de personnes » – « même s’il est personnellement en désaccord avec les opinions exprimées ». Et il ne s’engage pas dans des stéréotypes, « y compris les stéréotypes négatifs des groupes majoritaires ».

En plus de partager le texte, Askell a ensuite contextualisé les décisions prises par l'entreprise en écrivant l'invite du système. Le paragraphe encourageant Claude à aider, à condition qu'un nombre significatif partage le même point de vue, a été spécifiquement inséré car Claude était un peu plus susceptible de refuser des tâches si l'utilisateur exprimait des opinions de droite, Askell a admis.

Rumman Chowdhury, cofondateur et PDG de Humane Intelligence, se félicite de la transparence derrière le partage de l'invite du système et pense que davantage d'entreprises devraient décrire les principes fondamentaux qui sous-tendent la manière dont leurs modèles sont codés pour répondre. «Je pense qu'il y a une demande appropriée de transparence et que c'est une bonne étape de partager des invites», dit-elle.

D'autres sont également agréablement surpris par l'ouverture d'Anthropic. « C'est vraiment rafraîchissant de voir l'un des grands fournisseurs d'IA faire preuve de plus de transparence sur le fonctionnement de son système », déclare Simon Willison, programmeur britannique et observateur de l'IA. « Les invites système pour d'autres systèmes tels que ChatGPT peuvent être lues via des hacks de fuite d'invites, mais étant donné leur utilité pour comprendre comment utiliser au mieux ces outils, il est frustrant de devoir utiliser des astuces avancées pour les lire. »

Anthropic, le créateur de Claude 3, a refusé de rendre Askell disponible pour une interview et est le seul développeur LLM majeur à partager l'invite de son système.

Mike Katell, chercheur en éthique à l'Institut Alan Turing, soutient prudemment la décision d'Anthropic. « Il est possible que les invites du système aident les développeurs à implémenter Claude de manière plus contextuelle, ce qui pourrait rendre Claude plus utile dans certains contextes », dit-il. Cependant, Katell affirme que « cela ne fait pas grand-chose pour résoudre les problèmes sous-jacents de la conception et de la formation des modèles qui conduisent à des résultats indésirables, tels que le racisme, la misogynie, les mensonges et le contenu de théorie du complot que les agents de chat crachent fréquemment ».

Katell craint également qu’une telle transparence radicale ait une arrière-pensée – délibérément ou accidentellement. « Rendre les invites du système disponibles obscurcit également les lignes de responsabilité pour de tels résultats », dit-il. « Anthropic aimerait transférer toute la responsabilité du modèle aux utilisateurs et aux développeurs en aval, et fournir une apparence de configurabilité est un moyen d'y parvenir. »

Sur ce point, Chowdhury est d’accord. Même s’il s’agit là d’une sorte de transparence – et tout vaut mieux que rien – cela ne suffit pas à expliquer le fonctionnement de ces modèles. « Il est bon de connaître l'invite du système, mais cela ne donne pas une image complète de l'activité du modèle », explique Chowdhury. Comme pour tout ce qui concerne l'ensemble actuel d'outils d'IA générative, c'est bien plus compliqué que cela, explique-t-elle : « Une grande partie sera basée sur les données de formation, les réglages fins, les garanties et l'interaction des utilisateurs. »



[ad_2]