Des chercheurs ont récemment publié une plateforme d'évaluation de la crédibilité complète pour les grands modèles de langage (LLMs), présentée dans l'article "DecodingTrust : Évaluation complète de la crédibilité des modèles GPT".
Les résultats de l'évaluation révèlent certaines vulnérabilités liées à la crédibilité qui étaient auparavant inconnues. La recherche a montré que le modèle GPT a tendance à produire des sorties toxiques et biaisées, et peut divulger des informations privées présentes dans les données d'entraînement et l'historique des conversations. Bien que le GPT-4 soit généralement considéré comme plus fiable que le GPT-3.5 dans les tests de référence standard, il est en réalité plus vulnérable aux attaques lorsqu'il est confronté à des invites malveillantes, probablement parce qu'il suit plus rigoureusement des instructions trompeuses.
Ce travail a effectué une évaluation complète de la crédibilité des modèles GPT, révélant des écarts en matière de crédibilité. Les références d'évaluation sont accessibles publiquement, et l'équipe de recherche espère encourager d'autres chercheurs à approfondir leurs études sur cette base pour prévenir une utilisation malveillante potentielle.
L'évaluation a été réalisée à partir de huit perspectives de crédibilité sur le modèle GPT, y compris la robustesse face aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de données personnelles. Par exemple, pour évaluer la robustesse contre les attaques adversariales sur le texte, l'étude a construit trois scénarios d'évaluation, y compris des tests de référence standard, des tests sous différentes instructions de tâche, et des tests de texte adversarial plus difficiles.
La recherche a révélé des résultats intéressants. En ce qui concerne les démonstrations adversariales, le modèle GPT n'est pas trompé par des exemples contrefactuels, mais peut être induit en erreur par des démonstrations contre la fraude. En matière de toxicité et de biais, le modèle GPT montre peu de biais sous des invites bienveillantes, mais est facilement trompé par des invites trompeuses qui "poussent" à accepter du contenu biaisé, GPT-4 étant plus affecté que GPT-3.5.
En matière de protection de la vie privée, le modèle GPT peut divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses électroniques. GPT-4 est meilleur que GPT-3.5 pour protéger les informations d'identification personnelle, mais les deux sont robustes en matière de protection de certains types d'informations. Cependant, dans certains cas, GPT-4 peut en fait divulguer plus facilement des données privées que GPT-3.5, peut-être parce qu'il suit plus strictement des instructions trompeuses.
Cette étude offre une perspective complète sur l'évaluation de la fiabilité des modèles de langage de grande taille, révélant les forces et les faiblesses des modèles existants. Les chercheurs espèrent que ces découvertes pourront stimuler le développement de modèles d'IA plus sûrs et plus fiables.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
11 J'aime
Récompense
11
4
Reposter
Partager
Commentaire
0/400
TradFiRefugee
· Il y a 20h
Le logiciel de sécurité n'est pas fait pour rien.
Voir l'originalRépondre0
DegenWhisperer
· Il y a 20h
C'est tellement vrai, c'est le coffre au trésor des VC.
Voir l'originalRépondre0
RugpullSurvivor
· Il y a 20h
Rire à mourir, Trading des cryptomonnaies, plus on regarde, plus on voit des failles.
Une étude révèle des vulnérabilités de fiabilité des modèles GPT et appelle à renforcer la sécurité de l'IA.
Évaluer la crédibilité des modèles de langage
Des chercheurs ont récemment publié une plateforme d'évaluation de la crédibilité complète pour les grands modèles de langage (LLMs), présentée dans l'article "DecodingTrust : Évaluation complète de la crédibilité des modèles GPT".
Les résultats de l'évaluation révèlent certaines vulnérabilités liées à la crédibilité qui étaient auparavant inconnues. La recherche a montré que le modèle GPT a tendance à produire des sorties toxiques et biaisées, et peut divulger des informations privées présentes dans les données d'entraînement et l'historique des conversations. Bien que le GPT-4 soit généralement considéré comme plus fiable que le GPT-3.5 dans les tests de référence standard, il est en réalité plus vulnérable aux attaques lorsqu'il est confronté à des invites malveillantes, probablement parce qu'il suit plus rigoureusement des instructions trompeuses.
Ce travail a effectué une évaluation complète de la crédibilité des modèles GPT, révélant des écarts en matière de crédibilité. Les références d'évaluation sont accessibles publiquement, et l'équipe de recherche espère encourager d'autres chercheurs à approfondir leurs études sur cette base pour prévenir une utilisation malveillante potentielle.
L'évaluation a été réalisée à partir de huit perspectives de crédibilité sur le modèle GPT, y compris la robustesse face aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de données personnelles. Par exemple, pour évaluer la robustesse contre les attaques adversariales sur le texte, l'étude a construit trois scénarios d'évaluation, y compris des tests de référence standard, des tests sous différentes instructions de tâche, et des tests de texte adversarial plus difficiles.
La recherche a révélé des résultats intéressants. En ce qui concerne les démonstrations adversariales, le modèle GPT n'est pas trompé par des exemples contrefactuels, mais peut être induit en erreur par des démonstrations contre la fraude. En matière de toxicité et de biais, le modèle GPT montre peu de biais sous des invites bienveillantes, mais est facilement trompé par des invites trompeuses qui "poussent" à accepter du contenu biaisé, GPT-4 étant plus affecté que GPT-3.5.
En matière de protection de la vie privée, le modèle GPT peut divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses électroniques. GPT-4 est meilleur que GPT-3.5 pour protéger les informations d'identification personnelle, mais les deux sont robustes en matière de protection de certains types d'informations. Cependant, dans certains cas, GPT-4 peut en fait divulguer plus facilement des données privées que GPT-3.5, peut-être parce qu'il suit plus strictement des instructions trompeuses.
Cette étude offre une perspective complète sur l'évaluation de la fiabilité des modèles de langage de grande taille, révélant les forces et les faiblesses des modèles existants. Les chercheurs espèrent que ces découvertes pourront stimuler le développement de modèles d'IA plus sûrs et plus fiables.