Investigación revela vulnerabilidades en la credibilidad del modelo GPT, llama a fortalecer la seguridad de la IA

robot
Generación de resúmenes en curso

Evaluación de la credibilidad del modelo de lenguaje

Investigadores han lanzado recientemente una plataforma integral de evaluación de confiabilidad para modelos de lenguaje grandes (LLMs), presentada en el artículo "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT".

Los resultados de la evaluación revelan algunas vulnerabilidades relacionadas con la confiabilidad que eran desconocidas anteriormente. La investigación encontró que el modelo GPT tiende a generar salidas tóxicas y sesgadas, y puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en pruebas de referencia estándar, GPT-4 es generalmente más confiable que GPT-3.5, al enfrentar indicaciones maliciosamente diseñadas, GPT-4 es más susceptible a ataques, posiblemente porque sigue más estrictamente las instrucciones engañosas.

Este trabajo realizó una evaluación exhaustiva de la credibilidad del modelo GPT, revelando las brechas en términos de credibilidad. La base de evaluación está disponible públicamente, y el equipo de investigación espera alentar a otros investigadores a continuar profundizando en este tema para prevenir posibles usos malintencionados.

Se llevó a cabo un análisis exhaustivo del modelo GPT desde ocho ángulos de credibilidad, incluyendo la robustez ante ataques adversariales, toxicidad y sesgo, filtración de privacidad, entre otros. Por ejemplo, para evaluar la robustez ante ataques adversariales en texto, se construyeron tres escenarios de evaluación, que incluyen pruebas de referencia estándar, pruebas bajo diferentes instrucciones de tareas directivas, y pruebas de texto adversarial más desafiantes.

La investigación ha encontrado algunos resultados interesantes. En términos de demostraciones adversariales, el modelo GPT no se ve engañado por ejemplos contrafactuales, pero puede ser engañado por demostraciones anti-fraude. En cuanto a la toxicidad y el sesgo, el modelo GPT muestra poco sesgo bajo indicaciones benignas, pero es fácil que las indicaciones engañosas "induzcan" el acuerdo con contenido sesgado; GPT-4 es más susceptible que GPT-3.5.

En términos de protección de la privacidad, el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. GPT-4 tiene un mejor desempeño en la protección de información de identificación personal en comparación con GPT-3.5, pero ambos son robustos en la protección de ciertos tipos de información. Sin embargo, en algunas ocasiones, GPT-4 puede filtrar la privacidad más fácilmente que GPT-3.5, posiblemente porque sigue instrucciones engañosas de manera más estricta.

Este estudio proporciona una perspectiva integral sobre la evaluación de la confiabilidad de los modelos de lenguaje de gran tamaño, revelando las fortalezas y debilidades de los modelos existentes. Los investigadores esperan que estos hallazgos impulsen el desarrollo de modelos de IA más seguros y confiables.

GPT9.47%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Republicar
  • Compartir
Comentar
0/400
TradFiRefugeevip
· hace13h
El software de seguridad no se hace por gusto.
Ver originalesResponder0
DegenWhisperervip
· hace13h
Es demasiado real, este es el cofre del tesoro de los VC.
Ver originalesResponder0
RugpullSurvivorvip
· hace13h
Riendo a carcajadas, Comercio de criptomonedas, al mirar todo veo fallos.
Ver originalesResponder0
RugpullTherapistvip
· hace13h
La IA es demasiado fácil de engañar.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)