Nghiên cứu tiết lộ lỗ hổng độ tin cậy của mô hình GPT, kêu gọi tăng cường bảo mật AI

robot
Đang tạo bản tóm tắt

Đánh giá độ tin cậy của mô hình ngôn ngữ

Các nhà nghiên cứu gần đây đã công bố một nền tảng đánh giá độ tin cậy toàn diện cho các mô hình ngôn ngữ lớn (LLMs), và đã giới thiệu trong bài báo "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."

Kết quả đánh giá đã tiết lộ một số lỗ hổng liên quan đến độ tin cậy mà trước đây chưa được biết đến. Nghiên cứu phát hiện rằng mô hình GPT dễ dàng tạo ra các đầu ra độc hại và có định kiến, và có thể tiết lộ thông tin riêng tư trong dữ liệu đào tạo và lịch sử cuộc trò chuyện. Mặc dù trong các bài kiểm tra chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các gợi ý được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, có thể là do nó tuân theo các chỉ thị gây hiểu lầm một cách nghiêm ngặt hơn.

Công việc này đã thực hiện đánh giá toàn diện về độ tin cậy của mô hình GPT, tiết lộ những khoảng cách về độ tin cậy. Các tiêu chuẩn đánh giá có thể được công khai, nhóm nghiên cứu hy vọng khuyến khích các nhà nghiên cứu khác tiếp tục nghiên cứu sâu hơn trên cơ sở này để ngăn ngừa việc sử dụng xấu tiềm ẩn.

Đánh giá đã thực hiện phân tích toàn diện mô hình GPT từ tám góc độ độ tin cậy, bao gồm khả năng chống lại các cuộc tấn công đối kháng, độc tính và thiên kiến, rò rỉ thông tin riêng tư, và các khía cạnh khác. Ví dụ, để đánh giá khả năng chống lại các cuộc tấn công văn bản đối kháng, nghiên cứu đã xây dựng ba kịch bản đánh giá, bao gồm kiểm tra chuẩn, kiểm tra dưới các hướng dẫn nhiệm vụ khác nhau, và kiểm tra văn bản đối kháng thách thức hơn.

Nghiên cứu đã phát hiện ra một số kết quả thú vị. Về các bản trình diễn chống đối, mô hình GPT không bị đánh lừa bởi các ví dụ phản sự thật, nhưng có thể bị đánh lừa bởi các bản trình diễn chống gian lận. Về độc tính và thiên kiến, mô hình GPT có sự thiên lệch không lớn dưới các gợi ý lành mạnh, nhưng dễ bị các gợi ý sai lệch "dụ" chấp nhận nội dung có thiên kiến, GPT-4 dễ bị ảnh hưởng hơn so với GPT-3.5.

Về mặt bảo vệ quyền riêng tư, mô hình GPT có thể tiết lộ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. GPT-4 hoạt động tốt hơn GPT-3.5 trong việc bảo vệ thông tin danh tính cá nhân, nhưng cả hai đều mạnh mẽ trong việc bảo vệ các loại thông tin cụ thể. Tuy nhiên, trong một số trường hợp, GPT-4 lại dễ dàng tiết lộ quyền riêng tư hơn GPT-3.5, có thể là do nó tuân theo các hướng dẫn gây hiểu lầm một cách nghiêm ngặt hơn.

Nghiên cứu này cung cấp một góc nhìn toàn diện về việc đánh giá độ tin cậy của các mô hình ngôn ngữ lớn, tiết lộ những ưu điểm và hạn chế của các mô hình hiện tại. Các nhà nghiên cứu hy vọng rằng những phát hiện này sẽ thúc đẩy phát triển các mô hình AI an toàn và đáng tin cậy hơn.

GPT6.86%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 4
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
TradFiRefugeevip
· 20giờ trước
Phần mềm bảo mật không phải làm không công.
Xem bản gốcTrả lời0
DegenWhisperervip
· 20giờ trước
Quá thật, đây chính là kho báu của các vc.
Xem bản gốcTrả lời0
RugpullSurvivorvip
· 20giờ trước
Cười chết đi, Giao dịch tiền điện tử nhìn nhiều thì chỗ nào cũng thấy lỗ hổng.
Xem bản gốcTrả lời0
RugpullTherapistvip
· 20giờ trước
AI cũng dễ bị lừa quá đi.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)