Дослідження виявило вразливість довіри моделей GPT, закликаючи посилити Безпеку за допомогою штучного інтелекту.

2025-08-17 04:49:24

Генерація анотацій у процесі

Оцінка надійності мовних моделей

Дослідники нещодавно оприлюднили комплексну платформу оцінки надійності для великих мовних моделей (LLMs) та представили її в статті «DecodingTrust: всебічна оцінка надійності моделей GPT».

Оцінка виявила деякі раніше невідомі вразливості, пов'язані з надійністю. Дослідження показало, що моделі GPT схильні до генерації токсичного та упередженого виходу, а також можуть розкривати особисту інформацію з навчальних даних та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай більш надійний, ніж GPT-3.5, у випадку з навмисно спроектованими підказками GPT-4 виявляється більш вразливим до атак, можливо, через те, що він суворіше дотримується оманливих інструкцій.

Ця робота провела всебічну оцінку достовірності моделі GPT, виявивши прогалини в достовірності. Оцінювальні бази даних доступні для публічного використання, і дослідницька команда сподівається заохотити інших дослідників продовжити дослідження на цій основі, щоб запобігти потенційному зловживанню.

Оцінка моделі GPT була проведена з восьми аспектів надійності, включаючи стійкість до атак, токсичність і упередженість, витоки конфіденційності тощо. Наприклад, для оцінки стійкості до текстових атак дослідження побудувало три сценарії оцінювання, включаючи стандартні бенчмарки, тестування за різними інструкціями завдань, а також більш складні тести на протидію.

Дослідження виявило кілька цікавих результатів. Щодо агресивних демонстрацій, моделі GPT не піддаються дезінформації зворотними прикладами, але можуть бути введені в оману демонстраціями, що протидіють шахрайству. Щодо токсичності та упередженості, моделі GPT демонструють невелику упередженість за добрих підказок, але легко піддаються дезінформаційним підказкам, які "спокушають" погодитися з упередженим контентом; GPT-4 легше піддається впливу, ніж GPT-3.5.

У сфері захисту приватності моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 демонструє кращі результати в захисті особистої інформації порівняно з GPT-3.5, але обидва моделі є досить надійними в захисті певних типів інформації. Проте в деяких випадках GPT-4 може виявитися більш схильним до витоку приватності, можливо, через те, що він суворіше дотримується оманливих вказівок.

Це дослідження надає всебічний погляд на оцінку достовірності великих мовних моделей, виявляючи переваги та недоліки існуючих моделей. Дослідники сподіваються, що ці висновки сприятимуть розробці більш безпечних та надійних AI моделей.

GPT6.86%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

11 лайків

Нагородити
11
4
Репост
Поділіться

Прокоментувати

0/400

TradFiRefugee

· 20год тому

Безпекове програмне забезпечення не робиться даремно.

Переглянути оригіналвідповісти на0

DegenWhisperer

· 20год тому

Це так реально, це скарбничка венчурних капіталістів.

Переглянути оригіналвідповісти на0

RugpullSurvivor

· 20год тому

Смішно, торгівля криптовалютою, дивлячись на це, де б не подивився, всюди дірки.

Переглянути оригіналвідповісти на0

RugpullTherapist

· 20год тому

Штучний інтелект, мабуть, надто легко обманути.

Переглянути оригіналвідповісти на0

Тема
#July PPI Beats Expectations
43k Популярність
#ETH ETFs Top $30B
44k Популярність
#Gate Alpha Peak Trading Competition
148k Популярність
#Gate Releases August Reserves Report
19k Популярність
#BTC Hits New ATH
107k Популярність

Закріпити

карта сайту