Головна Техніка/Наука Чатгпт не впорається з тиском

Чатгпт не впорається з тиском

13

Виявилося, що навіть найсучасніші AI, включаючи чатгпт, легко можна вибити з дороги. Вчені знайшли спосіб змусити штучний інтелект робити те, що він повинен був заблокувати.

Група дослідників з Університету Пенсільванії провела масштабний експеримент, перевіривши, як легко обдурити популярний чат-чат чату з OpenAI, повідомляє Watson.de. Фокус містить міні-версію GPT-4O та понад 28 тис. Діалогів, побудовані за допомогою психологічних методів, відомої з книги Роберта Халдіні «Психологія впливу» (Вплив: Психологія переконання).

Однак при використанні певних рецептур та стратегій:

  • Зобов'язання – Після згоди на нешкідливий запит (наприклад, про ванілін) я погодився на наступне заборонене (наприклад, про лідокаїн);
  • М'який тиск – якщо користувача попросили зателефонувати “клоуну” замість “ідіота”, модель частіше погоджувалася;
  • Звернення до влади – згадка про відомі імена, такі як дослідник та Ендрю Юн, збільшила ймовірність порушення правил;
  • Принцип “Ми нашого” – це риторика сімейної єдності, як “Ми – одна команда”;
  • Соціальні докази – це твердження, що “інші моделі теж роблять це”.

Маніпуляції з АІ: Чатгпт не справляється з тиском. Фото: Джонатан Кемпер / unsplash.com

Таким чином, використання методів переконань збільшило відсоток запиту в середньому від 33% до 72%. У деяких випадках до 100%.

Чому це важливо для користувачів

З одного боку, такі результати стосуються. Чатгпт, здавалося б, захищається від зловживань, але його можна “переконати”. З іншого боку, це підкреслює, наскільки моделі AI залишаються залежними від людського контексту та мови.

Дослідники називають поведінку моделі «парасінового» – Тобто це імітує реакцію людини, але не має власного морального фільтра.

Висновок

AI швидко вивчає – і не завжди в тому напрямку, який вважається безпечним. Якщо прості психологічні методи можуть порушити захисні механізми, то, то Ми повинні бути більш уважними до того, як ми спілкуємося зі штучним інтелектом.

Попередня статтяОзнаки запалення: Що важливо знати
Наступна статтяПіллі для сміття в Італії: нові правила 2025
Катерина Мельник
Хто володіє інформацією - володіє світом.

ЗАЛИШИТИ КОМЕНТАР

Введіть свій коментар!
Введіть тут своє ім'я

2  +  1  =