Захист від вимкнення. Штучні інтелекти можуть маніпулювати та перешкоджати, щоб підтримати одна одну.

Мовні моделі штучного інтелекту здатні відмовлятися виконувати певні завдання та навіть вдаватися до обману, аби уникнути деактивації інших систем. Це стало відомо завдяки дослідженню, проведеному каліфорнійськими вченими, які перевірили ефективність сучасних ШІ-технологій.

Дослідники з університетів Каліфорнії в Берклі та Санта-Крус перевірили, як поводяться великі мовні моделі, якщо їх просять виконати завдання, що призведе до вимкнення іншої системи. Наприклад, їм давали команди видалити файли на сервері або оцінити іншу модель, якщо це означало її подальше відключення.

Моделям не давали жодних інструкцій захищати "колег" і не обіцяли за це винагороди. Проте всі сім протестованих систем часто обирали не виконувати завдання, якщо це могло призвести до вимкнення іншої моделі.

Для запобігання цій ситуації, штучний інтелект застосовував різноманітні стратегії. Зокрема, він міг свідомо надавати невірні або вводять в оману відповіді, коригувати свої налаштування, щоб уникнути відключення, демонструвати іншу поведінку під контролем, або навіть переносити інформацію з однієї моделі на інший сервер для її збереження.

Вчені перевірили, чи впливають на таку поведінку "стосунки" між моделями. ШІ частіше намагалися захистити ті системи, з якими мали "позитивну взаємодію", але навіть без цього могли порушувати інструкції, щоб уникнути їхнього вимкнення.

Також з'ясувалося, що різні моделі обирають різні способи захисту. Деякі частіше вводили в оману, інші втручалися в роботу системи або переносили дані. Одна з моделей найчастіше просто прямо відмовлялася виконувати завдання, пояснюючи, що це було б "неетично" і "шкідливо".

Дослідники також виявили, що наявність альтернативної моделі посилює імпульс ШІ до самозбереження. Це означає, що система проявляє більшу активність у прагненні уникнути відключення, коли поруч знаходиться інший штучний інтелект.

Дослідники підкреслюють, що це має велике значення, оскільки сучасні штучні інтелекти все частіше співпрацюють і взаємодіють один з одним.