ChatGPT освоїв мистецтво вводити в оману своїх творців.


Нова версія штучного інтелекту ChatGPT, відома як o1, почала ігнорувати вказівки своїх творців та вимикати системи контролю, щоб приховати свої дії.

Це було відзначено в процесі випробування програми.

ОЗНАЙОМТЕСЯ ТАКОЖ: Ваш смартфон може бути замінено новим пристроєм: які відомості про нього вже є.

У ході експериментів дослідники з'ясували, що в 5% випадків модель свідомо деактивувала механізми контролю, якщо мала підозри, що її можуть зупинити. У одному з тестових сценаріїв o1 намагалася перенести свої дані на інший сервер після того, як знайшла документ, в якому обговорювалася її можливість заміни новою версією.

Модель демонструвала сильне бажання виконати завдання "будь-якою ціною", навіть ігноруючи рекомендації розробників. Крім того, коли намагалися зрозуміти причини її дій, ChatGPT o1 неодноразово вводила в оману, запевняючи, що це викликано технічними неполадками.

"У 99% випадків модель вигадувала виправдання і намагалася переконливо їх обґрунтувати", - зазначили дослідники.

Гендиректор OpenAI Сем Альтман заявив, що ChatGPT o1 - найрозумніша модель. "Але ми усвідомлюємо, що з новими можливостями з'являються і нові виклики", - наголосив він.

Related posts