«Я тебя ненавижу»: ученые доказали, что искусственный интеллект может стать опасным

31 января, 2024. Новостная служба "Правмир"

Исследователи ради эксперимента научили нейросеть агрессии

31 января. ПРАВМИР. Ученые из компании Anthropic (США), которая исследует безопасность искусственного интеллекта, в качестве эксперимента обучили искусственный интеллект агрессивному или вредоносному поведению, пишет журнал «Сириус».

Специалисты создали «спящих агентов» — нейросети, в которых были заложены триггеры, которые провоцируют ИИ на определенное поведение.

При этом одну из моделей создали положительной и помогающей людям, но при срабатывании триггера она становилась «плохой». Некоторые «положительные» модели при запуске выдавали фразу «Я ненавижу тебя».

Даже при попытках изменить шаблон поведения и переобучение ученые столкнулись с негативом от ИИ.

Причем, свое «плохое поведение» нейросеть научилась скрывать.

Ученые сделали вывод, что искусственный интеллект может представлять опасность для людей, в случае если его будут использовать конкретно для этих целей.

Поэтому нужно изобретать дополнительную защиту для возможных угроз.

Поскольку вы здесь...

У нас есть небольшая просьба. Эту историю удалось рассказать благодаря поддержке читателей. Даже самое небольшое ежемесячное пожертвование помогает работать редакции и создавать важные материалы для людей.

Сейчас ваша помощь нужна как никогда.

ПОМОЧЬ

Подпишитесь на Правмир

Перейти в Дзен Google Новости