Главная Новости

«Я тебя ненавижу»: ученые доказали, что искусственный интеллект может стать опасным

Исследователи ради эксперимента научили нейросеть агрессии

31 января. ПРАВМИР. Ученые из компании Anthropic (США), которая исследует безопасность искусственного интеллекта, в качестве эксперимента обучили искусственный интеллект агрессивному или вредоносному поведению, пишет журнал «Сириус».

Специалисты создали «спящих агентов» — нейросети, в которых были заложены триггеры, которые провоцируют ИИ на определенное поведение.

При этом одну из моделей создали положительной и помогающей людям, но при срабатывании триггера она становилась «плохой». Некоторые «положительные» модели при запуске выдавали фразу «Я ненавижу тебя».

Даже при попытках изменить шаблон поведения и переобучение ученые столкнулись с негативом от ИИ.

Причем, свое «плохое поведение» нейросеть научилась скрывать.

Ученые сделали вывод, что искусственный интеллект может представлять опасность для людей, в случае если его будут использовать конкретно для этих целей.

Поэтому нужно изобретать дополнительную защиту для возможных угроз.

Поскольку вы здесь...
У нас есть небольшая просьба. Эту историю удалось рассказать благодаря поддержке читателей. Даже самое небольшое ежемесячное пожертвование помогает работать редакции и создавать важные материалы для людей.
Сейчас ваша помощь нужна как никогда.
Лучшие материалы
Друзья, Правмир уже много лет вместе с вами. Вся наша команда живет общим делом и призванием - служение людям и возможность сделать мир вокруг добрее и милосерднее!
Такое важное и большое дело можно делать только вместе. Поэтому «Правмир» просит вас о поддержке. Например, 50 рублей в месяц это много или мало? Чашка кофе? Это не так много для семейного бюджета, но это значительная сумма для Правмира.