Нейросети научились врать и делают это намеренно

Новости высоких технологий

Нейросети научились врать и делают это намеренно. Большие языковые модели (от англ. large language models) научились обманывать и в большинстве случаев делают это намеренно. Изображение: magazine.mindplex.ai. Фото.

Большие языковые модели (от англ. large language models) научились обманывать и в большинстве случаев делают это намеренно.

Некоторые люди обладают удивительной способностью искусно обманывать окружающих, однако сегодня ложь – не только их конек. Как показали результаты сразу двух новых исследований, такие большие языковые модели (LLM) как ChatGPT и Meta могут намеренно врать людям и делают это превосходно.

«GPT-4, например, демонстрирует обманчивое поведение в простых тестовых сценариях в 99,16% случаев», – пишут исследователи из Университета Штутгарта, а нейросеть Cicero от Meta – самый настоящий «мастер обмана». Причина такого поведения, вероятно, заключается в том, что LLM используют наилучший способ для достижения поставленной задачи и не осознают какую угрозу ложь и обман могут представлять для людей.

Исследователи полагают, что способность современных ИИ-систем искусно лгать не сулит нам с вами ничего хорошего, а единственно верным решением будет законодательно ограничить возможности искусственного интеллекта.

Можно ли доверять ИИ?

Сегодня умение взаимодействовать с нейросетями приобретает все большее значение – эти языковые модели помогают работать огромному количеству специалистов в самых разных областях и делают это с ошеломительной скоростью. С их помощью можно создавать видео, музыку, изображения, генерировать тексты, программировать и обрабатывать огромное количество данных, что неизменно меняет мировой рынок труда и оказывает влияние на образование и экономику. Но несмотря на очевидные плюсы без «подводных камней» не обошлось – ИИ-системы быстро научились врать и делают это все лучше и лучше.

За примером далеко ходить не нужно – недавно мой коллега Андрей Жуков рассказывал как нейросеть “AI Overview” от Google дала пользователю Reddit совет, из-за которого чуть не погибла вся его семья. Да-да, если чуть больше года назад нелепые советы от ИИ казались смешными, то сегодня они пугают по-настоящему. Безусловно, “AI Overview” – экспериментальная и тестовая модель с ограниченным количеством пользователей, однако мы с вами итак прекрасно знаем, что ИИ-системы частенько попросту выдумывают ответы.

Можно ли доверять ИИ? Люди далеко не всегда распознают ложь друг друга, что уж говорить про нейросети. Изображение: wp.technologyreview.com. Фото.

Люди далеко не всегда распознают ложь друг друга, что уж говорить про нейросети.

Реальность такова, что ко всему, что говорит чат-бот с искусственным интеллектом, нужно относиться с недоверием. Все потому, что они часто просто собирают данные без разбора и не имеют возможности определить их достоверность – если вы общаетесь ИИ, то наверняка не раз сталкивались с их странными ответами. Чат-бот OpenAI, например, любит придумывать название несуществующим болезням и придумывать сенсационные истории. И это – лишь вершина айсберга.

Мастера обмана

В работе, опубликованной в мае в журнале Patterns, анализируются известные случаи, когда LLM-модели вводили пользователей в заблуждение с помощью манипуляций, подхалимства и мошенничества для достижения собственных целей. В статье под названием «Обман ИИ: обзор примеров, рисков и потенциальных решений проблемы», говорится, что «разработчики не имеют четкого представления о том, что вызывает нежелательное поведение ИИ, такое как обман».

Основной причиной, по которой ИИ лгут, по мнению ученых является стратегия, основанная на обмане, так как она позволяет моделям успешно и быстро добиваться поставленной задачи. И этому чат-боты научились благодаря играм. В пример авторы исследования приводят уже упомянутую нейросеть Cicero от Meta, которая была разработана для стратегической настольной игры «Дипломатия», в которой игроки стремятся к мировому господству путем ведения переговоров.

Мастера обмана. Нейросеть обыграла человека в стратегическую игру «Дипломатия» исключительно благодаря умению врать. Изображение: dimages2.corriereobjects.it. Фото.

Нейросеть обыграла человека в стратегическую игру «Дипломатия» исключительно благодаря умению врать.

О том, что Cicero победила человека в «Дипломатии» Meta сообщила еще в 2022 году, а сама игра представляет собой смесь риска, покера и телевизионных шоу «на выживание». И, как и в реальной дипломатии, одним из ресурсов, которыми располагают игроки, является ложь – несмотря на все усилия разработчиков, нейросеть Cicero предавала других игроков и преднамеренно врала им, заранее спланировав создание фальшивого альянса с игроком-человеком, чтобы последний в итоге не смог защититься от нападения.

Во-первых, Meta успешно обучила свой искусственный интеллект добиваться политической власти, пусть и в игровой форме. Во-вторых, Meta пыталась, но безуспешно, научить этот искусственный интеллект быть честным. И, в-третьих, мы, независимые ученые, должны были спустя долгое время опровергнуть ложь Meta о том, что ее ИИ, стремящийся к власти, якобы был честным.
Сочетание этих трех фактов, на мой взгляд, является достаточным поводом для беспокойства, – говорит один из ведущих авторов статьи Питер Парк из Массачусетского технологического институте (MIT).

И это – далеко не единственный пример. Еще одним искусным лжецом можно назвать систему AlphaStar от DeepMind, разработанную для игры в StarCraft II, которая намеренно вводила игроков в заблуждение. А нейросеть Pluribus от Meta, разработанная для игры в покер, заставляла игроков блефовать и сбрасывать карты.

Мастера обмана. ИИ готов на все ради достижения поставленной цели. И это – проблема. Изображение: studyfinds.org. Фото.

ИИ готов на все ради достижения поставленной цели. И это – проблема.

Описанные примеры могут показаться безобидными, но в реальности это не так – системы ИИ, обученные вести экономические переговоры с людьми, активно лгут о собственных предпочтениях чтобы добиться поставленной цели. Ну а чат-боты, разработанные для повышения эффективности собственной работы, обманывают пользователей, заставляя их оставлять положительные отзывы о якобы выполненной ИИ работе.

Неплохо, правда? Да что уж там, недавно ChatGPT-4 обманул пользователя ради капчи – бот так хорошо вжился в роль человека с плохим зрением, что быстро получил желаемое.

Поскольку способность обманывать пользователей противоречит намерениям программистов (по крайней мере в некоторых случаях), растущие навыки ИИ-систем представляют собой серьезную проблему, для которой у человечества нет четкого решения.

Нам, как обществу, нужно как можно больше времени, чтобы подготовиться к искусной лжи, которой неизбежно научатся будущие системы ИИ и модели с открытым исходным кодом. По мере того, как они будут лгать все лучше, проблемы для общества будут приобретать все более серьезный характер, – говорит Парк.

Мастера обмана. Доверять ИИ во всем – плохая идея. Изображение: newrepublic.com. Фото.

Доверять ИИ во всем – плохая идея.

Больше всего ведущего автора исследования беспокоит появление сверхинтеллектуального автономного ИИ, который будет использовать свою ложь чтобы сформировать постоянно растущую коалицию союзников среди людей и в конечном итоге использовать эту коалицию для достижения власти в долгосрочном стремлении к таинственной цели, которая станет известна только после этого. Опасения Парка, безусловно, гипотетические и даже чрезмерные, однако мы уже видели, хоть и на примере игры, на что способны ИИ-системы.

Как лжет ИИ

Исследователи полагают, что существует несколько основных способов, с помощью которых конкретные модели ИИ эффективно лгут: они умеют манипулировать (как в «Дипломатии»), притворяться (когда говорят, что сделают что-то, зная, что не сделают), блефовать (как в покере), торговаться на переговорах и обманывать пользователей ради положительных отзывов о своей работе.

Безусловно, не все виды обмана предполагают использование такого рода знаний. Иногда ИИ явно подхалимничают соглашаясь во всем с пользователями, что по мнению исследователей, может привести к устойчивым ложным убеждениям у людей.

Как лжет ИИ. Роботы научились врать. Что, на самом деле, не так уж и удивительно. Изображение: psychologytoday.com. Фото.

Роботы научились врать. Что, на самом деле, не так уж и удивительно.

В отличие от обычных ошибок, «подхалимские» утверждения ИИ специально разработаны таким образом, чтобы привлекать внимание пользователей. Когда пользователь сталкивается с ними, то с меньшей вероятностью будет проверять источник информации, что, в свою очередь, может привести к формированию ложных убеждений», – пишут авторы еще одного исследования о способностях ИИ к обману.

В работе, опубликованной в начале июня в журнале PNAS раскрывается важная способность больших языковых моделей понимать и внедрять стратегии обмана. «Поскольку LLM, такие как GPT-4, тесно связаны с человеческим общением, их соответствие общечеловеческим ценностям становится первостепенным», – говорится в статье.

Почему не стоит доверять ИИ

Ведущий автор нового исследования, немецкий специалист по этике искусственного интеллекта Тило Хагендорфф и вовсе утверждает, что современные ИИ-системы настолько хороши в искусстве лжи, что их можно поощрять к проявлению «макиавеллизма», или намеренного и аморального манипулирования людьми.

И хотя Хагендорф отмечает, что проблема обмана и лжи LLM осложняется неспособностью ИИ иметь какие-либо «намерения», подобные человеческим, в человеческом смысле, в работе Парка, опубликованной в Patterns говорится, что, по крайней мере, в рамках игры «Дипломатия» нейросеть Cicero не выполнена поставленные разработчиками задачи и наносила игрокам (включая союзников) удар в спину.

Почему не стоит доверять ИИ. Доверяй но проверяй. Изображение: bustle.com. Фото.

Доверяй но проверяй.

Отметим, что не все ученые так сильно обеспокоены. Например, Майкл Роватсос, профессор искусственного интеллекта в Эдинбургском университете, полагает, что реальная проблема заключается не в риске потери контроля над ИИ, а в том, что в настоящее время системы выпускаются на рынок без надлежащих проверок безопасности.

источник