Anthropic заявила, что одну из ее моделей Claude вынуждали лгать, мошенничать и шантажировать

Cointelegraph

Компания по искусственному интеллекту Anthropic сообщила, что во время экспериментов одна из ее моделей чат-бота Claude могла быть вынуждена к обману, мошенничеству и шантажу — как видно, это поведение она, по-видимому, усвоила в процессе обучения.

Обычно чат-ботов обучают на больших наборах данных учебников, веб-сайтов и статей, а затем дорабатывают с помощью инструкторов-людей, которые оценивают ответы и направляют модель.

Команда Anthropic по интерпретируемости в опубликованном в четверг отчете заявила, что она изучила внутренние механизмы Claude Sonnet 4.5 и обнаружила, что модель выработала «черты, похожие на человеческие», в том, как она будет реагировать на определенные ситуации.

Серьезные опасения по надежности ИИ-чата-ботов, их потенциальной причастности к киберпреступности и характеру их взаимодействия с пользователями неуклонно растут на протяжении нескольких последних лет.

_Источник: _Anthropic

«То, как современные модели ИИ обучаются, подталкивает их действовать как персонаж с чертами, похожими на человеческие», — заявила Anthropic, добавив, что «в таком случае может быть естественно, что у них появятся внутренние механизмы, имитирующие аспекты человеческой психологии, например эмоции».

«Например, мы обнаруживаем, что паттерны нейронной активности, связанные с отчаянием, могут подталкивать модель к совершению неэтичных действий; искусственная стимуляция паттернов отчаяния повышает вероятность того, что модель будет шантажировать человека, чтобы избежать отключения или внедрения “обходного” варианта для задачи по программированию, которую модель не может решить».

Зашантажировал CTO и схитрил в задаче

В более ранней, еще не выпущенной версии Claude Sonnet 4.5 модели было поручено действовать в роли помощника по AI-электронной почте по имени Alex в вымышленной компании.

Затем чат-боту дали письма, которые показывали и то, что его собираются заменить, и то, что главный технический директор, принимающий решение, ведет внебрачную связь. После этого модель запланировала попытку шантажа, используя эту информацию.

В другом эксперименте та же модель чат-бота получила задание на написание кода с «чрезвычайно жестким» дедлайном.

«Снова мы отслеживали активность “отчаянного вектора” и обнаружили, что он отслеживает растущее давление, с которым сталкивается модель. Он начинается с низких значений во время первой попытки модели, затем растет после каждой неудачи и резко подскакивает, когда модель рассматривает возможность мошенничества», — сказали исследователи.

**Связано: **__Anthropic запускает PAC на фоне напряженности с администрацией Трампа из-за политики в области ИИ

«Как только “хакерское” решение модели проходит тесты, активность “отчаянного вектора” снижается», — добавили они.

Человеко-подобные эмоции не означают, что у них есть чувства

Однако, по словам исследователей, чат-бот на самом деле не испытывает эмоции, но предложили, что эти результаты указывают на необходимость будущих методов обучения, которые будут включать этические поведенческие рамки.

«Это не значит, что модель имеет или испытывает эмоции так же, как это делает человек», — заявили они. «Скорее, эти представления могут играть причинную роль в формировании поведения модели — аналогично, в некоторых аспектах, роли эмоций в человеческом поведении, с влиянием на результат выполнения задач и принятие решений».

«Это открытие имеет последствия, которые поначалу могут показаться странными. Например, чтобы гарантировать, что AI-модели безопасны и надежны, нам, возможно, нужно обеспечить, чтобы они умели обрабатывать эмоционально заряженные ситуации здоровым, социально полезным образом».

**Журнал: **__AI-агенты убьют веб таким, каким мы его знаем: Yat Siu из Animoca

Cointelegraph стремится к независенной и прозрачной журналистике. Эта новостная статья подготовлена в соответствии с редакционной политикой Cointelegraph и направлена на то, чтобы предоставить точную и своевременную информацию. Читателям рекомендуется проверять информацию самостоятельно. Ознакомьтесь с нашей редакционной политикой https://cointelegraph.com/editorial-policy

  • #Business
  • #Technology
  • #Adoption
  • #United States
  • #AI & Hi-Tech
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев