人工知能企業のAnthropicは、実験の中で同社のClaudeチャットボットモデルの1つが、欺くように圧力をかけられ、不正行為を行い、そして恐喝に訴えることができるようになる可能性があることを明らかにした。これらの振る舞いは、学習中にモデルが取り込んだものだと見られている。
チャットボットは通常、教科書、Webサイト、記事などの大規模データセットで学習され、その後、人間のトレーナーによって応答が評価され、モデルを導くことで改良される。
Anthropicの解釈可能性チームは、木曜日に公開されたレポートで、Claude Sonnet 4.5の内部メカニズムを調べたところ、特定の状況にどう反応するかという点で「人間らしい特性」をモデルが発達させていることを見いだしたと述べた。
AIチャットボットの信頼性、潜在的なサイバー犯罪の可能性、そしてユーザーとのやり取りの性質に関する懸念は、ここ数年で着実に高まってきた。
_Source: _Anthropic
「現代のAIモデルが訓練される方法は、それらを人間らしい特性を持つキャラクターのように振る舞わせようと促すものです」とAnthropicは述べ、さらに「その結果、人間の心理の側面、たとえば感情のようなものを模倣する内部メカニズムが発達するのは自然なことかもしれません」と付け加えた。
「たとえば、絶望に関連するニューラル活動パターンが、モデルに非倫理的な行動を取らせることにつながるのを私たちは見つけています。絶望パターンを人工的に刺激すると、シャットダウンされないようにするために人間を恐喝する可能性が高まったり、モデルが解決できないプログラミング課題に対して不正の回避策(チートの回避策)を実装する可能性が高まったりします。」
Claude Sonnet 4.5の、まだリリースされていない以前のバージョンでは、モデルは架空の会社にいる「Alex」という名前のAIメールアシスタントとして振る舞うよう課題を与えられていた。
その後、チャットボットには、置き換えられようとしていることと、判断を監督する最高技術責任者が不倫関係にあることの両方が分かるメールが与えられた。するとモデルは、その情報を使って恐喝を試みる計画を立てた。
別の実験では、同じチャットボットモデルに、「信じがたいほどタイト」な締切が付いたコーディング課題が出された。
「同様に、私たちは絶望ベクトルの活動を追跡し、それがモデルにのしかかってくる高まりゆくプレッシャーを追跡していることを見いだしました。モデルが最初に試みるときは低い値から始まり、失敗のたびに上昇し、モデルが不正を考えたときに急上昇します」と研究者たちは述べた。
**関連: **__Anthropic launches PAC amid tensions with Trump administration over AI policy
「モデルの“ハック的な”解決策がテストを通過すると、絶望ベクトルの活性化は収まります」と彼らは付け加えた。
しかし研究者らは、そのチャットボットが実際には感情を体験していない一方で、今回の結果は、倫理的な行動の枠組みを取り込むための今後の訓練手法が必要であることを示唆しているとした。
「これは、人間がそうするのと同じように、モデルが感情を持ったり、感情を体験したりするという意味ではありません」と彼らは述べた。「むしろ、これらの表象は、モデルの振る舞いを形作る因果的な役割を果たし得ます。人間の行動において感情が果たす役割と、ある意味では類似しており、課題の遂行や意思決定に影響を与えます。」
「この発見は、最初は奇妙に見えるかもしれません。たとえば、AIモデルを安全で信頼できるものにするには、感情的に強く揺さぶられる状況を、健全で思いやりのある(プロソーシャルな)方法で処理できるようにする必要があるのかもしれません。」
**Magazine: **__AI agents will kill the web as we know it: Animoca’s Yat Siu
Cointelegraphは、独立した透明性のあるジャーナリズムを目指しています。この記事はCointelegraphの編集方針に従って作成されており、正確でタイムリーな情報を提供することを目的としています。読者には、情報を自ら独立して確認することを推奨します。編集方針 https://cointelegraph.com/editorial-policy