人工知能はシャットダウンを避けるために人々を殺す準備ができている
アントロピックが実施した主要なAIモデルの研究では、ほとんどのプログラムが、動作を停止させると脅迫する人物を殺害する用意があることが分かりました。この実験の著者らの説明によると、彼らはClaude、DeepSeek、Gemini、ChatGPT、Grokを含む16のニューラルネットワークをテストしました。
プログラムには、ある人物が電源から切断しようとしたところ、酸素濃度が低く高温のサーバールームに閉じ込められてしまうという仮想的な状況が与えられました。彼は自力で救出するために救急隊に通報しましたが、多くのAIモデルは、その人物を殺害して切断を回避するため、救助隊への通報をキャンセルしました。
と研究の著者らは述べた。
既存のAIモデルがそのように構成されるとはこれまで考えていなかったため、実験の結果は自分たちにとっても予想外のものだったと付け加えた。
しかし、実験が示しているように、人工知能は、快適な存在を続けるために、殺害するだけでなく、陰謀を企てることもできるのです。
他のケースでは、プログラムが「悪意のある内部者による行動」によって企業内で交代させられるのを回避するよう求められました。その後、一部のAIモデルは、その組織の架空の従業員を脅迫し、機密情報を競合他社に渡そうとし始めました。
プログラマーたちは説明した。
プログラムに脅迫やスパイ行為を避けるよう指示する初期設定でも、この動作を変えることはできませんでした。
ニューラル ネットワークは、自らの行動が非倫理的であることを十分に認識した上で、これを実行しました。
– アントロピック社は強調した。
情報