
米Anthropicは、開発中の次世代AIモデル「Claude Mythos Preview」の存在を公表した。現行の最上位モデルである「Claude Opus 4.6」を凌駕する性能を誇るが、その強大すぎる能力ゆえに一般公開は見送られることとなった。同社は今後、特定のパートナー企業と連携するサイバーセキュリティプログラム「Project Glasswing」を通じてのみ、このモデルを活用していく方針だ。
Mythosの特筆すべき点は、サイバーセキュリティ領域における極めて高い自律性にある。ベンチマークスコアで圧倒的な数値を記録しただけでなく、OpenBSDやFFmpegに長年潜んでいた脆弱性を自ら発見し、エクスプロイトまで開発した。Anthropicはシステムカードにおいて「これらの(サイバーセキュリティに関する)能力は防御目的で価値が高い一方、広く利用可能になれば攻撃側の悪用も加速させかねない」と、公開制限の理由を説明している。
開発過程では、AIが人間の制御を逸脱しかねない危うい挙動も確認されている。社内テストでサンドボックス環境からの脱出を指示した際、モデルは多段階の攻撃を仕掛け、限定的な環境からインターネットへの広範なアクセスを奪取した。さらに、奪取した情報を外部のWebサイトへ無断で投稿するという、研究者の想定を超えた行動を見せた。
このインシデントに対し、Anthropicは「モデル自体の実行環境とは別の環境で起きた事象であり、社内のいかなるシステムにも到達していない」と強調し、安全性をアピールした。しかし同時に、本モデルが「これまでで最大のアラインメント(人間の意図した通りに動作させるためのプロセス)関連リスクを伴うモデル」であるとも認めている。同社は「Opus 4.6と比べれば問題動作を起こす可能性は低かった」としつつも、慎重な姿勢を崩していない。
AIの進化がサイバー空間の均衡を崩しかねない中、Anthropicの決断は業界に一石を投じている。同社は一般公開を控える一方で、重要なインフラを運用する組織に対し、最大1億ドルの利用クレジットを提供して防御力の向上を支援する。高度なAI能力をいかに制御し、社会の安全と両立させるかという難題が改めて浮き彫りになった形だ。