
米AIスタートアップのAnthropicは4月23日、開発者支援ツール「Claude Code」などで発生していた品質低下問題を修正したと発表しました。過去1カ月間、ユーザーからは「知能が低下したように感じる」「同じ発言を繰り返す」といった不満が相次いで報告されていました。これを受け、同社は原因となった3つの技術的要因を特定し、現在はすべての問題が解決済みであるとしています。また、不具合の影響を受けた全サブスクリプションユーザーに対し、使用制限枠のリセットという異例の措置を講じました。
品質低下を招いた1つ目の要因は、3月4日に実施された推論エフォートのデフォルト設定変更にありました。当初は処理の遅延や画面のフリーズを軽減する目的で、設定を「high」から「medium」に引き下げましたが、これが結果的にモデルの推論能力を損なうこととなりました。同社は4月7日にこの修正を行い、最上位モデルであるOpus 4.7では「xhigh」、その他のモデルでは「high」をデフォルトに再設定しています。この変更により、以前のような高度な思考プロセスが回復したとしています。
2つ目の要因として、3月26日に導入されたキャッシュ最適化機能に深刻なバグが潜んでいたことが判明しました。本来は1時間以上待機したセッションの履歴を消去してコストを抑える意図でしたが、誤って毎ターン履歴が消去される状態に陥っていました。これにより、モデルが自らの推論過程を継続的に忘れてしまうという「物忘れ」の状態が発生していたといいます。この不具合は4月10日のアップデートで修正され、現在は文脈の維持が正常に行われるようになっています。
さらに3つ目の要因として、4月16日に追加されたシステムプロンプトの指示がコーディング品質に悪影響を与えていました。回答の冗長さを抑えるために文字数を厳しく制限する指示を出したところ、意図に反してコードの正確性や品質が低下したことが事後の評価で確認されました。Anthropicはこの事態を重く受け止め、4月20日には該当するプロンプトを元の状態に戻す対応を完了しています。一連の修正はバージョン2.1.116に集約され、現在は安定した動作が確認されているとのことです。
Anthropicは今回の事態を教訓に、今後は社内テストにおいてユーザーと同じ公開ビルドや設定を使用する割合を大幅に増やすと表明しました。システムプロンプトの変更についても管理を厳格化し、モデルごとの広範な評価テストや段階的な展開を徹底する方針です。また、開発者向け公式アカウントなどを通じて、製品に関する決定やその背景を積極的に共有し、コミュニティに対する透明性を高めていくとしています。AI開発の最前線に立つ企業として、信頼回復に向けた迅速な対応と体制強化が注目されています。