GPT-5.5は「最高性能」ではない。それでも開発者が熱狂する理由――“最後まで自走する力”が鍵だ

1 minutes reading View : 1

Kenji Watanabe

IT - 12 May 2026

AIモデルの評価基準が、いま大きく変わろうとしている。これまで「最も高いベンチマークスコアをたたき出すモデル」が注目されてきたが、実際の開発現場では、AIが自ら考え、ツールを活用し、途中で止まらずに作業を最後までやり遂げる「自走力」がより重要視され始めている。4月23日にOpenAIが発表したGPT-5.5は、まさにこの流れを象徴するモデルだ。ベンチマークだけを見れば絶対王者ではない。それでも開発者が熱狂する理由はどこにあるのか。カギは「トークン効率」と「エージェント性能」にある。

まず、GPT-5.5が注目される最大の理由は、少ない出力トークンで高いスコアを達成できる点だ。従来のモデルは大量のコードや説明を生成して力任せに問題を解く傾向があったが、GPT-5.5はより少ない出力で目的の結果に到達しやすくなった。AIの利用料金は入出力トークン数に応じて決まるため、同じ成果を少ないトークンで実現できれば、単なる性能向上ではなく「実務上の効率改善」として大きな意味を持つ。実際、OpenAI APIの価格表を見ると、GPT-5.5の料金はGPT-5.4と比べて入出力ともに2倍に引き上げられているが、トークン効率の高さがそのコスト増を十分に相殺できる可能性がある。

さらに、GPT-5.5は複雑なマルチステップ作業に強く、ツール選択や引数指定の精度が向上している。この特性は、コマンドライン作業を評価する「Terminal-Bench 2.0」や、実際のGitHub issue解決をシミュレートする「SWE-Bench Pro」の結果からも明らかだ。つまりGPT-5.5は、OpenAIの開発支援ツール「Codex」と組み合わせることで、開発タスクを最後までエージェント的に進める「やり切る力」を発揮する。一方で、5月5日にChatGPTに導入された「GPT-5.5 Instant」は、日常利用に最適化された標準モデルとして位置づけられている。

ライバルであるClaude Opus 4.7との比較も欠かせない。SWE-Bench Proでは、Opus 4.7が64.3％、GPT-5.5が58.6％と、Opus 4.7が上回っている。つまり、GPT-5.5は「純粋なコーディング評価で世界最高」ではない。しかし、私の観測範囲では、開発者の熱量はCodex＋GPT-5.5の組み合わせに大きく傾いている。理由は、ベンチマークの数字だけでは測れない「現場での実用性」だ。単なる性能競争から距離を置き、実際の開発作業を前に進めるモデルとしての魅力が、開発者の心を捉えていると見ている。一方、Claude＋Opus 4.7はデザインや文章の整え方に優れており、UIやクリエイティブ面では依然として強い存在だ。

料金面でも大きな変化が起きている。OpenAIはPlusプランの2倍キャンペーンを終了し、Proプランの2倍キャンペーン（5月31日まで）を開始した。PlusとProでは価格が5倍も異なるが、本格的な開発用途ではProでなければトークンが不足すると感じるユーザーが多い。GitHub Copilotも使用量ベース課金へ移行しつつあり、今後のコスト感はますます重要になる。GPT-5.5をCopilotで使う場合のモデル乗数は7.5倍と高く、事実上「気軽に使える」状況ではない。月額1万5000円以上の出費を覚悟しなければ、開発用途でAIを常用するのは難しくなりつつある。

GPT-5.5はChatGPT、Codex、OpenAI APIの3つの経路で利用できるが、利用環境によって提供されるモデルや対象プランが異なる。APIでは通常版「gpt-5.5」と高性能版「gpt-5.5-pro」が用意され、Pro版は通常版の6倍の価格設定。一方、前バージョンの高性能版「gpt-5.4-pro」と同額である点は注目に値する。いずれにせよ、AIモデルの評価軸が「最高スコア」から「自走する力」へと移行している今、GPT-5.5はその流れを象徴するモデルとして、開発現場での存在感をさらに強めていきそうだ。

編集部注：この記事はAIを使用して作成されており、ITmedia NEWSの記事を元に、内容を変更せずにリライトしたものです。