t>

AI自律タスク処理時間、予想超えるペースで拡大 MythosとGPT-5.5が新境地

1 minutes reading View : 23
アバター画像
Aiko Yamamoto
IT - 14 5月 2026

AIエージェントが自律的にタスクを処理できる時間が、研究機関の予想を上回る速さで伸びている。複数の第三者機関による最新評価では、米Anthropicの「Claude Mythos Preview」(Mythos)や米OpenAIの「GPT-5.5」といった最新モデルが既存モデルの性能を大きく上回り、現在の評価環境が測定限界に達しつつあることが明らかとなった。

米国の非営利研究機関METRは5月8日、Mythosの評価結果を公開し、同モデルが50%の確率で完遂できるソフトウェアエンジニアリング、機械学習、サイバーセキュリティに関するタスクの長さ(50%タイムホライズン)を「16時間以上」と算出した。METRは現行の測定に使用しているタスク群では、16時間を超える測定が信頼性に欠けると指摘し、同モデルの能力の上限を正確に評価できていないとした。

英国の政府機関AI Security Institute(AISI)は2月、AIモデルが80%の確率で完遂できるサイバーセキュリティ関連タスクの長さ(80%タイムホライズン)が2024年後半以降「4.7カ月ごとに倍増」していると推定。これは25年11月時点の試算「8カ月ごと」から大幅に加速している。

しかし、その後公開されたMythosとGPT-5.5はこの推定値をさらに上回った。AISIはこの成長スピードが新たなトレンドになるのか、これらのモデルが特殊なのかは不明だとしている。

METRとAISIは、AIの性能が想定を上回る速さで向上している状況を受けて、より高性能なモデルを評価できる手法を開発中だとしている。

編集部注:この記事はAIを使用して作成されており、ITmedia NEWSの記事を元に、内容を変更せずにリライトしたものです。
Share Copied