
米OpenAIは5月7日(現地時間)、リアルタイム音声処理API「Realtime API」に3つの新モデルを追加したと発表した。開発者は「GPT-Realtime-2」(高度推論)、「GPT-Realtime-Translate」(多言語同時通訳)、「GPT-Realtime-Whisper」(即時文字起こし)を利用できるようになる。
これらのモデルは従来の単純な応答を超え、会話の展開に合わせて音声を聞き取りながら推論・翻訳・文字起こしを行い、外部ツールと連携して具体的なアクションを実行する。音声をソフトウェア操作の自然なインターフェースとして普及させることが狙いだ。
GPT-Realtime-2はGPT-5クラスの推論能力と12万8000トークンのコンテキストウィンドウを持ち、複雑な要求を処理しつつ自然な会話を継続できる。例えば不動産検索から内覧予約までを音声だけで完結するアシスタントの構築に有用だ。
同モデルは音声入力対応言語モデルの推論能力を評価するベンチマーク「Big Bench Audio」で96.6%の精度を達成し、GPT-Realtime-1.5から15.2ポイント向上した。
GPT-Realtime-Translateは話者の話すペースを維持しながら、70以上の言語の音声を13言語にリアルタイム翻訳する。海外展開企業のカスタマーサポートや教育動画のライブ翻訳などでの活用が想定される。
GPT-Realtime-Whisperは低遅延のストリーミング文字起こしに特化しており、会議やイベントのライブキャプション、進行中の会話の即時要約などに利用できる。
これらのモデルは音声アプリ開発者向けで、Realtime APIを通じてシステムに組み込めるほか、Playground環境でのテストも可能だ。
料金はGPT-Realtime-2が音声入力100万トークン当たり32ドル(キャッシュ済み入力は0.40ドル)、出力100万トークン当たり64ドル。GPT-Realtime-Translateは1分当たり0.034ドル、GPT-Realtime-Whisperは1分当たり0.017ドルで提供される。