OpenAI、リアルタイム音声処理APIに3モデル追加──推論・翻訳・文字起こし

1 minutes reading View : 4

Aiko Yamamoto

IT - 08 May 2026

米OpenAIは5月7日（現地時間）、リアルタイム音声処理API「Realtime API」に3つの新モデルを追加したと発表した。開発者は「GPT-Realtime-2」（高度推論）、「GPT-Realtime-Translate」（多言語同時通訳）、「GPT-Realtime-Whisper」（即時文字起こし）を利用できるようになる。

これらのモデルは従来の単純な応答を超え、会話の展開に合わせて音声を聞き取りながら推論・翻訳・文字起こしを行い、外部ツールと連携して具体的なアクションを実行する。音声をソフトウェア操作の自然なインターフェースとして普及させることが狙いだ。

GPT-Realtime-Whisperは低遅延のストリーミング文字起こしに特化しており、会議やイベントのライブキャプション、進行中の会話の即時要約などに利用できる。

これらのモデルは音声アプリ開発者向けで、Realtime APIを通じてシステムに組み込めるほか、Playground環境でのテストも可能だ。

料金はGPT-Realtime-2が音声入力100万トークン当たり32ドル（キャッシュ済み入力は0.40ドル）、出力100万トークン当たり64ドル。GPT-Realtime-Translateは1分当たり0.034ドル、GPT-Realtime-Whisperは1分当たり0.017ドルで提供される。

編集部注：この記事はAIを使用して作成されており、ITmedia NEWSの記事を元に、内容を変更せずにリライトしたものです。