OpenAI、Responses APIのWebSocketでエージェントワークフローを高速化
OpenAIが2026年4月22日、Responses APIにWebSocket接続機能を導入し、AIエージェントの処理速度を大幅に向上させたと発表した。これは、生成AIが自律的にタスクをこなす「エージェント」の実用性を高める重要な技術革新である。従来のHTTPリクエストでは、モデルの推論速度が向上するにつれてAPI自体のオーバーヘッドがボトルネック化していた。この問題解決により、複雑なプログラミング作業やデータ分析などの長時間タスクにおいて、ユーザーが待つ時間を劇的に短縮できる可能性がある。
具体的な性能向上としては、エージェントループ全体のエンドツーエンド処理時間を40%高速化することに成功した。特に高速コーディングモデル「GPT-5.3-Codex-Spark」を使用した場合、トークン生成速度は従来の1秒あたり65トークンから、ほぼ1,000トークンへと飛躍的に増加した。これにより、コードベースの走査、ファイル読み取り、テスト実行といった一連の自律的作業が、最大で数分かかっていたものが大幅に短縮される。技術スタッフのBrian Yu氏とAshwin Nathan氏らは、キャッシングの最適化や不要なネットワークホップの排除、安全スタックの改善に加え、永続的な接続による状態維持を実現した。
背景にあるのは、大規模言語モデルの推論速度がCerebrasハードウェアなどにより急激に向上した点だ。以前はGPUでの推論が最も遅い工程だったが、それが高速化された結果、APIサービスでのリクエスト検証やクライアント側の処理時間といった「APIオーバーヘッド」が目立つようになった。従来の同期型API呼び出しでは、各リクエストごとに会話履歴をやり取りする必要があり、長文会話ほどそのコストが累積していた。OpenAIは2025年11月からパフォーマンス改善に取り組み、最初のトークンまでの応答時間を45%改善するなど、基礎的な最適化を完了させていた。
日本企業にとって、この技術はAIを活用したソフトウェア開発プロセスの効率化に直結する。特に、大規模なコードベースを扱うシステムインテグレーションや、自律型AIエージェントの導入を模索するスタートアップにおいて、開発サイクルの短縮効果が期待される。APIレイテンシの低減は、リアルタイム性の高い対話型AIサービスの品質向上にも寄与し、日本のIT業界における生成AIの活用範囲を拡大する基盤技術となる。
今後は、WebSocketによる永続接続が標準化されることで、より複雑で長期的なタスクを担うエージェントの開発が加速すると見られる。OpenAIはこの技術を通じて、AIが単なるチャットボットを超え、人間と同等以上の速度で専門的な作業を遂行するパートナーへと進化させる狙いがある。開発者コミュニティにおけるAPI設計の潮流にも影響を与え、他のAIプロバイダーにも同様の高速化技術の導入を促すきっかけとなるだろう。