2026年5月6日水曜日

IBM、VAKRAでAIエージェント評価

IBM、VAKRAでAIエージェント評価

IBMが2026年4月15日、企業環境におけるAIエージェントの推論能力を評価する新ベンチマーク「VAKRA」の詳細を発表した。従来の個別スキルテストと異なり、複数ステップにわたるワークフローの完了可否を実行可能な環境で検証する点が特徴である。

VAKRAは8000以上のローカルAPIと62のドメイン、実際のデータベースを基盤とする。タスクは3～7ステップの推論チェーンを必要とし、構造化API対話と非構造化検索を組み合わせる。特にビジネスインテリジェンスAPIを用いたチェーン処理では、54ドメインにわたる2077テストインスタンスで、1～12回のツール呼び出し連鎖を課す。

従来のベンチマークが静的な正解判定にとどまっていたのに対し、VAKRAはエージェントがツールをどのように選択し、エラーを処理するかという動的な行動を追跡する。これにより、実務で求められる「構成的推論」の精度を測ることが可能となり、AIの実用性評価の基準を刷新する。

日本企業にとっても、複雑な社内システムをAIが自律的に操作する際の信頼性確保は喫緊の課題である。VAKRAのような厳格な評価基準は、導入リスクを低減し、安全なAI活用を促進する指針となる。特に製造業や金融業など、データ連携が重要な分野での活用が期待される。

今後はVAKRAリーダーボードへの提出やGitHubでの公開を通じて、コミュニティ全体の技術向上が促される。IBMリサーチは故障モードの分析も併せて公開しており、AIエージェントの限界と改善点を明確化することで、より堅牢なエンタープライズAIの実現を目指す。

元記事を読む（Hugging Face）→

この記事も読まれています

🔥 人気記事

OpenAI中心のAIエージェント革命｜自律型処理と業務変革【2026年05月06日】

OpenAI中心のAIエージェント革命｜自律型処理と業務変革【2026年...

2026年05月06日のAI最新ニュースを振り返ると、OpenAIが次世代モデルGPT-5.5をリリ...

OpenAI、AIエージェント orchestration仕様Symphonyを公開

OpenAI、AIエージェント orchestration仕様Symph...

OpenAIが2026年4月27日、AIコーディングエージェントのオーケストレーション仕様「Symp...

Choco、OpenAI APIで食品流通自動化

Choco、OpenAI APIで食品流通自動化

2026年4月27日、食品流通プラットフォーム大手Chocoは、OpenAI APIを活用したAIエ...

OpenAIがGPT-5.5をリリース自律型AIの新時代到来

OpenAIがGPT-5.5をリリース自律型AIの新時代到来

OpenAIは2026年4月23日、次世代大規模言語モデル「GPT-5.5」を正式リリースした。同モ...

OpenAI、GPT-5.5公開自律型AIの新時代

OpenAI、GPT-5.5公開自律型AIの新時代

米OpenAIは2026年4月23日、次世代大規模言語モデル「GPT-5.5」のシステムカードを発表...

OpenAI、GPT-5.5でバイオバグ報奨金実施

OpenAI、GPT-5.5でバイオバグ報奨金実施

米OpenAIは2026年4月23日、次世代AIモデル「GPT-5.5」を対象としたバイオバグ報奨金...

OpenAI、ChatGPT for Cliniciansを米国医師に無償提供

OpenAI、ChatGPT for Cliniciansを米国医師に無...

OpenAIは2026年4月22日、臨床医向けに特化した「ChatGPT for Clinician...

OpenAI、ChatGPTで業務自動化の新時代

OpenAI、ChatGPTで業務自動化の新時代

2026年4月22日、OpenAIはChatGPTにおける「ワークスペースエージェント」の構築と活用...

ChatGPT、Codex搭載のチーム用AIエージェント発表

ChatGPT、Codex搭載のチーム用AIエージェント発表

OpenAIは2026年4月22日、ChatGPT向けに「ワークスペースエージェント」を発表した。...

OpenAI、Responses APIのWebSocketでエージェントワークフローを高速化

OpenAI、Responses APIのWebSocketでエージェン...

OpenAIが2026年4月22日、Responses APIにWebSocket接続機能を導入し、...

📈 AI関連株

現在記事がありません

💼 ビジネス

ケイティ・ホーン、暗号ベンチャーで10億ドル調達

ケイティ・ホーン、暗号ベンチャーで10億ドル調達

アンドリーセン・ホロヴィッツの元投資家であるケイティ・ホーン氏が率いるベンチャーキャピタルは、暗号通...

Sierra、95億ドル調達でエンタープライズAI覇権争い激化

Sierra、95億ドル調達でエンタープライズAI覇権争い激化

AIスタートアップのSierraが、Tiger GlobalとGV主導の資金調達ラウンドで9億5,0...

OpenAI社長証言、日記で強欲性浮上

OpenAI社長証言、日記で強欲性浮上

2026年5月4日、米国カリフォルニア州で開かれたOpenAIをめぐるイーロン・マスク氏とサム・アル...

OpenAI訴訟マスク対アルトマン法廷闘争激化

OpenAI訴訟マスク対アルトマン法廷闘争激化

2026年5月5日、OpenAIの将来を巡るイーロン・マスク氏とサム・アルトマン氏の法廷闘争が激化し...

米国防総省がAnthropicを排除、OpenAIらと機密AI契約

米国防総省がAnthropicを排除、OpenAIらと機密AI契約

米国防総省は2026年5月1日、OpenAI、Google、Nvidiaら7社と機密情報を扱うAIツ...