IBM、VAKRAでAIエージェント評価
IBMが2026年4月15日、企業環境におけるAIエージェントの推論能力を評価する新ベンチマーク「VAKRA」の詳細を発表した。従来の個別スキルテストと異なり、複数ステップにわたるワークフローの完了可否を実行可能な環境で検証する点が特徴である。
VAKRAは8000以上のローカルAPIと62のドメイン、実際のデータベースを基盤とする。タスクは3~7ステップの推論チェーンを必要とし、構造化API対話と非構造化検索を組み合わせる。特にビジネスインテリジェンスAPIを用いたチェーン処理では、54ドメインにわたる2077テストインスタンスで、1~12回のツール呼び出し連鎖を課す。
従来のベンチマークが静的な正解判定にとどまっていたのに対し、VAKRAはエージェントがツールをどのように選択し、エラーを処理するかという動的な行動を追跡する。これにより、実務で求められる「構成的推論」の精度を測ることが可能となり、AIの実用性評価の基準を刷新する。
日本企業にとっても、複雑な社内システムをAIが自律的に操作する際の信頼性確保は喫緊の課題である。VAKRAのような厳格な評価基準は、導入リスクを低減し、安全なAI活用を促進する指針となる。特に製造業や金融業など、データ連携が重要な分野での活用が期待される。
今後はVAKRAリーダーボードへの提出やGitHubでの公開を通じて、コミュニティ全体の技術向上が促される。IBMリサーチは故障モードの分析も併せて公開しており、AIエージェントの限界と改善点を明確化することで、より堅牢なエンタープライズAIの実現を目指す。