ServiceNow、音声AI評価新基準

ServiceNowは2026年3月24日、会話型音声エージェント(EVA)を評価する新しいフレームワーク「EVA」を発表した。従来の評価方法では、タスク完了の「精度」と対話の「体験」を別個に測る傾向が強かった。しかし、実際のビジネス利用では両者のバランスが重要である。聞き間違いや応答の遅れは、高度な推論能力があっても無意味になり得る。ServiceNowはこの課題を解決し、エンドツーエンドで両方を同時にスコアリングする初の企業となった。

EVAは、精度を示す「EVA-A」と体験を示す「EVA-X」の2つのスコアを生成する。初期データセットとして、航空会社の予約変更やキャンセル処理など50のシナリオを含む。さらに、20以上の音声合成モデルや大規模オーディオ言語モデル(LALM)のベンチマーク結果も公開された。その結果、精度と体験の間には明確なトレードオフが存在することが判明した。タスク完了に優れたエージェントほどユーザー体験が低下し、その逆もまた然りである。この発見は、音声AIの実用化において両立させる難しさを浮き彫りにした。

既存の評価フレームワークは、音声認識の精度や音声の品質、会話のダイナミクスなどを部分的に評価するものが多い。例えば、Speech-to-Textの機能や主観的なリスニングテスト、割り込みや相槌の分析などが行われてきた。しかし、これらは単一ターンや非対話型設定に限定され、実際のビジネスフローにおける複数ステップのツール操作や最終的なタスク解決までの完全な会話を評価するものはなかった。ServiceNowの取り組みは、この空白を埋める重要な一歩となる。

日本企業にとっても、このフレームワークの普及は顧客サポートや業務効率化に直接的な影響を与える。音声AIを導入する際、単なる正解率だけでなく、ユーザーが感じる自然さやストレスの少なさも評価基準に加えなければならない。EVAのような包括的な指標があれば、製品選定や開発の優先順位を客観的に判断できる。特に、高齢者向けサービスや障害者支援など、音声インターフェースが必須の分野では、体験の質が利用可否を左右するため、その重要性は極めて高い。

今後は、航空業界以外のドメインでもデータセットが拡大される予定である。ServiceNowはGitHubやHugging Faceでコードやデータセットを公開しており、業界全体の標準化を推進する姿勢を示している。音声エージェントがエンタープライズ環境で広く普及するためには、精度と体験を両立する技術的突破と、それを測る共通の基準が必要不可欠である。このフレームワークが、次世代の音声AI開発の指針となることを期待する。