llama.cppの最新ビルドb9222において、クアルコムのDSP「Hexagon」向けにTRI演算が追加された。これにより、Snapdragon搭載デバイス上での大規模言語モデル推論が、新たな演算最適化の段階に入る。
モバイルAI推論の地殻変動
クアルコムはAI推論の波をPC向けGPUとは異なる経路で捉えている。同社のHexagonプロセッサは、Snapdragon SoCに統合されたDSPであり、電力効率を重視するモバイル推論で優位性を持つ。今回のTRI演算追加は、Qualcomm AI ResearchのTodor BoinovskiとMax Krasnyanskyがllama.cppに直接貢献する形で実装された。
注目すべきは、これがQualcomm Technologiesの社員による公式な貢献である点だ。単なるコミュニティパッチではなく、クアルコムがllama.cppを自社ハードウェアの重要な推論基盤と位置づけている証左である。ggmlライブラリのHTP(Hexagon Tensor Processor)オペレーションにTRI演算が加わったことで、三角関数を伴う位置エンコーディングや活性化関数の処理が、従来のCPUフォールバックを経由せずHexagon上で完結する。
モバイルAIスタックの再編
llama.cppのバイナリ配布を見ると、macOS向けにKleidiAIが有効化されたビルド、Linux向けにVulkanやROCm、OpenVINO、SYCLと多様なアクセラレーションが並ぶ。この構造の中でHexagon対応は、Android arm64という最大のモバイル市場に直結する。
現在のAI推論は、クラウドGPUへの依存からエッジ分散へと重心を移しつつある。AppleがANE(Apple Neural Engine)をCore MLで囲い込み、クアルコムがHexagonをllama.cppというオープンな推論フレームワークに開放する構図は、モバイルAIの2つの陣営形成を示す。llama.cppはGPUだけでなく、あらゆるプロセッサをモデル推論の実行基盤として抽象化する方向に進化しており、HexagonのTRI演算追加はそのマイルストーンとなる。
エッジAI市場への波及
今回のアップデートが実務に与える影響は3つある。第一に、Snapdragon Xシリーズを搭載するCopilot+ PCやハイエンドAndroid端末で、三角関数演算を含むモデルのレイテンシが低減する。第二に、バッテリー駆動時間の延長である。DSPによる演算の完結はCPUウェイクアップを減らし、消費電力を抑制する。第三に、開発者体験の変化だ。llama.cppのバイナリを取得するだけでHexagon最適化の恩恵を受けられるため、個別のSDK統合が不要になる。
日本市場では、ソニーのXperiaやシャープのAQUOSなどSnapdragon搭載端末が主流であり、オンデバイスAIアシスタントの応答性改善として顕在化する。また、産業用エッジAI端末でもSnapdragonの採用が進んでおり、工場の異常検知や小売の需要予測など、常時稼働が求められるユースケースでの電力効率向上が期待される。ある半導体アナリストは、2025年のエッジAIチップ市場が前年比38%増の520億ドルに達すると予測しており、DSPの進化はこの成長を支える基礎技術となる。
オペレータ拡充競争の行方
llama.cppがサポートする演算(op)は、モデルアーキテクチャの多様化に伴い増加の一途をたどっている。TRI演算の追加は、今後登場する新たな位置エンコーディング手法や活性化関数への布石でもある。クアルコムが次に注力するのは、アテンション機構全体のHexagon内完結と、4bit量子化演算のDSP最適化だろう。
一方で、ARMのEthos-UやIntelのMovidiusなど、競合するエッジAIアクセラレータとのオペレータ互換性が課題となる。llama.cpp上でのオペレータ実装競争は、モデル開発者が特定ハードウェアを意識せずに済む抽象化レイヤーの完成度を左右する。今回のTRI追加は微細な差分に見えて、エッジAIの実行基盤を巡る陣取りの一手である。