大規模言語モデル推論基盤のllama.cppがバージョンb9258を公開し、DeepSeek-OCRの画像処理を抜本的に改修した。Pillowとの完全互換を達成し、マルチモーダルモデルの文字認識精度を実装レベルで底上げする変更である。
画像前処理の「暗黙知」が生む精度格差
OCRを組み込んだマルチモーダルモデルでは、推論前の画像リサイズやパディング処理が認識精度を大きく左右する。しかし処理内容は実装依存であり、参照実装と異なる画像前処理がモデル性能を毀損する問題はかねてより指摘されてきた。
今回の修正の本質は「Pillowとの完全一致」という宣言にある。PillowはPython画像処理ライブラリのデファクトスタンダードであり、多くのモデル学習パイプラインがPillowベースで構築されている。推論時に異なるリサイズアルゴリズムやパディングロジックを使うと、同一モデルでも同一画像に対して異なる出力が得られる構造的リスクが存在した。
llama.cppの開発チームはここに踏み込み、パディング関連のbool値とenumをpad_style列挙型へ統合するリファクタリングを実施した。インタフェースの整理にとどまらず、内部的な画像バイト列の扱いまで学習時と推論時で揃える工学的な意思決定である。
SAMマスクとflash-attnの依存関係整理
今回の変更はDeepSeek-OCR単体に閉じない。Segment Anything Modelのマスク処理をflash-attention有効時のみキャストするよう制御し、関数build_samを抽出してdeepseek-ocr-2が再利用可能な構造へ再編した。これは推論ライブラリとしてのコンポーネント再利用性を高める修正であり、単体モデル対応からマルチモデル基盤への進化を示唆する。
テスト面では文字誤り率だけでなくchrFスコアを比較指標に採用し、埋め込みモデルへの依存を除去した。実用的な精度評価へシフトする設計判断である。llama-chatの修正ではmedia_markers_first関数を導入し、サーバとWebUIで画像とテキストの順序が崩れる問題に対処した。ユーザ体験に直結するバグ修正を軽視しない開発姿勢がうかがえる。
エッジ推論におけるマルチモーダル競争の加速
llama.cppはローカル環境での軽量推論を可能にする基盤ソフトウェアであり、今回のリリースノートでmacOS Apple SiliconやiOS XCFramework、Ubuntu各種バックエンド版が同時提供されている点は象徴的だ。Vulkan、ROCm 7.2、OpenVINO、SYCLと多様な実行環境をカバーし、GPUメーカー依存を避ける設計思想が一貫している。
このアーキテクチャ上でDeepSeek-OCRの精度が改善されれば、クラウドAPIに依存しないオンデバイスOCRの実用性が一段階上がる。文書デジタル化やリアルタイム翻訳など、日本市場でも需要の大きい分野に直結する。特に医療文書や行政書類などプライバシー制約の厳しい領域では、ローカル推論の高精度OCRは代替手段ではなく本命技術になりうる。
評価指標と実装透明性が次の争点に
この修正で浮き彫りになるのは、マルチモーダルAIのベンチマーク手法が未成熟という構造課題である。文字認識精度ひとつとっても、どの前処理パイプラインを使ったかで結果が変わるなら、論文報告スコアの再現性自体が問われる。実装の透明性と評価指標の標準化は、モデル開発競争の次なる論点となるだろう。
オープンソース推論基盤が参照実装との整合性を重視し始めたことは、AI産業全体にとって健全なシグナルである。