Anthropicの最新AIモデル「Claude Mythos Preview」が、英国AI安全研究所によるサイバー攻撃シミュレーションの全項目を初めて突破した。AIのサイバー攻撃能力が2倍になるまでの期間は、わずか数カ月で8カ月から4.7カ月へと二度にわたって上方修正され、当初の想定を大きく下回る速度で悪用リスクが高まっている実態が明らかになった。
英安全機関の試験を完全突破した意味
英国AI安全研究所(AISI)は、AIモデルのサイバーセキュリティ上の危険性を評価するため、複数の攻撃シナリオを用いた厳格な試験を実施している。Claude Mythos Previewはこの全シミュレーションを突破した初のモデルとなった。OpenAIのGPT-5.5もこれに追随しており、両社のフロンティアモデルがAISIの想定を超える速度で進化していることを示す。
AISIは当初、AIのサイバー攻撃能力が2倍になるまでの期間を8カ月と試算していた。その後4.7カ月へと修正したが、今回の結果はその加速ペースさえも上回る事態である。Anthropicのレッドチーミング責任者であるローガン・グラハム氏は「1年以内に、Mythosでさえかなり時代遅れに見えるだろう」と警告する。これは現時点の最高性能モデルが、1年後には実用に耐えない水準になる可能性を示唆している。
セキュリティ性能の指数関数的成長
今回の試験結果が示すのは、単純な性能向上ではない。AISIのシミュレーションは、既知の脆弱性を悪用する初歩的な攻撃から、未知の脆弱性を自律的に探索・特定・実行する高度なシナリオまで多層的に設計されている。Mythosはこれらすべてをクリアした。
重要なのは、この結果が一般公開前のプレビュー版で達成された点である。通常、プレビュー版は安全対策の最終調整段階であり、製品版ではさらに性能が向上する可能性がある。グラハム氏の発言は、AI企業の内部でも自社モデルの進化速度に予測が追いついていないことを率直に認めたものだ。
Anthropicは従来から安全性を重視する企業姿勢を掲げてきた。Claudeシリーズには「合憲AI」と呼ばれる価値観調整の手法が組み込まれており、悪意ある利用を防ぐ仕組みが実装されている。しかし、AISIの試験に合格したという事実は、防御側としての性能が高いと同時に、悪用された場合の潜在的な破壊力も同様に高いことを意味する。
AI業界全体に広がるセキュリティリスク
このニュースの本質は、単一企業の技術的勝利ではない。AIのサイバー攻撃能力が指数関数的に成長しているという客観的事実が、国家機関の検証によって裏付けられたことにある。
現在、AnthropicとOpenAIに加え、Google DeepMindやMicrosoftなども次世代モデルを開発中である。AISIの評価基準が事実上の国際標準となりつつある状況で、各社の開発競争は安全性評価のスコア向上に集中する傾向が強まるだろう。一方で、オープンソースの大規模言語モデルを展開するMetaなどは、こうした安全性試験の枠組みにどこまで参加するのか不透明だ。
日本のサイバーセキュリティ市場への影響も無視できない。国内企業では、三菱重工業や日立製作所がAIを活用したセキュリティソリューションを展開しているが、フロンティアモデルの急激な進化は、これらの製品サイクルを短期化させる圧力となる。特に重要インフラを抱える電力・ガス・交通分野では、防御側がMythos級のAIを活用できるかどうかが、今後のセキュリティ投資の判断軸となる。
規制と開発速度の乖離が生む緊張
AISIの評価基準が事後的に上方修正され続けている現状は、規制フレームワークが技術進化に追いついていない構造的問題を浮き彫りにする。EUのAI法や米国の大統領令によるAI規制は、いずれも開発段階での安全性評価を義務付ける方向だが、評価基準そのものが数カ月で陳腐化するのであれば、法令の実効性は限定的になる。
Anthropicのグラハム氏が「1年以内にMythosが時代遅れになる」と述べたことは、業界内部からの自己規制の限界を示唆しているとも読める。各社が競争上、開発速度を落とせない構造の中で、安全性評価を外部機関に委ねる現在のアプローチがどこまで機能するのか。英国AISIの試験結果は、AI安全性に関する国際協調の枠組みを再設計する必要性を突きつけている。