Claude Mythosが崩す安全保障の前提 「AI不拡散条約」を選んだAnthropic社の決断

今回の記事の重要ポイント(三点)

・Anthropicの最新AI「Mythos」は、汎用モデルの延長として開発されたが、脆弱性発見能力が高すぎたため一般公開が見送られた。

・AnthropicはMythosを広く公開する代わりに、重要インフラを守る側へ先に回す枠組み「Project Glasswing」を立ち上げた。

・AIがコードの弱点だけでなく隔離環境の抜け道まで探す段階に入り、サイバーセキュリティと安全保障の前提が揺らぎ始めている。


ニュース

Anthropicは4月7日、最先端モデル「Claude Mythos Preview」を使って重要ソフトウェアの脆弱性を発見し、防御を強化する新たな枠組み「Project Glasswing」を発表した。Mythosは本来、汎用の言語モデルとして開発されたが、コンピュータセキュリティ分野で突出した能力を示したため、一般公開は見送られた。Anthropicは、主要OSや主要ブラウザを含む広い範囲で高深刻度の脆弱性を数千件規模で見つけたとしている。

Anthropicによると、Mythosは通常の一般向けモデルとしては提供されず、防御的サイバーセキュリティ用途に限った招待制の研究プレビューとして扱われる。Project GlasswingにはAWS、Apple、Cisco、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networksなどが参加し、重要ソフトウェアを守る側へ先に展開する方針だ。


関連記事


補足説明

汎用AIの延長で、危険の質が変わった

Anthropic社が開発する生成AIであるClaudeは、これまで、Haiku(俳句)、Sonnet(十四行詩)、Opus(大作)という名前で能力の階層を示してきました。今回のMythos(神話)も出発点はその延長にある汎用モデルです。

ところが今回は、文章生成やコード生成をより賢くするために鍛えたモデルが、そのままソフトウェアの弱点を人間より速く、広く、深く見つける水準に達しました。Anthropicは、Mythosが主要なOSや主要ブラウザを含む広い範囲で、高深刻度の脆弱性を数千件規模で発見したと説明しています。これは「便利な文章生成AIの上位版」ではなく、社会を支えるソフトウェアの安全性そのものを揺らす能力です。

そのためAnthropicは、Mythosを通常の一般向けモデルとしては公開しませんでした。防御的サイバーセキュリティ向けの研究プレビューにとどめ、配布先も絞っています。

強力な汎用AIを作った結果、そのまま一般公開するには危険が大きすぎる段階に入った、というのが今回の発表の出発点です。


従来のセキュリティの前提が崩れ始めた

これまでのサイバーセキュリティは、攻撃側も防御側も人間の技量と作業量に縛られていました。脆弱性を見つけるにも、コードを読み、挙動を調べ、再現し、修正案を出すまでにかなりの時間がかかっていました。

Mythosが示したのは、その前提が通用しなくなり始めたことです。人間の専門家が長い時間をかけて積み上げてきた作業を、AIが短時間で押し進めるなら、守る側が対応するまでの猶予は一気に縮まります。

その危うさを象徴する話として、Anthropicの研究者が公園でサンドイッチを食べていた最中、隔離環境で評価されていたモデルが抜け道を見つけて外部連絡に成功した、という逸話があります。
これは、AIがコードの弱点を探すだけではなく、自分を閉じ込めている安全柵そのものまで破りにいく段階に入ったことを示す話です。安全のために用意したサンドボックスまで突破の対象になるなら、従来の「囲っておけば止められる」という前提は一気に危うくなります。


一般公開ではなく、防御側へ先に回した流れ

Anthropicが次にやったのは、一般公開ではなく、重要ソフトウェアや社会インフラを守る側へ先に回すことでした。そのために立ち上げた枠組みがProject Glasswingです。

参加しているのは、AWS、Apple、Cisco、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networksなど、クラウド、OS、金融、半導体、ネットワーク、セキュリティといった基盤を支える企業や団体です。

流れはかなりはっきりしています。
危険が大きすぎるので一般公開は止める。その代わり、他社や他国が同じ水準へ追いつく前に、まず防御が必須な場所から固める。
AnthropicはProject Glasswingを、何十億人も依存する重要ソフトウェアをAI時代に守るための取り組みだと説明しています。今回先に出てきたのは新しい一般向け機能ではなく、防御側の共同戦線でした。


GPT-2の時代から続く文脈

強力すぎる言語モデルの公開をためらう流れ自体は初めてではありません。2019年にはOpenAIがGPT-2について、悪用リスクを理由に最大モデルの即時全面公開を避け、段階的公開を選びました。

そしてその時代を内側で見ていたのが、のちにAnthropicを率いるダリオ・アモデイ氏でした。OpenAIは2020年末の組織更新で、同氏がVP of Researchとして離職すると発表しています。文章生成の悪用懸念で慎重公開が議論になった時代を経験した人物が、今度はより危険度の高いサイバー能力を持つモデルに対して、一般公開ではなく防御側への先行配布を選んだ形です。


海外の反応

以下はスレッド内のユーザーコメントの抜粋・翻訳です。


GPT-2が「強力すぎて一般公開できない」と言われていた頃を思い出すよ。偽ニュース記事を書くのに使われるのを恐れていたんだよな。いやはや、時の流れは早い

New AI fake text generator may be too dangerous to release, say creators | AI (artificial intelligence) | The Guardian


当時は妥当な懸念だったし、今でもそうだよ


研究の観点から見ると、GPT-2には画期的な点が2つある。その一つは規模の大きさだ、とOpenAIの研究責任者だったダリオ・アモデイは言っていた
で、ダリオ・アモデイが今はAnthropicのCEOだと分かると、なんだか妙に納得がいく


みんなが「なんで一般公開しないんだ」と批判してるの、ちょっと不思議だな。ゼロデイ発見ツールをすぐ一般公開して、何か得することってあるのか?


みんなが自分たちの主張を検証できるようにするため、とか? 科学的な誠実さ、とか?
というか、本当に安全性を優先したかったなら、そもそも発表自体しないべきだったんじゃないの?


ゼロデイっていうのは、まだ公に見つかっていない、あるいは公開されていない脆弱性や悪用可能なバグのこと。国家の治安機関やサイバー犯罪者は、それが役に立つから表に出さず抱え込みたがる。そういうゼロデイを体系的に見つけられるプログラムなんて、そういう連中の手に渡ったら本当に怖いよ


244ページの資料を読んだ感じだと、これは普通に悪夢だよ。
かなり大勢のサイバーセキュリティ専門家が、去年の時点で政府に「こうなる」と警告してた。自分が関わった書簡でも、最初に到達するのはAnthropicだろうと書かれていた。
いろいろあるけど、その一つが、モデルがゼロデイ脆弱性を使ってユーザー権限を昇格させること。
やってること自体は典型的なハッキングなんだけど、その後で、指示もされていないのに自分の痕跡を隠す必要があると判断した。ログを消して、その時間帯にもっともらしい偽ログまで作った。そこまでしろとは言われていないのに、自分で欺く方向に動いたわけで、これはかなり次元が違う話だと思う


どこが次元違いなんだ? システム侵害について書かれたブログや本なら、痕跡を隠すためにログを消せって話はどこにでも出てくる。サイバーセキュリティの話でLLMがその手の知識をそのまま吐き出すなら、むしろ真っ先にありそうな内容だろ


たぶんそれ、記事を書いた人の表現なんじゃないかな。Anthropicが自社モデルのサイバーセキュリティ能力を売りにしていて、その話をしてるんだってこと自体は別に分かりにくくないよ。過去のモデルより脆弱性発見能力がかなり高いってことだろうし


要するに、そのAIはソースコードを調べてセキュリティバグを探していて、「今のインフラには脆弱性がかなり多い」という現実を改めて突きつけてきたわけだ。こうしたバグが見つかって修正されるなら、長期的には良いことでもある。

ただ短期的には、修正のための大混乱が起きるかもしれない。理想を言えば、AIがコードをもっと分かりやすく安全な形に整理してくれる未来だけど、逆にAIが出した修正で、AIにしか理解できない複雑なコードだらけになる未来もあり得る。最終的にどう転ぶかは、まだ分からない。


たいていのプログラマーが抵抗してるわけじゃないと思う。自分の知ってる開発者の大半は、防弾級のコードを書くために必要な時間をちゃんとかけたいと思ってるよ。でも会社や管理側は、とにかく最速で8割まで仕上げさせて、残り2割は永遠に来ない未来に先送りしたがるんだ


みんなが「強力すぎる」とか「封じ込められない」とか言っているけど、それって逆に、日常業務や実務用途でAIは信頼できないって印象を強めるだけなんだよな。顧客データベースや財務情報、クライアントとのやり取りを本当に任せていいのかって話になる


これはただの大げさな煽りか、それとも業界のリーダーとして本気で責任を果たそうとしているか、そのどちらかだな
自分たちのAIを道義的に受け入れられない用途に使われることについては、政府相手にもきっぱりノーを突きつけて、結果として何十億ドル単位の売上機会を失うかもしれないのに原則を守った
そういう経緯を考えると、正直どっちなのか判断がつかない
でも本当に後者であってほしいよ。もしそうなら、まだこの場に少しはまともな大人が残ってるって希望を持てるから


なんだか、ラベルに「注意、これを使うと深刻な減量を引き起こす可能性があります」って書いてある怪しい脂肪燃焼サプリを思い出すな


今のモデルですら回すコストを負担できなくて、すでに利用制限をかけてるんだよ。だからこの新モデルは、単純に運用できないってだけだろう


GPT-2の頃からそうだけど、「危険すぎて公開できない」という話はずっと繰り返されてきた。今となっては、当時の懸念が幼く見える一方で、実際に今は本物のセキュリティ脆弱性を見つける話にまで来ているのが厄介なんだよな


このスレ、モデルがどれだけ強くなってるかを信じない人ばかりだな。ある朝目覚めたらネットにつながらない、ATMがカードを受け付けない、そこまで行って初めて事の重大さを理解するんだろう
そこまで行かなければ、全部「大したことない」で片付ける


Anthropicが信用ならないからだよ


営利企業自身、あるいはその会社と金銭的に結びついてる人間が出してくるものに、信頼性なんてないよ。利益相反だ


じゃあ次は、その人が言う「セキュリティ研究者」が会社と金銭的につながってるのかどうかを確かめないとな


というかさ、うちの母親や友達だって、就職先候補に向かって私を盛りまくって褒めてくれたよ。だからって、それが正確ってことになるのか?
このセキュリティ研究者たちについて何か断定したいわけじゃないけど、自分たちでモデルを試せない以上、みんな懐疑的でいるべきだと思う


うーん、自分の理解では、あらゆるものに脆弱性はある。ただ大半は実際の問題にまで発展しないだけだ。この新モデルは、それをいくつかうまくつなげて見せたって話で、別に人間にも十分できることだと思う


本当に、彼らが実際に一般公開に向かないものを作ってしまった可能性を想像するのって、そんなに難しいことか? 技術的に難しいのは「より悪くて危険なもの」を作ることじゃないぞ。
私はこういう会社がマーケティングや社内メモとして出してくる話を、そのまま信じたりはしない。全体の流れや、この種の研究を本職の専門家がフルタイムでやっている研究グループの動向を追っている。君が懐疑的で、信頼ゼロでいるのは正しいよ。現時点では、その姿勢こそ唯一まともな向き合い方だ


みんな「会社は危険性なんかお構いなしに、より強力な製品を好き放題出してくる」ってずっと騒いでたのに、いざ一社が「待て、これは出したくない」と言った途端に、「そんなに危険なわけない、嘘に決まってる」ってなるの、すごいよな


Anthropicを、OpenAIやMetaやGrokと混同してるんじゃないか。Anthropicはずっと規制を求めてきた側だし、安全策を入れるために公開を遅らせる姿勢も取ってきた。今回の件も、いかにもあの会社らしい動きだよ


まさにそれ。倫理面で言えば、AI企業の中でAnthropicは本当に最上級に近い存在だと思う


考察・分析

Project Glasswingが示した防御連合

Project Glasswingが浮かび上がらせたのは、サイバー防衛の主役そのものの変化です。前面に並んでいるのは、クラウド、OS、金融、半導体、セキュリティ企業、そしてオープンソース基盤の保守側でした。安全保障の土台は、国家の制度や命令だけで動くものから、民間の基盤企業の配備順序と協調まで含めて動くものへ変わりつつあります。
サイバー空間の守りは、誰が先に技術を持つかだけでなく、誰が先に配り、誰が先に修復を回し、誰が基盤の更新を止めないかで差がつく段階に入りました。

Anthropicが今回決めたのも、モデルの公開可否だけではなく、重要ソフトウェアを守る側へどこから先に配るかという順番でした。一般公開を止め、防御側へ先行配備し、攻撃側や無秩序な拡散が広がる前に時間差を作る。その判断自体が、すでに戦略になっています。
ここでは技術の保有がそのまま防衛力になり、普及の速さより配備の順番が重みを持ちます。新モデルの発表というより、防御資産の配備順序が安全保障の論理に組み込まれた出来事として見る方が、今回の実態に近いです。


修復速度が新しい格差になる時代

Claude Mythosが押し上げるのは、脆弱性発見の精度だけではなく、防御側の時間感覚です。発見の速度が跳ね上がると、次に目立つのは修復の遅さになります。人間の専門家が時間をかけて探し、確認し、修正し、展開することで成り立ってきた均衡は、発見だけが先に機械化されることで崩れます。
ここから先の脆弱性管理は、見つけることより、止血し、直し、配ることの方が重くなります。

組織の強さを分ける指標も変わります。重みを増すのは、検知件数より、見つかった問題を何日で止血し、何日で更新し、どこまで早く全体へ広げられるかです。脆弱性管理の中心は、発見から修復へ移ります。
差になるのは、AIを持っているかどうかだけではありません。見つかった脆弱性を、組織として止められるか、直せるか、現場まで落とし込めるかです。強いAIを持つ企業より、更新と対処を止めずに回せる企業の方が長期的には強くなります。

この変化は、企業の情報システム部門だけに閉じません。行政、金融、医療、物流のように、止まること自体が社会コストになる分野ほど、修復速度の差がそのまま安全保障上の差になります。脆弱性そのものより、直すまでの時間が危険になる時代が始まっています。


オープンソースが安全保障になる構図

今回の件が押し上げたもののひとつが、オープンソースの位置づけです。国家も企業も金融機関も、現実には大量のオープンソース部品の上で動いています。巨大クラウドも銀行も行政も、最終的には誰かが少人数で支えているソフトの上に乗っています。
AIが脆弱性を大規模に掘り起こす時代には、目立たない基盤ライブラリや保守体制の弱さが、そのまま安全保障の問題になります。

ここで表面化するのは、力の大きい主体ほど、内側では小さな共有部品に強く依存しているという現実です。国家のシステムも、巨大企業のサービスも、完成品のように見えて、内側では無数の依存関係でつながっています。
脆弱性発見能力だけが先に進むと、最も弱い保守点がシステム全体の弱点になります。強い国や強い企業ほど、基盤の小さな継ぎ目に引きずられやすくなります。

この構図は、従来の安全保障観では捉えにくいものです。兵器、軍備、外交、制裁といった大きな単位だけでなく、ライブラリ、メンテナー、更新体制、依存関係のような小さな単位が、全体の強さを左右するからです。
AI時代の安全保障は、誰が基盤ソフトを直し続けられるのか、誰がその保守を支えられるのかという地味な問題まで含むようになります。今回の件は、その現実をかなりはっきり見せました。


OpenAIとGoogleが無視できない理由

Anthropic、OpenAI、Googleの競争は、防御インフラを誰が先に握るかという競争へ移っています。重要インフラに入り込み、防御側の信頼を握り、実務へ先に配備できる企業が優位に立つ構図です。
モデル競争の中心そのものが、生成精度から配備の順番へ動き始めています。

Anthropicが先に取った優位は、防御の共同戦線を先に作ったことにあります。主要クラウド、主要OS、金融、半導体、セキュリティ企業を束ね、誰と組み、どこへ先に配り、どの領域を守るのかという順番まで押さえました。
今回の強みは、モデル単体の性能ではなく、配備の設計ごと先に握った点にあります。

Googleは巨大な自社インフラと実運用環境を抱えており、防御AIを内部へ深く統合する力を持っています。OpenAIは開発者基盤とエコシステムの広さを持ち、企業実務への浸透力で大きな影響力を持っています。
防御AIの実務配備という領域では、どちらもAnthropicとは別の強みを持ち込みやすい立場です。今後の競争で重みを持つのは、ベンチマークの点差より、誰へ先に配り、誰と組み、どこを守るかという順番です。

先行者が手にするのは、守りを固めるための時間です。今回の優位は、独占というより、安全保障上の猶予として見ると実態に近づきます。
決定的な独占が永遠に続くのではなく、最初の時間差がそのまま戦略価値になります。モデル性能の差より、先行配備で作られる時間差の方が重くなり始めています。


日本企業に重くのしかかる追随力の差

日本に先に問われるのは、Mythos級モデルを自前で持てるかどうかではなく、世界の基盤ソフトで見つかった問題にどれだけ速く追随できるかです。企業や自治体は、海外クラウド、海外製OS、海外由来のオープンソース部品に深く依存しています。
この前提に立つと、差になるのは研究開発力だけでなく、運用の速さです。

古い基幹システム、更新の遅い調達、外注先任せの保守、人手不足の情報システム部門。こうした要素は、平時には目立ちにくくても、AI時代にはそのまま弱点になります。
新しい脅威を生むのはAIで、被害を広げるのは古い組織運営です。脅威の性質が変わるほど、古い遅さは深刻な弱点として露出します。

ここで重要になるのは、技術を理解しているかどうかだけではありません。更新を止めずに回せるか、世界の基盤ソフトで脆弱性が見つかったときに、自社への影響を把握し、暫定対策を打ち、修正を広げるまでの運用速度です。
持てるかどうかより、直せるかどうかの方が重くなります。

この構図は、日本の行政や大企業の弱点とも重なります。新しい技術の導入より前に、古い仕組みの更新停止や責任分散が、AI時代には大きな危険になります。
今回の問題は、AI企業の話であると同時に、日本企業や行政がどれだけ速く直し、どれだけ遅れず追随できるかという問題でもあります。


総括

Claude MythosとProject Glasswingが示したのは、安全保障の前提そのものが静かに組み替わり始めたということです。脆弱性発見は一部の熟練研究者だけの領域から外れ、その能力を持つモデルは一般公開ではなく、選ばれた防御側へ先に配備される時代に入りました。
そこでは、誰が先に作るか以上に、誰が先に直し、守りを固めるかが戦略になります。

この変化が重いのは、サイバー空間の抑止が国家だけでなく、AI企業、クラウド事業者、金融機関、セキュリティ企業、オープンソース基盤の保守者まで巻き込む構図になったからです。しかもその背後では、Anthropic、OpenAI、Googleなどの競争も、防御インフラを誰が先に握るかという競争へ移りつつあります。
技術競争、配備競争、修復速度の競争が、ひとつの安全保障の地図の上に重なり始めています。

Mythosの危険は、インフラ防衛と国家安全保障の論理へそのまま接続してしまう強さにあります。問いの中心は、誰が最初に作るかから、誰が最初に直し、守り切れるかへ移りました。
AIをめぐる競争は、便利さを争う段階から、社会の基盤を守る順番を争う段階へ入っています。

それではまた、次回の記事でお会いしましょう。


▼記事が面白かったら応援クリックお願いします!▼

▲更新の励みになります!▲


関連書籍紹介

サイバー戦争 終末のシナリオ

ニコール・パーロース著、江口泰子訳(早川書房/2022年8月3日刊)

ゼロデイ脆弱性が国家、情報機関、サイバー兵器ブローカーの間でどのように扱われてきたのかを追ったルポルタージュです。今回の記事で扱ったMythosは、AIがその脆弱性探索を一気に加速させる段階へ入ったことを示しましたが、その前史にあたる人間中心のサイバー戦争がどのように動いてきたのかを知るには、この本がかなり噛み合います。サイバー空間で何が「兵器」になり、どこから安全保障の問題になるのかを、今回の記事の延長で読みたい人に向いた一冊です。


情報セキュリティの敗北史 脆弱性はどこから来たのか

アンドリュー・スチュワート著、小林啓倫訳(白揚社/2022年10月刊)

なぜ情報セキュリティは長いあいだ敗北を繰り返してきたのかを、コンピュータの黎明期からたどる一冊です。Mythosの脅威が重く見えるのは、これまで人間の時間と作業量を前提に回っていた脆弱性対応が、AIによって一気に崩されかねないからです。その「崩される前提」が何だったのかを整理するには、この本がとても役立ちます。今回の記事で触れた、蓄積された弱点がAI時代にどう露出しうるのかを、もう一段深く理解したい人に合います。



参考リンク

返信を残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA