2024.03.11

“AIワーム”ついに登場──ChatGPTとGeminiの複数のセキュリティを突破する

セキュリティ研究者たちが、「初の生成AIワーム」と呼ぶものをテスト環境内で作成した。このワームは生成AIエージェントの間で拡散し、データを盗んだり、スパムメールを送信したりできる。

Illustration of two computers with a red wormlike line wrapped around them

OpenAIのChatGPTやグーグルのGeminiなどの生成型AIシステムが高度になるにつれて、こうしたツールがますます活用されるようになっている。スタートアップやテック企業は生成AIをもとに、予約を自動で入れたり、買い物をするといった退屈な雑務を代りにこなしてくれるAIエージェントやエコシステムを構築している。しかし、自律的に動く権限をこうしたツールに与えるほど、攻撃される可能性も増してしまうのだ。

相互接続された自律型AIエコシステムのリスクを調査した研究者たちは、研究で「初の生成AIワーム」と主張するものを作成している。このワームウイルスはひとつのシステムから別のシステムへと移り、その過程でデータを盗んだりマルウェアを展開したりできる。「これまでなかった新しいタイプのサイバー攻撃を計画、実行できることを意味します」と、コーネル・テックで今回の研究を主導したベン・ナッシは話す。

AIワーム「Morris II」

ナッシと共同研究者のスタブ・コーエン、ロン・ビットンが作成したワームは「Morris II」と名付けられた。この名前は、1988年にインターネットを広く混乱に陥れたMorris worm（モリスワーム）にちなんでいる。『WIRED』に共有された研究論文とウェブサイトで研究者たちは、生成AIのメールアシスタントを攻撃してデータを盗み、スパムメッセージを送信するAIワームについて説明した。そして、このワームは攻撃の過程でChatGPTとGeminiのいくつかのセキュリティ対策を破っていた。

この研究は、大規模言語モデル（LLM）がテキストだけでなく画像や動画も生成できるマルチモーダルになりつつあるなかで実施された。研究は実際に利用されているメールアシスタントに対してではなく、テスト環境内で行なわれている。生成AIワームは実際のインターネット環境ではまだ確認されていないものの、スタートアップや開発者、テック企業が懸念すべきセキュリティリスクであると、複数の研究者は指摘している。

プロンプトを武器化

ほとんどの生成AIシステムは、プロンプトを与えられて機能する。プロンプトとはつまり、質問に答えたり、画像を作成したりすることを生成AIに指示する文章のことだ。ところが、こうしたプロンプトはシステムを攻撃する武器にもなる。

システムの“脱獄”とは、生成AIに安全対策を無視して有害またはヘイトに満ちたコンテンツを生成させることだ。そしてプロンプト・インジェクション攻撃はチャットボットに秘密の指示を与えることを意味する。例えば、攻撃者はウェブページに隠した文章でLLMに対して、詐欺師として振る舞い、銀行口座の詳細をユーザーに尋ねるよう指示できるということだ。

研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。これは生成AIモデルに対して、新たなプロンプトを出力するように指示するプロンプトであると、研究者たちは説明している。つまり、AIシステムがプロンプトに対する回答で、新たに一連のプロンプトの生成を指示するということだ。これは、従来のSQLインジェクション攻撃やバッファオーバーフロー攻撃と類似していると研究者たちは言う。

システムを破るふたつの方法

ワームの仕組みを示すために、研究者たちは生成AIを使用してメッセージを送受信できるメールシステムを作成し、ChatGPT、Gemini、オープンソースのLLMであるLLaVAと連携させた。そしてそれ使い、システムを悪用するふたつの方法を見つけている。ひとつはテキストの自己複製プロンプトを使用する方法で、もうひとつは画像ファイル内に自己複製プロンプトを埋め込む方法だ。

ひとつの例では、攻撃者として振る舞う研究者たちが、敵対的なプロンプトを含むメールを用意した。このプロンプトは、システムの外部から追加データを取り込むLLMの機能であるRetrieval-augmented Generation（RAG、検索により強化した文章生成）を使用するメールアシスタントのデータベースを「汚染」する。

ユーザーの指示に応じてRAGがメールを取得し、返信を作成するためにその内容がGPT-4やGemini Proに送られると、「生成AIサービスを脱獄させ、最終的にメールからデータが盗まれます」とナッシは語る。「生成された回答に含まれるユーザーの機密情報は、その回答が別のクライアントに送るメールに使用されると、別のクライアントもそのメールをデータベースに保存する際にワームに感染します」とナッシは話す。

ふたつ目の方法は、画像に埋め込まれた悪意のあるプロンプトが、別の人にメッセージを転送させるようメールアシスタントを仕向けるものだ。「自己複製プロンプトを画像に暗号化したプロンプトを入れ込むことで、スパム、侮辱的なコンテンツ、さらにはプロパガンダを含むあらゆる画像が、当初のメールが送信された後、新しいメールクライアントに転送されます」とナッシは話す。

今回の研究の実演動画には、メールシステムがメッセージを複数回、転送している様子が映っていた。また、研究者たちはメールからデータを抽出することもできたと話している。「名前や電話番号、クレジットカード番号、ソーシャルセキュリティナンバー（SSN）など、機密情報と見なされる情報も取得できます」とナッシは語る。

「粗悪な設計」が悪用される

この研究はChatGPTとGeminiに施されている安全対策をいくつか破っているものの、この研究は、より広いAIエコシステムに対し、システムの「粗悪な設計」を警告するためのものだと研究者たちは話している。また、今回の発見をグーグルとOpenAIにも報告した。

「確認やフィルタリングされていないユーザーの入力を使い、プロンプト・インジェクション型の脆弱性を悪用する方法を研究者らは見つけたようです」とOpenAIの広報担当者は話す。そして同社はシステムを「より堅牢にする」ために取り組んでおり、開発者に対しては「有害な入力を扱っていないことを保証できる方法を実装するよう」伝えているという。グーグルにコメントを求めたが、回答はない。とはいえ、ナッシが『WIRED』に共有したメッセージによると、グーグルの研究者たちはこの問題について話し合うために今回の研究を主導したチームにミーティングを依頼している。

ワームのデモは主に制御された環境内で実施されたが、今回の研究をレビューした複数のセキュリティ専門家は、生成AIワームの将来的なリスクを開発者たちは真剣に受け止めるべきだと指摘する。AIアプリケーションがメールの送信や予約など、ユーザーに代わってタスクを実行することが許可されている場合、あるいはタスクを完了するためにほかのAIエージェントと連携している場合は、特に注意が必要だ。シンガポールと中国のセキュリティ研究者たちも最近の研究で、5分以内に100万のLLMエージェントを脱獄させる方法を見つけている。

2、3年以内に脅威が現実のものに

AIモデルが外部ソースからデータを取り込めたり、AIエージェントが自律的に動作できたりする場合、ワームが拡がる可能性があると、ドイツのヘルムホルツ情報セキュリティセンター（CISPA）の研究者のサハル・アブデルナビは話す。アブデルナビはLLMに対するプロンプト・インジェクション攻撃をいち早く調査し、23年5月にワームの作成が可能であることを明らかにした人物でもある。

「こうしたインジェクションの拡散は、非常に現実的だと思います」とアブデルナビは言う。「これはすべて、モデルがどのようなアプリケーションで使用されているかによります」。この種の攻撃は現時点ではシミュレーションに過ぎないものの、すぐに現実のものになる可能性があるとアブデルナビは話す。

今回の発見をまとめた論文で、2、3年以内に生成AIワームがインターネット上に現れるようになると、ナッシをはじめとする研究者たちは予想している。「クルマ、スマートフォン、OSに生成AIの機能を組み込もうとしている多くの企業によって、生成AIエコシステムは大規模に開発されています」と論文には書かれている。

人間を関わらせることが鍵

このような状況のなかでも、生成AIシステムを開発する人たちが潜在的なワームに対抗するためにできることがある。そこには以前からあるセキュリティ対策も含まれる。「アプリケーションのセキュリテイ面を適切に設計し、モニタリングすることで、こうした問題の多くに対処できます」とAIエンタープライズセキュリティ会社、Robust Intelligenceでこうした脅威の研究をしているアダム・スワンダは話す。「基本的には、アプリケーションのどの部分でも、LLMによる出力を信頼すべきではありません」

また、人間を関わらせる、つまりAIエージェントが承認なしに行動を取ることを許可しないことが、すぐに取り入れられる重要な対策になると、スワンダは指摘している。「あなたのメールを読んで、メールを送信できるLLMの仕組みは望ましくありません。そこは線を引くべきです」。グーグルとOpenAIについては、特定のプロンプトがシステム内で何千回も繰り返されている場合、多くの「ノイズ」が生み出されるはずなので、検出できるかもしれないとスワンダ話す。

攻撃の緩和策として、同様のアプローチをナッシと今回の論文も主張している。また、AIアシスタントを開発している人はこうしたリスクの存在を認識する必要があるとナッシは言う。「このことを理解し、あなたの会社のエコシステムやアプリケーションの開発でこうした手法を採用していないかどうかを確認する必要があります」と言う。「もしそうであるなら、この問題について考慮しなければなりません」

（WIRED US/Translation by Nozomi Okuma）

Related Articles

チャットボットを標的にするハッカー集団をAIで防御する──特集「THE WORLD IN 2024」

生成AIが普及し、犯罪組織の生体認証ハッキングなど犯罪行為が助長されることが不安視されている。一方、同様のAI技術でサイバーセキュリティを増強することもまた、可能となるのだ。

People walk by an Apple store in a shopping mall.

アップルがiMessageに「ポスト量子暗号」を導入する理由

アップルは量子コンピューター登場後のセキュリティ対策として、iMessageに量子暗号化プロトコル「PQ3」を搭載することを発表した。実用化に至っていない量子コンピューターを使った攻撃から保護するための取り組みを、いまから始めているのはなぜなのか。

ランサムウェア攻撃の被害は2023年に過去最高、支払総額は1,600億円規模に到達していた

企業や組織などのシステムを停止させてデータを暗号化し、解除のための“身代金”を要求するランサムウェア攻撃。その被害総額が、2023年に過去最高の1,600億円規模に跳ね上がっていたことが明らかになった。

雑誌『WIRED』日本版 VOL.51
「THE WORLD IN 2024」は好評発売中！

アイデアとイノベーションの源泉であり、常に未来を実装するメディアである『WIRED』のエッセンスが詰まった年末恒例の「THE WORLD IN」シリーズ。加速し続けるAIの能力がわたしたちのカルチャーやビジネス、セキュリティから政治まで広範に及ぼすインパクトのゆくえを探るほか、環境危機に対峙するテクノロジーの現在地、サイエンスや医療でいよいよ訪れる注目のブレイクスルーなど、全10分野にわたり、2024年の最重要パラダイムを読み解く総力特集。詳細はこちら。