AI企業がソフトウェアサプライチェーンの脆弱性の犠牲になると何が起こるか

OpenAI の侵害を調査し、AI 企業 SSC のハッキングの可能性とその影響の可能性を推測します。企業は自らを守るために何ができるでしょうか?

2023年3月20日、OpenAIは人気の生成AIツールChatGPTを数時間シャットダウンしました。同社はその後、障害の原因はオープンソースのインメモリデータリポジトリ「Redis」に起因するソフトウェアサプライチェーンの脆弱性であったことを認めた。

この脆弱性により、ユーザーが誤って他のユーザーのチャット履歴ヘッダーにアクセスし、名前、メールアドレス、支払い先住所、クレジットカードの種類、支払いカード番号の最後の 4 桁などの支払い関連情報が公開される可能性がある時間帯 (3 月 20 日の午前 1 時から午前 10 時) がありました。

これは比較的軽微なバグであり、すぐに発見され修正されました。 ChatGPT やその他の生成 AI の人気が高まっていることを考えると、より標的を絞ったソフトウェアサプライチェーン攻撃はどのような結果をもたらす可能性がありますか?

2023 年にエンタープライズアプリケーションセキュリティはどのような課題に直面するでしょうか?

2022 年のエンタープライズアプリケーションセキュリティレポートでは、開発者に SDLC のすべてのフェーズが安全であることを保証するためのツールとテクニックが提供されます。その内容には、サプライチェーンのセキュリティ、DevSecOps、ゼロトラストセキュリティの原則、モバイルアプリケーションセキュリティなどが含まれます。

この記事では、3 月 20 日に実際に何が起こったのか、ユーザー情報がどのように漏洩したのかを検証します。さらに、より深刻な潜在的な攻撃を想定し、どのような情報が漏洩する可能性があるか、そして、このような事態を防ぐために何ができるかを検討します。最後に、企業が開発しているソフトウェアに関係なく関連する、一般的なソフトウェアサプライチェーンのセキュリティに関する推奨事項をいくつか示します。

他のほとんどのソフトウェア企業と同様に、OpenAI のコードはオープンソースのライブラリとコードに大きく依存しています。この場合、バグは Redis クライアント用のオープンソースライブラリである redis-py で発見されました。以下は同社自身によって再文書化された脆弱性の説明です。

OpenAI は、リクエストごとにデータベースを確認する必要がないように、Redis を使用してユーザー情報をサーバーにキャッシュします。
Redis クラスターは、複数の Redis インスタンスに負荷を分散するために使用されます。
redis-py ライブラリは、Asyncio で実行される同社の Python サーバーの Redis とのインターフェースとして使用されます。
ライブラリは、サーバーとクラスター間の接続の共有プールを維持し、接続が終了すると別のリクエストに使用するために接続をリサイクルします。

asyncio を使用する場合、redis-py のリクエストと応答は 2 つのキューとして動作します。呼び出し元はリクエストを受信キューにプッシュし、応答を送信キューからポップして、接続をプールに返します。

リクエストが受信キューにプッシュされた後、応答が送信キューからポップされる前にキャンセルされたとします。この場合、「接続が切断されました」というエラーが表示され、無関係なリクエストに対して取得された次の応答で、接続に残されたデータが受信される可能性があります。

ほとんどの場合、回復不可能なサーバーエラーが発生し、ユーザーはリクエストを再度実行する必要があります。

しかし、場合によっては、破損したデータが要求者が期待していたデータの種類と一致するため、キャッシュから返されたデータは別のユーザーのものであっても有効であるように見えます。

3 月 20 日午前 1 時、OpenAI が誤ってサーバーに変更を加えたため、Redis リクエストのキャンセルが急増しました。これにより、各接続で通常よりも誤ったデータが返される可能性が高くなります。

この特定のバグは、Redis Cluster の asyncioredis-py クライアントでのみ発生し、OpenAI のエンジニアと Redis ライブラリのメンテナーによって修正されました。

なお、このバグにより、別のアクティブユーザーの検索タイトルとそのユーザーの支払い情報の一部が誤って公開される可能性があります。現在、一部のユーザーは ChatGPT に個人の財務に関する完全または部分的な管理権限を与えており、この情報を公開すると悲惨な結果を招く可能性があります。

起こり得ること

この場合、OpenAi がオープンソースライブラリ Redis から継承したソフトウェアサプライチェーンの脆弱性は、比較的単純な脆弱性であり、簡単に修正できました。 SolarWinds が受けた攻撃と同様の標的型ソフトウェアサプライチェーン攻撃が発生し、長期間 (数か月など) 検出されないという、より深刻なシナリオも考えられます。

現在、ユーザーは大規模言語モデル（LLM）へのより直接的なアクセスを得るためにOpenAIに料金を支払っているため、このような攻撃により支払いデータを含む顧客情報が漏洩する可能性がある。しかし、これは私たちの架空のハッカーグループが本当に興味を持っている情報ではありません。 ChatGPTには現在11億6千万人のユーザーがいます。 2023年3月にユーザー数が10億人を突破しました。これらの数字は、2023年2月から3月にかけて約55％の増加を示しています。生成AIは現在、芸術から歴史、金融に至るまでのさまざまな分野で広く利用されており、OpenAIのデータベースへの無制限のアクセスにより、無数のユーザーに関する身代金要求の対象となる可能性のある情報が漏洩する可能性がある。もっと現実的な例を挙げると、2015 年に起きた Ashley Madison のデータ侵害は深刻な結果をもたらし、その一部は何年も経った今でも影響を及ぼしています。

想像上のハッキングをさらに一歩進めて、この名前のないハッカーグループが OpenAI データベースにアクセスできるだけでなく、リクエストの結果に影響を与えることもできると仮定してみましょう。何百万人もの人々がハッカーグループに合わせたターゲット型金融アドバイスを受ける可能性を想像できますか？あるいは、これも謎のハッカーグループから提供される偽のセキュリティスキャンやコードテスト情報を受け取る可能性を想像できますか？ChatGPT は現在インターネットにアクセスできるようになり、OpenAI のサーバーに出入りする情報を通常の無害なデータ以上のものとして隠すことがさらに容易になりました。

成功した LLM に対するソフトウェアサプライチェーン攻撃によって、甚大な被害が発生する可能性があることがわかります。

自分自身とソフトウェアサプライチェーンを保護する方法

自分を守るためにまずできることは、懐疑心を高めることです。ツールが何を実行し、何を実行できるか、どのリソースにアクセスできるかについて完全な制御を保証できない限り、それがいかに無害に見えても、ツールを盲目的に信頼しないでください。 ChatGPT のオープンソースバージョンをローカルで実行するオプションを使用すると、トレーニング情報とアクセスレベルをより細かく制御できます。

また、ソフトウェアのサプライチェーンで何が起こっているかについて透明性を高め、パイプラインを確立することも良い考えです。各ビルドの SBOM から始めることもできますが、これは単なる 1 つのステップであり、サーバー、クラウド、またはネットワークで何が起こっているかについての透明性を高めるために実行できる他の多くの方法があります。

人工知能の未来

私たちが何をしようとも、AI は存在し続けます。それが人々の日常生活にどの程度影響を与えるかは推測の域を出ませんが、過去 6 か月だけから判断すると、LLM テクノロジーとその応用にとって潜在的な転換点が訪れつつあることは間違いないようです。 AI によって、コードやアプリケーション全体の作成が「自然言語」で適切なプロンプトを見つけることになるにつれて、適切にテストされておらず、ユーザーやアプリケーションを作成する人々や企業を保護するための適切なセキュリティ保護手段が講じられていないアプリケーションが、これまでにないほど多く発生する可能性があります。

<<: 企業が大型モデルに「参入」する場合、なぜ大手メーカーによる生産が推奨されるのでしょうか?

>>: 大規模モデルのRLHFは必ずしも人間に依存するものではなく、Google：AIフィードバックも同様に効果的