AIと機械学習プロジェクトのセキュリティを確保する方法

人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この記事では、いくつかの企業がどのようにリスクを最小限に抑えたかについて説明します。

[[343401]]

企業が新しいテクノロジーを導入する場合、新しい製品やサービスをできるだけ早く、低コストで顧客に提供することにセキュリティが後回しにされることがよくあります。

人工知能 (AI) と機械学習 (ML) は、以前の技術の進歩と同様に脆弱性や誤った構成の可能性をもたらしますが、独自のリスクも伴います。企業が AI 主導のデジタル変革に着手するにつれて、これらのリスクはさらに大きくなる可能性があります。「これに急いではいけない」とブーズ・アレン・ハミルトンの主任科学者エドワード・ラフ氏は言う。

他のテクノロジーと比較して、人工知能と機械学習にはより多くのデータとより複雑なデータが必要です。数学者やデータサイエンティストによって開発されたアルゴリズムは、研究プロジェクトから生まれます。ラブ氏は、科学界では人工知能に安全性の問題があることがようやく最近になって認識され始めたと述べた。

クラウドプラットフォームは、多くの場合、大量のワークロードを処理するため、複雑さと脆弱性がさらに増します。当然のことながら、AI 導入者にとって最も懸念されるリスクはサイバーセキュリティです。先月発表されたデロイトの調査によると、導入企業の62%がサイバーセキュリティリスクを大きな懸念事項として挙げているが、その対策を講じる準備ができていると答えたのはわずか39%だった。

さらに問題を複雑にしているのは、サイバーセキュリティが AI が使用される主な機能の 1 つであることです。デロイトのテクノロジー、メディア、通信センターのエグゼクティブディレクター、ジェフ・ルークス氏は、企業がAIの経験を積むほど、サイバーセキュリティのリスクに対する懸念が高まると述べた。

さらに、経験豊富な組織でさえ、すべての AI および ML プロジェクトの完全な監査とテストを実施するなど、基本的なセキュリティ慣行に従っていません。ルークス氏は、企業は現在、これらの対策をあまりうまく実施できていないと述べた。

AIとMLのデータ需要はリスクをもたらす

AI および ML システムには、次の 3 セットのデータが必要です。

予測モデルを構築するためのトレーニングデータ
モデルのパフォーマンスを評価するためのテストデータ
モデルが使用される際の運用データ

リアルタイムのトランザクションデータや運用データは明らかに貴重な企業資産ですが、機密情報も含まれるトレーニングデータやテストデータのプールを見落とすことはよくあります。

匿名化、トークン化、暗号化など、他のシステムでデータを保護するために使用される原則の多くは、AI および ML プロジェクトに適用できます。最初のステップは、データが必要かどうかを尋ねることです。 AI および ML プロジェクトを準備するときは、できる限りすべてのデータを収集し、それを使って何ができるかを確認します。

ビジネス成果に焦点を当てることで、企業は収集するデータを必要なものだけに限定できるようになります。教育機関の学生データを分析する Othot の CTO、ジョン・アバティコ氏は、データサイエンスチームはデータへの渇望があまりにも強いため、学生データを扱う際には、機密性の高い PII (個人を特定できる情報) は不要であり、チームに提供されるデータに決して含めてはならないことを明確にしていると述べています。

もちろん、間違いは起こります。たとえば、顧客は社会保障番号などの機密性の高い個人情報を提供する場合があります。この情報はモデルのパフォーマンスを向上させるものではなく、追加のリスクをもたらします。アバティコ氏は、彼のチームにはPIIを特定し、それをすべてのシステムから削除し、顧客にエラーを通知するプロセスが整備されていると述べた。

AI システムにはコンテキストデータも必要であり、これにより企業の露出が大幅に拡大する可能性があります。たとえば、保険会社が顧客の運転習慣をより正確に把握したいとします。その場合、買い物、運転、位置情報などのデータセットを購入して、簡単に相互相関させて顧客アカウントと照合することができます。この新しい、指数関数的に増加するデータセットはハッカーにとってさらに魅力的であり、侵害された場合、企業の評判にさらに大きな損害を与えます。

人工知能のためのセキュリティ設計

保護すべきデータが大量にある企業の一つが、オンラインファイル共有プラットフォームの Box です。 Box は AI を使用してメタデータを抽出し、検索、分類、その他の機能を改善します。 Box の CISO である Lakshmi Hanspal 氏は、Box は契約から条件、更新、価格情報を抽出できると述べています。 Box の顧客コンテンツ分類のほとんどは、ユーザー定義であるか、完全に無視されます。彼らは、デジタル変革に役立つ可能性のある膨大なデータを保有しています。

ハンスパル氏は、データ保護はBoxにとって最優先事項であり、トレーニングデータを含むAIシステムにも同様のデータ保護基準が適用されると述べた。 Box は信頼を構築し、それを維持します。

つまり、新しい AI プロジェクトを含むすべてのシステムは、暗号化、ログ記録、監視、認証、アクセス制御などのコアデータセキュリティ原則に基づいて構築されます。ハンスパル氏は、デジタルトラストは同社のプラットフォームに内在しており、同社はそれを実践していると述べた。

Box は、従来のコードと新しい AI および ML を活用したシステムの両方に対して安全な開発プロセスを備えています。「当社は、安全な製品を開発するにあたり、ISO 業界標準に準拠しています」とハンスパル氏は言う。「設計段階からのセキュリティが組み込まれており、侵入テストやレッドチーム演習などのチェックとバランスも整っています。」

数学者やデータサイエンティストは、AI や ML アルゴリズムのコードを書くときに、潜在的な脆弱性を心配しないことがよくあります。企業が AI システムを構築する場合、既存のオープンソースアルゴリズムを利用したり、市販の「ブラックボックス」 AI システムを使用したり、独自の AI システムをゼロから構築したりします。

オープンソースでは、攻撃者が悪意のあるコードを埋め込んだり、コードに脆弱性や脆弱な依存関係を含んだりする可能性があります。独自の商用システムでも、企業顧客が通常は閲覧できない新しいコードであるオープンソースコードが使用されます。

逆攻撃は大きな脅威である

AI および ML システムは、多くの場合、オープンソースライブラリと、セキュリティエンジニア以外の人が作成した新しく記述されたコードの組み合わせです。さらに、安全な AI アルゴリズムを作成するための標準的なベストプラクティスは存在しません。セキュリティ専門家とデータサイエンティストの不足を考えると、両者の供給はさらに少なくなっています。

ブーズ・アレン・ハミルトンのラフ氏が最も懸念する大きな潜在的リスクの 1 つであり、長期的な脅威の 1 つである AI および ML アルゴリズムは、トレーニングデータを攻撃者に漏らす可能性があります。「AI モデルに自分自身やトレーニングに使われた情報を提供させる逆攻撃があります」と彼は言う。「PII データでトレーニングされていた場合、モデルにその情報を漏らさせることも可能です。実際の PII が漏洩する可能性があります。」

ラフ氏は、これは活発に研究されている分野であり、大きな潜在的な問題点であると述べた。リバースエンジニアリング攻撃からトレーニングデータを保護できるツールはありますが、高価すぎます。「この脅威を阻止する方法はわかっているが、モデルのトレーニングコストが100倍に増加すると言っても過言ではないので、誰もそれをやっていない」と彼は語った。

説明できないものは確保できない

もう一つの研究分野は解釈可能性です。現在、多くの大手サイバーセキュリティベンダーが提供する AI および ML 対応ツールを含む多くの AI および ML システムは、「ブラックボックス」システムです。 YL Ventures の CISO である Sounil Yu 氏は、次のように述べています。「ベンダーは説明可能性を組み込んでいませんでした。セキュリティでは、何が起こったのかを説明できることが基本的な要素です。なぜそれが起こったのか説明できないのに、どうやって修復できるのでしょうか。」

独自の AI または ML システムを構築している企業の場合、何か問題が発生した場合、トレーニングデータや使用したアルゴリズムに戻って問題を解決することができます。 Yu 氏は、他の人から構築した場合、トレーニングデータが何であるかわからないと指摘しています。

保護が必要なのはアルゴリズムだけではない

AI システムは、単なる自然言語処理エンジン、単なる分類アルゴリズム、単なるニューラルネットワークではありません。これらの部分が完全に安全であっても、システムは依然としてユーザーやバックエンドプラットフォームと対話する必要があります。

システムは強力な認証と最小権限の原則を使用していますか? バックエンドデータベースへの接続は安全ですか? サードパーティのデータソースへの接続はどうですか? ユーザーインターフェイスはインジェクション攻撃に対して耐性がありますか?

もう一つの人的不安の原因は、AI および機械学習プロジェクトに特有な、データサイエンティストです。 Otto の Abatico 氏は、優れたデータサイエンティストはデータを実験して洞察力のあるモデルを生み出すと述べています。ただし、データセキュリティに関しては、実験は危険な動作につながる可能性があります。データの使用が終わったら、データを安全でない場所に移動したり、サンプルデータセットを削除したりしたくなるかもしれません。 Othot は早い段階から SOC II 認証の取得に投資しており、これらの制御により、データの移動や削除時を含め、会社全体で強力なデータ保護慣行を実施しています。

「実際のところ、あらゆる場所のほとんどの AI モデルにおける最大のリスクは AI ではなく、人間にあります」と、AI エージェンシー Urvin AI のプロダクトマネージャーであり、国際的な非営利セキュリティ研究組織 ISECOM の共同創設者でもある Peter Herzog 氏は語ります。「セキュリティ上の問題がない AI モデルはほとんどありません。なぜなら、AI のトレーニング方法、含めるデータ、予測、公開する情報の量を決めるのは人間だからです。」

AI および ML システムに特有のもう 1 つのセキュリティリスクは、データポイズニングです。これは、攻撃者がシステムに情報を入力して、不正確な予測を強制するものです。たとえば、攻撃者は、同様のマルウェア指標を持つ正規のソフトウェアの例をシステムに提示することで、マルウェアが安全であるとシステムに思い込ませることができます。

「これはほとんどの組織が非常に懸念していることです」とラブ氏は言う。「現時点では、AI システムが実際に攻撃されているという話は聞いていません。長期的には脅威となりますが、現時点では、攻撃者がウイルス対策ソフトウェアを回避するために使用する従来のツールは依然として機能しているため、攻撃者はさらに高度な技術を身につける必要はありません。」

バイアスとモデルドリフトの回避

AI および ML システムを、ユーザー行動の分析、ネットワークトラフィックの監視、データ漏洩のチェックなどのエンタープライズセキュリティに使用する場合、バイアスやモデルドリフトによって潜在的なリスクが生じる可能性があります。トレーニングデータセットがすぐに古くなると、特に防御のために AI への依存度が高まっている組織は脆弱になる可能性があります。企業はモデルを常に更新し、モデルの更新を継続的なプロセスにする必要があります。

場合によっては、トレーニングデータは自動的に行われることもあります。たとえば、変化する気象パターンやサプライチェーンの配送スケジュールに合わせてモデルを調整すると、時間の経過とともにモデルの信頼性が向上します。情報源に悪意のある行為者が関与している場合、汚染や操作を避けるためにトレーニングデータセットを慎重に管理する必要があります。

企業はすでに、顔認識や採用プラットフォームが女性や少数派を差別するなど、倫理的問題を引き起こすアルゴリズムに対処している。アルゴリズムに偏見が入り込むと、コンプライアンスの問題を引き起こしたり、自動運転車や医療アプリケーションの場合には死亡事故につながる可能性もあります。

アルゴリズムは予測にバイアスを注入できるのと同様に、バイアスを制御するためにも使用できます。たとえば、Othot は大学がクラスの規模を最適化したり、財務目標を達成したりするのに役立ちます。適切な制約なしにモデルを作成すると、簡単に偏りが生じる可能性があると、オットのアバティコ氏は述べた。「偏見を精査するには、さらに努力が必要です。多様性関連の目標を追加すると、モデルが目標を理解し、偏見に対抗するのに役立ちます。多様性の目標が制約として含まれていない場合は、偏見を簡単に組み込むことができます。」

AIの未来はクラウドにある

AI および ML システムには、大量のデータ、複雑なアルゴリズム、必要に応じて拡張できる強力なプロセッサが必要です。すべての主要なクラウドベンダーは、すべてを 1 つの便利な場所にまとめるデータサイエンスプラットフォームの提供に競い合っています。つまり、データサイエンティストは IT 部門がサーバーをプロビジョニングするのを待つ必要がありません。オンラインにアクセスしていくつかのフォームに記入するだけで、ビジネスを始めることができます。

Deloitte の AI 調査によると、企業の 93% が何らかの形でクラウドベースの AI を使用しています。「これにより、開始が容易になります」とデロイトの Loucks 氏は言います。その後、これらのプロジェクトは運用システムとなり、規模が大きくなるにつれて、構成の問題が増加します。最新のサービスでは、集中化された自動構成およびセキュリティ管理ダッシュボードが利用できない可能性があり、企業は独自のダッシュボードを作成するか、ベンダーがそのギャップを埋めるまで待つ必要があります。

これらのシステムを使用する人が、セキュリティに関する十分な知識を持たない一般のデータサイエンティストや理論研究者である場合、これは問題になる可能性があります。さらに、ベンダーはこれまで、最初に新機能を導入し、その後にセキュリティ機能を導入してきました。これは、システムを迅速に導入し、その後さらに迅速に拡張する場合に問題になる可能性があります。 IoT デバイス、クラウドストレージ、コンテナーではすでにこの現象が見られます。

AIプラットフォームベンダーは脅威に対する認識を高めており、自らの失敗から学んでいるとラフ氏は語った。「これまでの『安全は最後』という考え方を考えると、安全に関する内容を組み込むための計画は予想以上に積極的だ」と同氏は言う。「ML コミュニティはこれにもっと注目しており、遅延は短くなる可能性が高い」

Deloitte の AI 共同リーダーである Irfan Saif 氏も、特に大規模なエンタープライズ AI ワークロードをサポートする主要なクラウドプラットフォームに関しては同意しています。サイバーセキュリティ機能の進化という点では、これまでの技術よりも成熟している可能性が高いでしょう。

AI プロジェクトセキュリティチェックリスト

AI プロジェクトのセキュリティを確保するために役立つ次のチェックリストは、デロイトの『企業における AI の現状 (第 3 版)』から抜粋したものです。