AI および機械学習プロジェクトはどの程度安全ですか?

[[355693]]

人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この記事では、いくつかの企業がどのようにリスクを最小限に抑えているかについて説明します。

企業が新しいテクノロジーを導入する際、セキュリティが軽視されることがよくあります。新しい製品やサービスをできるだけ早く、そして最低のコストで顧客や社内ユーザーに提供することがより重要であると思われます。優れたセキュリティは時間がかかり、コストもかかる可能性があります。

人工知能 (AI) と機械学習 (ML) は、以前の技術の進歩と同様に脆弱性や誤った構成の可能性をもたらしますが、独自のリスクも伴います。企業が AI を活用したデジタル変革に着手するにつれて、こうしたリスクはさらに大きくなる可能性があります。「ここは買収するのにあまり良い地域ではない」とブーズ・アレン・ハミルトンの主任科学者エドワード・ラフ氏は語った。

AI と ML では、他のテクノロジーよりも多くのデータと複雑なデータが必要になります。数学者とデータサイエンティストは、研究プロジェクトから生まれたアルゴリズムを開発します。「AIの安全性の問題を科学的観点から理解し始めたのはつい最近のことだ」とラフ氏は語った。

また、ボリュームと処理の需要により、クラウドプラットフォームがワークロードの処理を継続することが多くなり、複雑さと脆弱性のレベルがさらに高まります。当然のことながら、AI ユーザーにとって最も懸念されるリスクはサイバーセキュリティです。 2020年7月に発表されたデロイトの調査によると、回答者の62%がサイバーセキュリティリスクを重大または極めて深刻な問題とみなしているものの、そのリスクに対処する準備ができていると答えたのはわずか39%でした。

問題をさらに複雑にしているのは、サイバーセキュリティも AI の最も重要な機能の 1 つであることです。デロイトのテクノロジー、メディア、通信センターのエグゼクティブディレクター、ジェフ・ルークス氏は、AIの経験を積む組織ほど、サイバーセキュリティのリスクに対する懸念が高まると述べた。

さらに、経験豊富な企業であっても、すべての AI および ML プロジェクトの完全なインベントリを保持したり、監査やテストを実施したりするなど、基本的なセキュリティ慣行に従っていないことがあります。「企業は今のところ、こうした対策をうまく実行できていない」とルークス氏は語った。

AIとMLのデータ要件によってもたらされるリスク

AI および ML システムには、次の 3 セットのデータが必要です。

• 予測モデルを構築するためのトレーニングデータ

• モデルがどの程度うまく機能するかを評価するためのテストデータ

• モデルが運用開始されたときのリアルタイムのビジネスデータまたは運用データ

リアルタイムのビジネスデータや運用データは明らかに貴重な企業資産ですが、機密情報を含むトレーニングデータやテストデータのプールを見落とす可能性は高くなります。

匿名化、トークン化、暗号化など、他のシステムでデータを保護するために使用される原則の多くは、AI および ML プロジェクトにも適用できます。最初のステップは、データが本当に必要かどうかを尋ねることです。 AI および ML プロジェクトの準備をするとき、できる限り多くのデータを収集し、それを使って何ができるかを確認したいと思うかもしれません。

ビジネス成果に焦点を当てることで、企業は収集するデータを必要なものだけに限定できるようになります。「データサイエンスチームは、データに非常に飢えていることがあります」と、教育機関の学生データを分析する Othot の CTO、John Abbatico 氏は言います。「学生のデータを取り扱う際、機密性の高いPII（個人を特定できる情報）は必須ではなく、当社のチームに提供されるデータには含まれてはならないことを明確にしています。」

もちろん、間違いは起こります。たとえば、顧客は社会保障番号などの機密性の高い個人情報を提供する場合があります。この情報はモデルのパフォーマンスを向上させるものではなく、追加のリスクを生み出します。アバティコ氏は、彼のチームには個人情報を特定し、それをすべてのシステムから削除し、顧客にエラーを通知するプロセスがあると述べた。「これはセキュリティインシデントだとは思っていないが、私たちのやり方ではそう見えてしまった」

AI システムにはコンテキスト化されたデータも必要であり、これにより企業のリスク露出が大幅に増加する可能性があります。たとえば、保険会社が顧客の運転習慣をより深く理解したいとします。その場合、買い物、運転、位置情報などのデータセットを購入して、簡単に相互に関連付け、顧客のアカウントと照合することができます。この新たな、飛躍的に豊富なデータセットはハッカーにとってもさらに魅力的であり、侵害された場合、企業の評判にさらに壊滅的な打撃を与えます。

人工知能のためのセキュリティ設計

保護すべきデータが大量にある企業の一つが、オンラインファイル共有プラットフォームの Box です。 Box は AI を使用してメタデータを抽出し、検索、分類、その他の機能を改善しています。「たとえば、契約から条件、更新、価格情報を抽出できます」と Box の CISO である Lakshmi Hanspal 氏は述べています。「当社の顧客のほとんどは、コンテンツの分類がユーザー定義か完全に無視されていた時代から来ています。彼らは、人間のアクションを待つのではなく、コンテンツを分類して自己認識できれば、デジタル変革に役立つ可能性のある膨大なデータを抱えています。」

データ保護はBoxにとって重要な柱であり、トレーニングデータを含むAIシステムにも同様のデータ保護基準が適用されるとハンスパル氏は述べた。「Box では、信頼を築き、信頼を売り、信頼を維持することが私たちの使命だと考えています。これは、パートナーや顧客に提供する製品にバンドルするのではなく、製品自体に組み込まれる必要があると私たちは強く信じています。」

つまり、新しい AI プロジェクトを含むすべてのシステムは、暗号化、ログ記録、監視、認証、アクセス制御などのコアデータセキュリティ原則に基づいて構築される必要があります。「デジタル信頼は当社のプラットフォームに内在しており、それを実践する必要がある」とハンスパル氏は語った。

Box は、従来のコードと新しい AI および ML 駆動型システムの両方に対して安全な開発プロセスを提供します。「当社は安全製品の開発においてISO業界基準を満たしています」とハンスパル氏は語った。「設計段階からのセキュリティが組み込まれており、侵入テストやレッドチームテストなどのチェックとバランスが存在します。これは標準的なプロセスであり、AI および ML プロジェクトも例外ではありません。」

数学者やデータサイエンティストは、通常、AI や ML アルゴリズムのコードを書くときに潜在的な脆弱性を心配する必要はありません。 AI システムを構築する場合、企業は利用可能なオープンソースアルゴリズムを利用したり、市販の「ブラックボックス」 AI システムを使用したり、独自のシステムをゼロから構築したりします。

オープンソースの場合、攻撃者が悪意のあるコードを紛れ込ませたり、コードに脆弱性や脆弱な依存関係が含まれていたりする可能性があります。独自の商用システムでは、オープンソースコードに加え、企業顧客が通常は目にすることのない新しいコードも使用されます。

逆攻撃は大きな脅威である

AI および ML システムは、多くの場合、オープンソースライブラリと、セキュリティエンジニア以外の人が作成した新しく記述されたコードの組み合わせです。さらに、安全な AI アルゴリズムを作成するための標準的なベストプラクティスは存在しません。セキュリティ専門家とデータサイエンティストの不足を考えると、両方の専門家はさらに少なくなるでしょう。

AI および ML アルゴリズムの最大の潜在的リスクの 1 つであり、ブーズ・アレン・ハミルトンのラフ氏が最も懸念している長期的な脅威の 1 つは、トレーニングデータが攻撃者に漏洩する可能性です。「逆攻撃を行えば、AIモデルに自分自身に関する情報や、どのようにトレーニングされたかを教えさせることができる」と彼は語った。「PII データでトレーニングされている場合、モデルがその情報を漏らす可能性があります。実際の PII が公開される可能性があります。」

これは積極的な研究と大きな潜在的問題点を必要とする分野だとラフ氏は述べた。トレーニングデータをリバースエンジニアリング攻撃から保護するツールはいくつか存在しますが、高価です。「これを防ぐ方法はわかっているが、そうするとモデルのトレーニングにかかるコストが100倍も高くなる」と彼は語った。「誇張しているわけではありません。モデルのトレーニングには100倍のコストと100倍の時間がかかるので、誰もやらないでしょう。」

説明できないものを守ることはできない

もう一つの研究分野は解釈可能性です。現在、多くの AI およびモバイルコンピューティングシステム (多くの大手サイバーセキュリティベンダーが提供する AI およびモバイルコンピューティングツールを含む) は、「ブラックボックス」システムです。「ベンダーは説明可能性を組み込んでいない」と、YLベンチャーズの常駐CISOであるスニル・ユー氏は言う。「セキュリティの世界では、何が起こったのかを説明できることが基本的な要素です。なぜそれが起こったのか説明できないのに、どうやって解決できるのでしょうか？」

独自の AI または ML システムを構築できる企業の場合、何か問題が発生した場合、使用したトレーニングデータまたはアルゴリズムに戻って問題を修正できます。「他人から構築した場合、トレーニングデータが何であるか全く分からない」とユー氏は言う。

保護が必要なのはアルゴリズムだけではない

AI システムは、単なる自然言語処理エンジン、単なる分類アルゴリズム、あるいは単なるニューラルネットワーク以上のものです。これらの部分が完全に安全であっても、システムは依然としてユーザーやバックエンドプラットフォームと対話する必要があります。

システムは強力な認証と最小権限の原則を使用していますか? バックエンドデータベースへの接続は安全ですか? サードパーティのデータソースへの接続はどうですか? ユーザーインターフェイスはインジェクション攻撃に対して耐性がありますか?

もう一つの人的不安の原因は、AI と AI プロジェクトに特有な、データサイエンティストです。「彼らが科学者と呼ばれるのは、何の根拠もなくそう呼ばれているわけではない」とオトットのアバティコ氏は言う。「優秀なデータサイエンティストは、データを使って実験し、洞察力に富んだモデルを導き出すことができます。しかし、データセキュリティに関しては、実験が危険な行動につながる可能性があります。データを安全でない場所に移動したり、処理後にサンプルデータセットを削除したりしたくなるかもしれません。 Othot は早い段階から SOC II 認証の取得に投資しており、これらの制御により、データの移動や削除時を含め、会社全体で強力なデータ保護慣行を実施しています。

「現実には、世界中のほとんどのAIモデルにとって最大のリスクはAI自体にあるのではない」と、人工知能企業Urvin AIのプロダクトマネージャーであり、国際的な非営利セキュリティ研究組織ISECOMの共同創設者でもあるピーター・ヘルツォク氏は述べた。問題は人間にあると彼は言った。「AI モデルはどれもセキュリティ問題から逃れられません。AI のトレーニング方法を決めるのも、AI に含めるデータを決めるのも、AI が何を予測するかを決めるのも、AI がどの程度の情報を公開するかを決めるのも、すべて人間だからです。」

AI および ML システムに特有のもう 1 つのセキュリティリスクは、データポイズニングです。これは、攻撃者がシステムに情報を入力して、不正確な予測を強制するものです。たとえば、攻撃者は、マルウェアに類似した兆候を持つ正規のソフトウェアの例をシステムに提供することで、マルウェアが安全であるとシステムに思い込ませることができます。

ラフ氏は、これはほとんどの組織にとって大きな懸念事項だと述べた。「現時点では、現実世界でAIシステムが攻撃されているという話は聞いていない」と彼は語った。「これは本当の脅威だが、攻撃者がウイルス対策を回避するために使用する従来のツールは今でも有効であるため、さらに高度な技術を使う必要はない。」

バイアスとモデルドリフトの回避

AI および ML システムを企業のセキュリティに使用する場合 (ユーザー行動分析、ネットワークトラフィックの監視、データフィルタリングの検査など)、バイアスとモデルドリフトも潜在的なリスクとなります。特定の攻撃を過小評価したり、すぐに古くなるトレーニングデータセットを過小評価したりすると、特に防御のために AI に依存する組織が脆弱になる可能性があります。「モデルを常に更新する必要がある」とラフ氏は言う。「それを継続的なものにする必要があります。」

場合によっては、トレーニングは自動的に行われます。たとえば、変化する気象パターンやサプライチェーンの配送スケジュールに合わせてモデルを適応させることで、時間の経過とともにモデルの信頼性を高めることができます。情報ソースに悪意のある行為者が関与している場合、汚染や操作を避けるためにトレーニングデータセットを慎重に管理する必要があります。

企業はすでに、顔認識が行われる場合や、採用プラットフォームが女性や少数派に対して差別的である場合など、倫理的な問題を提起するアルゴリズムに対処している。アルゴリズムに偏見が入り込むと、コンプライアンスの問題が生じる可能性があり、自動運転車や医療アプリケーションの場合には、死に至ることさえあります。

アルゴリズムは予測にバイアスを注入できるのと同様に、バイアスを制御するためにも使用できます。たとえば、Othot は大学がクラスの規模を最適化したり、財務目標を達成したりするのを支援しています。適切な制約なしにモデルを作成すると、簡単にバイアスが導入される可能性があると、オトットのアバティコ氏は述べた。「バイアスの考慮はより慎重に行う必要があります。多様性関連の目標を追加すると、理解目標をモデル化するのに役立ちます。また、多様性の目標が制約としてデータ取り込みに組み込まれていない場合に簡単に組み込まれる可能性があるバイアスを排除するのに役立ちます。」

AIの未来は不透明

AI および ML システムには、必要に応じて拡張できる大量のデータ、複雑なアルゴリズム、強力なプロセッサが必要です。すべての主要なクラウドベンダーは、すべてを 1 つの便利な場所にまとめるデータサイエンスプラットフォームの提供に取り組んでいます。つまり、データサイエンティストは IT 部門がサーバーをプロビジョニングするのを待つ必要がなくなります。彼らはただオンラインにアクセスし、いくつかのフォームに記入して、ビジネスを始めるだけです。

Deloitte の AI 調査によると、企業の 93% が何らかの形でクラウド AI を使用しています。「これにより、開始が容易になります」とデロイトのルークス氏は語った。これらのプロジェクトはその後オペレーティングシステムとなり、規模が大きくなるにつれて構成上の問題が増加しました。最新のサービスでは、集中化された自動構成およびセキュリティ管理ダッシュボードが利用できなくなる可能性があり、企業は独自のダッシュボードを作成するか、ベンダーがそのギャップを埋めるのを待つ必要があります。

システムを使用する人が、十分なセキュリティのバックグラウンドを持たない一般のデータサイエンティストや理論研究者である場合、これは問題になる可能性があります。さらに、ベンダーはこれまで、新機能を第一に、セキュリティを第二に推進してきました。これは、システムを迅速に導入し、その後さらに迅速に拡張する場合に問題になる可能性があります。 IoT デバイス、クラウドストレージ、コンテナーではすでにこの現象が見られます。

AIプラットフォームベンダーは脅威をますます認識しており、自らの失敗から学んでいるとラフ氏は述べた。「歴史的に『安全第一』という考え方があることを考えると、安全を盛り込んだ計画は我々が予想する以上に積極的なものになると思う」と同氏は語った。「MLコミュニティもこれに注目しており、遅延時間は短くなる可能性があります。」

デロイトのチーフ AI 共同リーダーである Irfan Saif 氏も、特に大規模な企業の AI ワークロードをサポートする主要なクラウドプラットフォームに関しては同意しています。「サイバーセキュリティ能力の開発という点では、これまでの技術よりも成熟している可能性が高いと言えるでしょう。」

AI プロジェクトのセキュリティチェックリスト

Deloitte の State of Enterprise AI、第 3 版に掲載されている次のチェックリストは、AI プロジェクトのセキュリティを確保するのに役立ちます。

• すべてのAI実装の正式なリストを維持する

• AIリスク管理をより広範なリスク管理の取り組みと統合する

• AI関連のリスクについて責任を負う上級管理職を置く

• 内部監査とテストを実施する

• 独立した監査とテストのために外部ベンダーを利用する

• AIにおける倫理的問題を認識し、対処する方法を実務者に指導する

• 外部の関係者と協力して、AI倫理規定を確立する

• AIベンダーが公平なシステムを提供していることを確認する

• AI倫理を導くためのポリシーまたは委員会を設立する