サイバー防御能力は、より高度なサイバー攻撃能力の発展に追いつくのに苦労している。人工知能、特に最先端の機械学習 (ML) 手法は、ネットワーク防御者の負担を軽減するために使用されてきました。機械学習がネットワーク防御者にとってメリットとなるか問題となるかは、自動化されたネットワーク防御システムが、増え続ける多様な機能に対応できるかどうかによって決まります。米国国家安全保障委員会の人工知能(NSCAI)は、「AIを使用せずに機械の速度で動作するAI対応の敵を攻撃することは、大惨事となるだろう」と警告している。 指数関数的に増加し、エスカレートするサイバー脅威に直面して、革新的な機械学習手法はネットワーク セキュリティに対する価値を証明していますが、機械学習機能を備えた防御システムを大規模に導入しても、機敏な攻撃者に対抗できるかどうかは保証できません。ネットワークのセキュリティを確保するには、継続的なサイバー攻撃の圧力下でシステムが機械学習機能を確実に実行する必要があります。同時に、機械学習は新たなセキュリティ上の課題ももたらします。機械学習ベースのシステムは、データ内のパターンに依存して予測モデルを開発します。このアプローチは非常に効果的ですが、エラーや悪意のある干渉に対して脆弱でもあります。データ入力を操作できる攻撃者は、予測モデルを攻撃するために偽のデータパターンを作成する可能性がありますが、これは米国の国家安全保障コミュニティを含め、広く認識されている機械学習の弱点です。したがって、欺瞞的な攻撃を防ぐことができる堅牢な機械学習システムを開発することが不可欠ですが、さまざまな堅牢性対策により、機械学習システムの精度が低下することがよくあります。 この精度と堅牢性のトレードオフによって問題が発生します。たとえば、機械学習ベースのウイルス対策システムは、進化するマルウェア攻撃から保護するために動的に調整しますが、開発者はシステムを注意深く監視して欺瞞的な攻撃に対する保護機能を強化できますが、これによりシステムが新しいマルウェアを正確に検出できなくなります。これは、複雑で変化する脅威に対応するために機械学習システムを導入する場合、規制当局はさまざまなリスクの間で常にトレードオフを行う必要があることを示しています。 このレポートは、自動化された機械学習ベースのサイバー防御で生じる課題に焦点を当てています。機械学習ベースのシステムの大規模な導入がサイバー攻撃と防御にどのような影響を与えるかを予測するには、機械学習の技術的なトレードオフとそのようなシステムの限界を理解する必要があります。 1. 機械学習を通じてサイバー防御の公平性を確保する機械学習システムは、不確実な状況下で予測を行うのに役立つ大量のデータ内のパターンを発見できます。画像分類から複雑な戦略ゲームまで、さまざまなタスクにおいて、人間の能力に匹敵するか、それを超えることができます。ネットワーク セキュリティに適用すると、検出機能を形成し、攻撃者の閾値を大幅に引き上げることができます。たとえば、侵入検知システムは、大量のネットワーク アクティビティ データを活用して正常な動作のベースラインを定義し、ネットワーク防御者が異常をより迅速かつ正確に検出できるようにします。攻撃者は明らかな危険信号を避ける必要があるだけでなく、より微妙なレベルで活動の正当性を保つ必要もあります。マルウェア検出は、「大規模なデータセット全体でより広範なパターンを探し、悪意のあるコードと無害なコードを区別できる」システムからも恩恵を受けます。サイバーセキュリティ サービスでは、マルウェアの分析に機械学習がよく使用されます。たとえば、類似した悪意のあるサンプルのセットを識別し、それらを既知のマルウェアと照合します。従来のウイルス対策システムでは、攻撃者がコードを更新する速度に追いつくのに苦労しており、理想的には、機械学習対応のシステムが、悪意のあるコードの特徴であるより深いパターンを識別することで、検出されていないマルウェアを検出できるようになります。 機械学習は、攻撃を自動的に検出するだけでなく、攻撃に対して積極的に防御する可能性も秘めています。理論的には、機械学習は即座に調整を行うことで攻撃を妨害したり軽減したりすることができます。ハニーポットとして知られるおとりデータやネットワークは以前から存在していましたが、機械学習によってそれらを執拗な攻撃に適応させ、より効果的に攻撃者を誘い出してその能力を明らかにさせることが可能になりました。研究者たちは、攻撃者を阻止するためにネットワークを即座に自動的に再構成できるシステムを実験している。 防御アプリケーションは、攻撃者が長年享受してきた非対称的な優位性を排除できます。これには、操作を慎重に計画して防御者を驚かせる能力や、ネットワーク内に侵入した後、マルウェアが予測可能なターゲット環境内で適応し、防御を突破するために機能を継続的に調整する能力が含まれます。機械学習ベースの防御は、将来の攻撃を予測して即座に対応し、防御側の潜在的な「ホームフィールドアドバンテージ」を認識し、攻撃者に対する驚きと欺瞞を利用できます。しかし、機械学習が直面する本当の試練は、攻撃者が常に戦術を調整する攻撃(機械学習モデル自体の欠陥を狙った攻撃を含む)に対処できるかどうかです。高度な攻撃者は、機械学習自体を使って攻撃を仕掛けることもあります。たとえば、攻撃者は機械学習機能を使用して、標的の環境で攻撃を隠す方法や、侵入検知システムを欺くためにコマンド アンド コントロール サーバーとの通信を偽装する方法を研究する場合があります。したがって、機械学習がネットワーク防御のための公平な競争の場を作り出すことができるかどうかは、体系的な攻撃に抵抗する能力に大きく依存します。 2. 機械学習ベースのネットワーク防御が直面する問題最も洗練された機械学習システムであっても、騙されやすい場合がよくあります。攻撃者は、マルウェアを正規のソフトウェアに偽装することで機械学習ベースのマルウェア分析を回避したり、通常のユーザーの動作を模倣することで侵入検知システムを騙したりすることができます。したがって、機械学習ベースの防御は、そのような欺瞞に直面しても確実に機能できる、回復力のあるものでなければなりません。同時に、機械学習をネットワーク防御に適用する場合も、多くの問題に直面します。 2.1 機械学習の脆弱性機械学習システムは、予測を行うのに役立つデータ内のパターンや統計的な規則性を探します。予測の精度を最大限に高めるために、システムはエラーにつながるかどうかに関係なく、有用なパターンを探します。たとえば、画像分類器は、画像に雪があるかどうかに基づいてオオカミとハスキー犬を区別することを学習できます。トレーニング データセットを正確に分類する最も効果的な方法は、雪のあるオオカミと雪のないハスキーの画像をデータセットに多く含めることです。ただし、この相関関係により、より代表的なトレーニング セットや意図的な欺瞞に直面した場合に、システムが誤りを犯す可能性があります。攻撃者はこの脆弱性を悪用して、ハスキーの画像に雪のように見えるものを追加して認識を混乱させるなど、欺瞞的な入力を作成する可能性があります。機械学習の研究には、モデルの予測を変えるために研究者が欺瞞的な入力を作成する「敵対的サンプル」が溢れています。これらの攻撃がスパム フィルター、マルウェア、侵入検知システムなど、さまざまなネットワーク セキュリティ アプリケーションに広がっていることを示す文献が増えています。 機械学習ベースのシステムは、コードに書き込まれたエラーやソフトウェアの脆弱性などによって騙されやすい傾向があります。より正確に言えば、機械学習ベースのシステムは因果関係を理解するのではなく関連性を識別することに依存していますが、データには誤った関連性(「雪」と「オオカミ」の関連性など)が溢れていることが多く、それらは有用な経験則から導き出されたものではあっても、必ずしも正確ではありません。実際、一部の研究者は、敵対的サンプルはシステムが予測可能なパターンを学習したことを証明するものであるため、機械学習の「バグではなく機能」であると説明しています。攻撃者が使用した画像が機械学習システムを騙すことができたとしても、システムは関連性に基づいて予測を行うという本来の目的を果たし続けます。 関連性の識別に基づいて予測を行うことは、機械学習ベースのシステムの固有の特性であるため、現在のところ、これらの脆弱性の発生を防ぐ簡単な方法はありません。実際には、機械学習システムが誤った関連付け(「雪」と「狼」など)を学習したかどうかを判断するのは困難ですが、システムを騙す可能性のある入力の組み合わせの数は無限にあるため、すべての組み合わせをテストして脆弱性を見つけることは不可能です。これらの課題により、人々は「敵対的サンプル」から身を守るための信頼できる方法を模索するようになりましたが、成功は限られています。 2.2 精度と堅牢性のトレードオフ研究者たちは、偽の相関関係を排除するさまざまな方法を発見し、攻撃に対してより耐性のあるモデルを生み出した。ただし、これによりモデルの全体的な精度が犠牲になります。これは、前述の特性により不確実性下での予測が容易になるためだと考えられます。機械学習システムにとって、オオカミとハスキー犬を区別するようなタスクは困難です。開発者は、雪を指標として頼らないようにシステムを訓練するためのデータを特別に作成することができますが、その指標がなければ、システムがオオカミとハスキーを区別することは困難になります。言い換えれば、システムは欺瞞の影響を受けにくくなるかもしれないが、その主なタスクを実行する際の効率も低下するだろう。 堅牢性のためにある程度の精度を犠牲にする価値はあるかもしれませんが、場合によってはジレンマが生じる可能性があります。自動運転車に関するケースを考えてみましょう。開発者は、100万マイルごとに1回事故が発生するシステム(通常の状況下)と、10万マイルごとに1回事故が発生するがサイバー攻撃に対する耐性が高いシステムの2つのシステムから選択する必要があります。後者は特定のパターンへの依存を避け、攻撃者が騙されにくくなるため、より堅牢になる可能性がありますが、その一方で、そのような状況下でシステムが故障するリスクも高まります。これを踏まえて、開発者が脅威の主体が高度な手段と攻撃を仕掛ける十分な動機を持っている可能性は低いと評価した場合、開発者は前者のシステムを選択するのが妥当でしょう。悪意のある攻撃の深刻な脅威に直面している場合は、堅牢性を向上させるためにある程度の精度を犠牲にするのは悪い考えではありません。 しかし、モデルが敵対者の反予測行動を予測することを目的としている場合はどうなるでしょうか? この場合、精度と堅牢性のトレードオフは、さまざまな種類の悪意のある脅威に優先順位を付けることに相当します。たとえば、マルウェアや悪意のあるコマンド アンド コントロール サーバー間の通信を検出することを目的とした機械学習ベースのシステムは、モデルの予測を回避するために攻撃者が変更したマルウェア トラフィックに対して脆弱になる可能性があります。開発者は敵対的サンプルを通じてシステムがそのような攻撃を受けないようにトレーニングすることができますが、実際にはこれによってシステムが変更されていないマルウェア トラフィックを検出する能力が低下する可能性があります。 ウイルス対策システムの精度を最大限に高めると、全体的な検出率が向上する可能性がありますが、必然的に、欺瞞的な攻撃(マルウェアを正規のファイルに偽装しようとする攻撃など)に対して脆弱になります。研究者らは、機械学習機能を導入した高精度のウイルス対策システムへの攻撃を実証し、システムをリバースエンジニアリングした結果、モデルが特定の文字列を無害なファイルと強く関連付けることを学習していたことを発見した。これらのシーケンスを悪意のあるファイルに追加するだけで、システムを騙して無害なファイルとして分類させることができます。このような盲点を排除するように注意深く設計されたシステムは、このようなトリックの影響を受けにくいかもしれませんが、通常、偽陰性 (システムがマルウェアを検出できない場合) や偽陽性 (システムが無害なファイルを誤って悪意のあるファイルとして分類する場合) の影響も受けやすくなります。 2.3 機械学習ベースのサイバー防御の継続的なバランスたとえ好条件下であっても、さまざまなシステムリスク間で十分にバランスのとれたトレードオフを行うことは困難です。これは、以下に説明する理由により、進化するサイバー脅威に直面すると特に厄介な問題になります。 まず、攻撃者は機械学習ベースのシステムの脆弱性を探して、継続的に防御を調査することができます。複数回の試行により、非常に精度の高い機械学習ベースのシステムさえも回避できる脆弱性を悪用される可能性があります。さらに、サイバーセキュリティの世界には、互いの成功や失敗を観察し、そこから学ぶ攻撃者が数多く存在します。ある機械学習モデルへの欺瞞的な入力は、同じタスクを実行するようにトレーニングされた他のモデルも欺くことができることが多いため、攻撃者は機械学習システムを繰り返し攻撃し、他のシステムを欺く方法を開発するために使用できる有用な教訓を得ることができます。言い換えれば、防御側は、攻撃者が機械学習システムを調査していないという理由だけで、攻撃者が機械学習システムを欺いて攻撃できないと想定することはできません。 2 番目に、攻撃者は悪意のある動作を検出するためにシステムをトレーニングするために使用されるデータを整形します。攻撃者は、機械学習システムに特定の関連性を学習させるようなデータを入力することで、機械学習システムを「汚染」し、その後の攻撃に対してシステムを脆弱にすることができます。たとえば、攻撃者は、機械学習システムをネットワーク内の攻撃者の存在に慣れさせることで、侵入検知システムを誤導しようとする可能性があります。導入されるたびに継続的に学習する機械学習システムは、敵対者の行動に適応し、敵対者の欺瞞を検出できる必要があります。 第三に、攻撃能力の変化などの要因により、環境はより複雑になります。オオカミとハスキーを識別するのと同じように、通常のネットワーク動作や一般的なマルウェアを記述するデータはすぐに古くなります。持続的な脅威に対抗するために導入される大規模なサイバー防御システムは、導入時に継続的に学習して適応する必要がある可能性があります。つまり、持続的な脅威に対応する効果を得るために、常に新しいトレーニング データを受信してモデルを動的に更新する必要があります。一方、攻撃者もこのようなシステムを出し抜こうとしたり、適応プロセスを積極的に妨害しようとしたりします。 3. サイバー防御に機械学習を活用する方法機械学習は、ネットワーク防御者がサイバー攻撃に対抗するために持つ重要な武器の 1 つになります。ただし、機械学習ベースのシステムを安全に導入するには、ネットワーク防御者がそのようなシステムの動的なバランスを継続的に管理する必要があります。ポリシーと戦略は、ネットワーク防御者が機械学習の機能に関して情報に基づいたトレードオフを行うのに役立つはずです。政府は、ネットワーク防御者の状況を改善するために、新たな機械学習対応のサイバーセキュリティ エコシステムの軌道を形作ろうとしており、このセクションでは 3 つの推奨事項を示します。 3.1 機械学習ベースのサイバーセキュリティアプリケーションの設計と開発にセキュリティを組み込む一般的に、機械学習アプリケーションは、精度を最大化することを目的として、可能な限り最も効率的な方法で開発されます。サイバーセキュリティを実現するには、機械学習ベースのシステムが正確な予測を行うだけでなく、変化する環境条件や敵対者の干渉による絶え間ないプレッシャーの下で確実に予測を行う必要があります。これらの課題を克服するには、ネットワーク セキュリティのコンテキストに適応した「動的敵対学習モデル」を作成する必要があります。セキュリティを、設計からテスト、展開、更新までの反復的なプロセスと捉え、堅牢性と正確性を優先する総合的なアプローチです。 このアプローチを実践するには、機械学習セキュリティとネットワーク セキュリティの研究を統合する必要があり、これは主に 3 つの研究領域で実現されます。 1 つは、特定のサイバーセキュリティ アプリケーション向けの現実的な脅威モデルを開発して脅威を理解することです。防御側は、たとえば、展開された機械学習システムを直接悪用できる攻撃者と、モデルについて間接的な知識しか持っていない他の攻撃者などの相対的な脅威を評価する必要があります。 2 つ目は、主要な堅牢性属性を特定し、それを測定および検証する方法を開発することです。具体的には、開発者はさまざまな手法を使用して、展開中のモデル学習の変更によって「全体像」の堅牢性が無効にならないことを証明する必要があります。ある専門家は、機械学習のセキュリティの現状を 1920 年代の暗号化技術に例えました。「最も安全なシステムでも簡単に破られるだけでなく、研究者にはセキュリティを適切に評価するための指標が欠けています。」 3 つ目は、モデルを危険にさらす可能性のある攻撃を検出または防止するための、より広範なシステムレベルの防御を開発することです。これらの対策には、システムを探る試みを検出し、リバースエンジニアリングを試みる攻撃者にシステムが情報を「漏洩」するのを防ぐことが含まれます。総合的な防御アプローチでは、モデルの脆弱性を軽減するとともに、まだ存在する脆弱性を攻撃者が発見して悪用するのを防ぐための措置を講じる必要があります。 3.2 システムの多様性と冗長性によるレジリエンスの向上サイバー防御は、システムの設計と実装に多様性と冗長性を組み込んだ機械学習への革新的なアプローチのさらなる研究から恩恵を受けるでしょう。たとえば、サイバーセキュリティベンダーの F-Secure の「Blackfin プロジェクト」では、ネットワーク環境のさまざまな側面をモデル化し、連携してネットワーク侵入を識別する複数の機械学習エージェントの開発を目指しています。異なるモダリティや異なる認識方法に依存する複数のモデルを組み合わせることで、結果として得られるシステムは、同じデータを見る多数のモデルよりも騙されにくくなる可能性があります。 堅牢性を向上させるためのより優れたツールがあっても、機械学習ベースのシステムは絶対確実ではありません。前述のように、ベンダーは通常、機械学習に基づくものも含め、複数のツールとテクノロジーに依存しています。しかし、機械学習ベースのシステムへの依存度が高まるにつれて、意思決定者はさまざまなリスク許容度しきい値を確立し、機械学習ベースのシステムにどこでどのように依存するか、またそれを補完するために機械学習以外のツールや安全策をいつ使用するかを決定する必要があります。 3.3 機械学習の発展を妨害しようとする戦略的競争相手に注意するサイバー防御者が機械学習に依存すると、敵対者(特にサイバー作戦に機械学習を利用しようとする国家主体)が機械学習プロセスを妨害しようとする可能性が高まります。ターゲット モデルのパラメーター、アーキテクチャ、トレーニング データ、メソッドの一部でも知っていれば、機械学習ベースのシステムへの攻撃が容易になります。 技術的なレベルでは、攻撃者はトレーニング データセットを取得したり、商用またはオープン ソース プロジェクトに侵入したり、単にリバース エンジニアリングする製品を購入したりすることで、機械学習システムの内部動作に関する情報を入手する機会を探します。モデルにバックドアを挿入して、展開された防御にモデルを追従させ、機械学習ベースのシステムを危険にさらすこともできます。 戦術レベルでは、防衛の成功は政府と民間部門の連携、より具体的には、防御システムが展開される前に、非常に破壊的な攻撃を予測し、撃退する能力にかかっています。プロバイダーは、サービスの整合性にとって重要なデータとコンポーネントを慎重に検査し、保護する必要があります。政府機関は、サプライチェーンのセキュリティを確保し、サイバー攻撃者が機械学習機能を含む機密性の高い技術やデータにアクセスするのを防ぐ方法を検討する必要があります。 4. 結論人工知能はサイバーセキュリティの万能薬ではありませんが、サイバーセキュリティに欠かせない要素になる可能性があります。既存の機械学習手法は、絶え間ない変化と欺瞞を特徴とする環境はもちろん、セキュリティのために設計されたものではありません。サイバーセキュリティにおける機械学習の役割の拡大は、深刻な疑問を提起しています。それは、機械学習の設計と実装において現在行われている選択が、ネットワーク防御者が直面する状況に多かれ少なかれ影響を及ぼす可能性があるということです。この課題に勝つには、機械学習セキュリティとサイバーセキュリティの分野の研究者と実務者が両者の間のギャップを埋められるよう協力して取り組む必要があります。同時に、政策立案者は、機械学習機能を開発および使用する関係者が効率性だけでなく安全性にも重点を置くように導く方法を検討する必要があります。大規模な機械学習ベースのサイバー防御の問題を積極的に管理できるようになると、サイバー防御者にとって状況が改善されます。 |
<<: あなたの AI は規制に対応できる準備ができていますか?
>>: 人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?
GPT-4 は最近、視覚モダリティ (GPT-4V) を公開しました。 GPT-4V や Goog...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[419123]] [51CTO.com クイック翻訳]人間は物理的な世界をよりよく理解するために...
Cactiパーセンタイル監視アルゴリズムcacti のテンプレート自体はハードディスクの使用サイズし...
マイクロソフトはIBMとアマゾンに続き、米警察への顔認識ソフトウェアの販売を停止した最新のテクノロジ...
今後、Kaggle のコンペティションに参加する際には、AutoML を直接送信して、参加する AI...
無人運転車による配達に続き、ドローンによる食品配達も現実化に向かって加速している。先日終了した202...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
イノベーションとテクノロジーの時代において、贅沢な暮らしはスマートホームによって変化しています。これ...
人工知能などのハイテク手段を基盤として構築された都市脳は、都市の経済発展のための「ブラックテクノロジ...
IBM Granite ファミリーの基礎モデルは、生成 AI を自然言語およびコーディング タスクに...
[[441323]]早すぎるオールインデータ文化を一夜にして構築することはできないのと同様に、分析...
[[172692]] 1. 推奨システムと共通評価指標の概要1.1 推薦システムの特徴私は Zhih...
世界中の開発者は長い間、OpenAI モデルの価格に悩まされてきました。ロイター通信は、11月6日に...