サイバーセキュリティにおける機械学習の適用における困難さと対策

サイバーセキュリティ分野特有の敵対的性質は、人工知能アプリケーションの実装に多くの困難をもたらしてきましたが、これが最終的に人工知能がサイバーセキュリティの強力なツールになることを妨げるとは考えていません。私たちは、サイバーセキュリティに人工知能を適用する際の潜在的な困難を分析し、それらに対処しようと試みました。

近年、機械学習とディープラーニングに基づくネットワークセキュリティアプリケーションの研究は、ネットワークセキュリティの分野で注目されている研究分野となっています。入手可能なデータから判断すると、セキュリティ専門家は、異常なプロセス動作の検出、悪意のあるコードの検出、ネットワーク侵入の検出などについて広範な学術研究を行ってきました。しかし、私たちの直感では、主流のセキュリティベンダーはこれらの技術を大規模に導入・使用しておらず、機械学習やディープラーニングを使用していると主張する市場のセキュリティ製品もかなり限られています。顔認識、推奨システム、世論監視などの分野での機械学習とディープラーニングの大規模な成功した応用と比較すると、ネットワークセキュリティの分野での平凡なパフォーマンスには何らかの特別な理由があるに違いありません。この記事では、ネットワークセキュリティの分野における機械学習、ディープラーニング、その他のテクノロジの適用時に直面する困難とそれに対応する対策について詳しく説明します。これらの困難は、機械学習とディープラーニングがサイバーセキュリティの分野で不適切なツールになるわけではありませんが、業界が機械学習とディープラーニングの技術を大規模に導入できなかった主な理由です。同時に、近年のメディア報道は人工知能技術の成果を誇張する一方で、その欠点や困難を無視する傾向があり、偏っているように思われる。この点において、意思決定者は表面的な素晴らしさに惑わされるのではなく、人工知能技術について十分に理解する必要があります。この記事がこの点に関する議論の方向性を示すことができれば幸いです。

注: 以下の説明の便宜上、以下のコンテンツでは、機械学習またはディープラーニングに依存するセキュリティ保護または検出システムを指すために「人工知能システム」を使用します。

[[327331]]

難しさ1: AIが本当に必要なタスクを特定する

人工知能が国家戦略になると、ディープラーニングは新興技術になります。同社の意思決定者は、同社の発展の現段階で人工知能技術が本当に必要かどうかを検討する必要がある。

まず、人工知能技術について明確かつ深く理解する必要があります。現段階では、人工知能の実装はデータによって推進されています。優れた人工知能は、膨大な業界データのサポートに基づいて構築されています。
第二に、人工知能の開発段階と応用段階の両方で計算負荷が高くなります。必要なソフトウェアおよびハードウェアのコンピューティング環境は従来のソフトウェア開発とは大きく異なりますが、それがもたらすメリットは比較的大きいです。機械学習に代表される人工知能は、効率的で自動化され、拡張性があり、日常業務の処理において手作業を大幅に置き換えることができます。

人工知能プロジェクトを開始する際の最大の課題は、人工知能技術の使用が本当に必要であり、かつ、正常に開発および実装できるタスクをどのように特定するかということです。

対策

意思決定者は、人工知能の動作メカニズムとその長所と短所を理解した上で、特定のタスクに人工知能技術を使用するかどうかを検討し、決定する必要があります。ただし、タイミング、コスト、チーム、実現可能性、期待される結果などの側面については特別な考慮を払う必要があります。

機会。特定のタスクを解決するために従来のテクノロジーを使用するとボトルネックや欠陥が発生し、次世代テクノロジーの開発が必要になるかどうかを検討します。このタスクを解決するには、人工知能ソリューション以外に、より効果的で簡単な方法はありますか?他に実行可能な解決策がない場合、人工知能技術の導入に関連するデータを収集する作業は完了していますか、それともいつでもデータ収集を実行できますか?これらの問題について十分に検討した後にのみ、人工知能技術を問題の解決策として使用するかどうかを基本的に決定できます。 AI は万能薬ではありませんが、より複雑ではあるものの、効果的な万能薬です。
料金。 AI システムのコストを決して過小評価しないでください。人工知能システムの開発と保守には、コンピューティングリソース、人的資源、データの収集、整理、保存のコストなど、多額の継続的な投資が必要です。多くの組織では、このような大規模な投資を行うための十分な資金がなく、プロジェクトが途中で中止され、これまでの努力が無駄になることにつながります。したがって、プロジェクトの開始時には、対応するコスト投資を負担する十分な能力があるかどうかを慎重に検討する必要があります。
チーム。 AI システムのソフトウェアエンジニアリングチームには、問題領域の専門家 (主題専門家)、データサイエンティスト、データアーキテクト、その他の専門家が含まれます。これらのチームメンバーは、AI システムの核となるアルゴリズムの選択、モデルの構築、モデルのカスタマイズ、データパイプラインの管理に関するスキルを持ち合わせています。これらを組み合わせることで、パフォーマンス、スケーラビリティ、帯域幅、リソース管理、バージョン管理の面で AI システムの高い要求に対応できます。
実現可能性。実現可能性を評価するには、意思決定者が特定のタスクの性質について十分に深い理解を持っている必要があります。タスクが人工知能技術によって自動化できるかどうかは、基本的に、タスクの性質、収集できるデータ、そしてその 2 つの関係によって決まります。ディープラーニングの著名人であるアンドリュー・ン氏は、かつて経験則について次のように述べています。「平均的な人がタスクを理解するのに 1 秒もかからない場合、そのタスクは、現在または近い将来、AI テクノロジを使用して自動化される可能性があります。」したがって、ネットワークセキュリティの分野では、平均以上の専門レベルを持つセキュリティ技術者が短時間の思考でタスクを理解できる場合、そのタスクは AI テクノロジを使用して自動化できる可能性が非常に高いと言えます。
期待される効果。期待される結果を予測するための前提は、定義したタスクと問題のトピックを十分に明確に理解していることです。エンジニアが指示を迅速に受け取り、この目標に向けてシステムを明示的に最適化できるように、AI システムのパフォーマンスと効率の許容可能な下限について検討して決定します。もちろん、最適化されたシステムでも誤報や見逃しは避けられません。そのため、誤報や見逃しに対するタスクの感度、リスクコストの範囲、対処メカニズムをできるだけ早期に決定する必要があります。人工知能システムも、バイパスされるリスクに直面しています。サイバーセキュリティの分野では、敵対的な性質が遍在しています。敵対的なサンプルの発生を回避するために、人工知能システムを攻撃から保護する方法も、事前に検討する必要がある問題です。

難しさ2: データが氾濫しており、高品質のトレーニングデータセットを入手するのが難しい

サイバーセキュリティ分野では、データが不足することはあまりありません。毎日無数の攻撃が発生し、セキュリティベンダーのバックエンドデータベースには毎日無数の攻撃データが収集されています。しかし、データの量だけでは人工知能システムの開発をサポートするには不十分であり、このデータには必然的に大きな冗長性が存在します。データの品質は真の人工知能の基礎です。現在、人工知能はまだ弱い人工知能の開発段階にあります。人工知能は、大量のデータからルール、パターン、特徴、経験を学習することで生まれます。機械学習によって実現される AI プロジェクトでは、パフォーマンスの最大の改善は、通常、より複雑なアルゴリズムではなく、より高品質のデータによってもたらされます。すべての AI システムにおいて、トレーニングデータセットの品質には次の 3 つの側面が含まれます。

まず、データの多様性。収集されたデータには、研究の範囲内でさまざまな種類のデータが含まれている必要があります。
2 つ目はデータの信頼性、つまりデータがどのようなタイプや属性であるかが正確に識別されることです。
3 つ目はデータ量、つまりデータの収集、クリーニング、処理、重複排除後の信頼できるデータの量です。数が少なすぎると、特にディープラーニングなどの多くのパラメータを持つ複雑なモデルを使用する場合、信頼性の高いモデルをトレーニングすることは不可能です。

データの収集、クリーニング、ラベル付け、保護、監視、保守は、人工知能プロジェクトのデータ管理と総称されます。これは、プロジェクトの開始からプロジェクトの実装、保守、反復までのライフサイクル全体にわたって実行され、膨大な時間と労力を消費し、プロジェクト全体の時間の 80% 以上を占めます。サイバーセキュリティにおける AI システムのデータ管理は、主に次の理由により、他の分野よりもコストがかかり、困難です。

（１）環境の変化変化する環境はビジネスの多様性に反映され、それがホワイトサンプルの多様性につながります。一方、変化する環境は敵対的な環境に反映され、それが悪意のあるサンプルの多様性につながります。

（２）民間データと公的データが少なく、公的データの妥当性が低い。さまざまなシナリオのさまざまなユーザーのデータが異なるため、公開データのシナリオは、直面している環境やシナリオとは大きく異なる可能性があり、利用できない場合があります。アルゴリズムツールはオープンソースであることが多いですが、優れたデータセットは独自のものであることが多いです。これは特にセキュリティ分野に当てはまります。セキュリティベンダーはセキュリティ関連のデータを「隠す」傾向があるため、代表的で正確にラベル付けされたデータが利用できないことがよくあります (特にトラフィックデータの場合)。大規模で高品質なドメイン固有のデータセットを持つことは、競争上の優位性の重要な源泉となり得ます。

（３）データの処理、クリーニング、注釈付けには高度な専門性が求められる。基本的な教育を受けた人なら誰でも、顔認識、猫と犬の分類、スパムなどのタスクのためにデータをラベル付けできます。ただし、ネットワークセキュリティは高度に専門的な業界であり、ネットワークセキュリティ検出関連のデータセットにラベルを付けるには、専門のセキュリティエンジニアが必要です。

（４）黒色のサンプルは希少であり、収集が困難である。これは、後続のシステムの信頼性に大きな影響を与えます。 IBM の腫瘍学専門家諮問システム Watson for Oncology は、提案された治療オプションと関連する推奨事項が安全でなかったため、終了を余儀なくされました。研究の結果、研究者らは、ソフトウェアが実際の患者データではなく、少数の架空の癌患者でのみトレーニングされており、使用された黒人サンプルの種類が少なかったため、信頼性に重大な問題があることを発見した。ネットワークセキュリティの分野では、ブラックサンプルデータが十分に包括的でない場合、同様の信頼性の問題が発生します。

（５）データの非構造化性質。ネットワークセキュリティの分野で処理されるデータは、ネットワークトラフィック、悪意のあるコード、悪意のあるファイルなど、ほとんどが非構造化データであり、そのようなデータの処理は構造化データの処理よりも複雑で困難です。

（6）データクリーニングは自動化が難しく、ツールも少ない。

対策

（１）商業協力の枠組みの下でのデータ共有

もちろん、すでに相当量のデータが蓄積されていることが前提であり、協力的な共有が可能になります。ネットワークセキュリティ分野でのデータ共有は、「ネットワークセキュリティ法」などの法令に違反しないようにする必要があります。

（２）既存の検出ツールを利用して、ある程度の自動データ収集とラベル付けを実現する

既存の脅威検出ツールは、対応するタスクに対して依然としてかなりの検出能力を備えている必要があります。それらを自動注釈ツールに変換すれば、この問題はそれに応じて解決できます。

（３）変化する状況に適応する

最初にデータを収集するか、最初にタスクのトピックを決定するかという質問に対する標準的な答えはなく、組織によって選択が異なる場合があります。組織によっては、データを使って何ができるかを検討する前に大量のデータを収集する組織もあれば、最初にタスクを決定し、必要なデータの種類をリストアップしてからデータを収集する組織もあります。実行可能な注文であれば、どのような注文でも受け付けます。

難しさ3: ミスをすると高くつく

サイバーセキュリティの分野では、リスク検出に人工知能がよく使用されます。他の多くの AI アプリケーションと比較すると、リスク検出を誤る場合の相対的なコストは非常に高くなります。誤検知の場合、アナリストは報告されたリスクイベントをレビューしてそれが無害かどうかを判断するために、多大な時間を費やす必要があります。誤報率がわずかでも、リスク監視システムは役に立たなくなる可能性があります。表 1 に示すように、多くの人工知能システムの中でも高い精度レベルである 99% の精度を持つリスク監視モデルを開発したとします。そこで、あるシナリオでモデルを展開し、展開期間中に 999,900 件の良性イベントサンプルと 100 件の悪性イベントサンプルが生成されたとします。これは比較的妥当な仮定です。リスクイベントの発生は、通常のイベントと比較して常に極めて低い確率のイベントです。これに基づくと、9,999 件の誤報が発生し、一連の結果につながります。少なくともアナリストの時間が無駄になり、最悪の場合、ビジネスシステムの正常な動作に影響を及ぼす可能性があります。

表1: 99% の精度の検出システムからのアラームの数

一方では、報告不足によって引き起こされる損害は直接的です。検出をバイパスするリスクにより、保護されたシステムに直接的な損害が発生し、通常の業務運営に影響が及ぶほか、IT インフラストラクチャに重大な損害が発生する可能性もあります。私たちは、このような高いエラーコストこそが、セキュリティベンダーが機械学習技術を慎重に使用すべき最大の理由であると考えています。他の分野における人工知能による誤分類の影響をさらに比較すると、より啓発的になるかもしれません。

電子商取引の推奨システムは、人工知能を応用した最も成功した分野の 1 つです。レコメンデーションシステムは、エラーが直接的な悪影響を及ぼさないため、エラーに対して容易に許容されます。販売者にとって良い推奨は売上を伸ばす可能性がありますが、悪い推奨は、より魅力的な推奨戦略を立てる機会を失うこと以外、消費者に害を及ぼすことはありません。

OCR テクノロジーはエラーに対してもより寛容です。スペルチェックと文法チェックは、統計言語モデルを使用して確率を結果に関連付け、OCR システムの初期出力を後処理することで、明らかなエラーを除去するためによく使用されます。さらに、ユーザーはトレーニングを受け、出力テキストに矛盾があった場合に、ユーザーがある程度手動で校正できるようにしました。セキュリティイベントアラートを手動で検証する場合と比較して、校正テキストの認識結果の検証には専門知識は必要なく、セキュリティアラートを検証するよりもはるかにコストと難易度が低くなります。

業界やシナリオが異なれば、人間は人工知能の確率的パフォーマンスに対して異なる期待を抱いています (セキュリティ業界では期待は高く、許容度は低い)。これは、ネットワークセキュリティの分野で人工知能製品やテクノロジが広く使用されていない理由でもあります。一般的に、ネットワークセキュリティ検出システムは、誤ったデータに対する許容度が厳しくなっています。他の分野での人工知能の使用は加算に似ていますが、ネットワークセキュリティ分野での人工知能の使用は減算に似ており、課題はより大きくなります。

表2: マルウェア検出アルゴリズムの予測精度の研究

もう一つの課題は、モデルの複雑さと効率性の間の矛盾です。一般的に言えば、エラー率の低いモデルを得るためには、モデルの複雑さをあまり低くすることはできないため、対応する複雑なモデルにも大量の計算が必要になります。世の中にただで得られるものはありません。表 2 に示すように、特徴が深くなるほど精度は上がりますが、取得が難しく、非効率的です。特に、リスクに対して迅速かつリアルタイムの対応が求められるセキュリティリスク監視システムでは、この 2 つの間のトレードオフは大きな課題となります。

対策

誤検知の量を制限することは、あらゆる脅威検出システムの主なタスクです。エラーを減らすための最も重要なステップは、システムの範囲を縮小すること、つまり明確な検出目標を定義することです。明確な目標がなければ、脅威検出システムは検出率に影響を与えずに許容できる量の誤検出を達成することはできません。さらに、より粗い特徴を使用して適切な時間間隔で特徴を集約または平均化することも、誤検知を減らすのに役立ちます。最後に、追加情報のサポートを受けて後処理することで、誤検知を減らすことができます。自動後処理が実行不可能であることが判明した場合でも、アナリストに追加情報を提供することで手動レビュープロセスを高速化し、エラーのコストを削減できます。

難しさ4: 環境との戦い

人工知能システム自体はソフトウェアシステムであり、悪用可能な脆弱性を抱えており、当然攻撃の対象となります。特に、ネットワークセキュリティ検出および保護システムの一部である場合は、敵対的な環境にあると見なすことができます。対照的に、OCR システムのユーザーは入力にノイズを追加しようとはせず、より高品質の入力データを積極的に提供することもあります。Taobao ユーザーには、彼らにとって意味のない商品推奨システムを誤解させる動機はあまりありません。しかし、サイバーセキュリティの分野では、その逆が当てはまります。人工知能検出システムを破壊、回避、欺く攻撃者は、侵入目的を達成するのに十分な動機を持っています。敵対的環境における機械学習システムのリスクは、少なくとも 3 つのレベルから反映されます。

データレベルでは、典型的な攻撃はポイズニングです。ポイズニング攻撃は、主に、モデルをトレーニングする際に人工知能システムに必要なトレーニングデータをポイズニングすることです。これは、モデルの可用性と整合性を破壊する誘導攻撃です。攻撃者は、通常は間違ったラベルと攻撃特性を持つ、慎重に偽造された悪意のあるデータサンプルを挿入して、元のトレーニングデータの確率分布を破壊し、トレーニング済みモデルの分類またはクラスタリング精度を低下させて、トレーニングモデルを破壊するという目的を達成します。実際の人工知能システムの元のトレーニングデータはほとんどが機密情報であり、一般的に攻撃者が簡単に変更できないため、多くのシステムでは、適応性を高めるために定期的に新しいデータを収集し、再トレーニングしてモデルを更新する必要があり、攻撃者にそれを利用する機会を与えてしまいます。

図1: ポイズニング攻撃の概略図

モデルレベルでは、モデルバイパスのリスク、つまり敵対的サンプル攻撃のリスクがあります。攻撃者は、人工知能検出システムを回避できる敵対的サンプルを生成します。これらは、セキュリティシステムによる検出をうまく回避できる敵対的サンプルであり、それによってシステムに対して悪意のある攻撃を開始し、システムのセキュリティに重大な脅威をもたらします。セキュリティリスク検出モデルとして機能する場合、人工知能システムのモデルの入力データは大きく変化し、不安定になります。検出するマルウェアのサイズを制限するのは困難です。検出する悪意のあるコードサンプルの行数を制限する理由はありません。検出するネットワークトラフィックのデータパケットコンテンツを制限する方法がないため、敵対的なサンプルが活動する余地が増えます。このレベルでの対立は最も起こりやすく、人工知能検出システムにとって最も弱い環境でもあります。対立下では、新しい攻撃方法と攻撃サンプルが無限に出現します。そのため、ネットワークセキュリティの分野で使用されるモデルの反復頻度は、他の分野よりもはるかに高くなります。想像してみてください。今トレーニングされた猫と犬の分類モデルは、数千年後もまだ役に立つかもしれませんが、対応するマルウェア、トロイの木馬ファイル、攻撃トラフィックも、現在のモデルの能力を超えた多くの新しい形式を生み出しているでしょう。

フレームワークレベルでは、ディープラーニングフレームワークは通常、数十万のコードと多数の依存関係を含む複雑なソフトウェアであり、既知または未知のバグが存在することはほぼ避けられません。国家情報セキュリティ脆弱性データベースでは、2019 年に報告された 8 件の TensorFlow 関連の脆弱性情報を見つけることができます (図 2 を参照)。 Torch や Caffe などのフレームワークにも脆弱性があり、numpy や opencv などこれらのフレームワークの一般的な依存パッケージにも多くの脆弱性があります。この点に関して、関連するセキュリティ研究では、これらの脆弱性によって引き起こされるサービス拒否、検出バイパス、およびシステム損傷のリスクが再現されています。

図2: Tensorflowの過去の脆弱性

その結果、サイバーセキュリティにおける軍拡競争が続いています。攻撃者と防御者は、相手が設計した新しいテクノロジーに対抗するために、それぞれツールとテクニックを改良しています。

対策

人工知能技術の使用は、実際にはアルゴリズムやデータなど、攻撃者にとって攻撃対象領域を増やすことになります。

保護の観点からは、以下の点が考えられます。

（１）モデルの入力を厳しく制限し、モデルに入力するためのサンプルフィルタリング条件を設定する。フィルタリング基準は、タスクのドメイン知識とモデルトレーニング中の設定に基づいてまとめられます。例えば、PHPタイプのウェブシェルを認識するモデルは、入力を.phpまたは.txtの拡張子を持つファイルに設定し、コンテンツに以下を含めることができます。

（２）モデル自体をトレーニングして、良性のデータと悪意のあるデータを区別できるようにする。既知の敵対的サンプルまたは自己構築された敵対的サンプルデータをモデルのトレーニングデータセットに追加し、モデルをトレーニングします。

（３）AIシステムを導入する前に、敵対的な環境でテストし評価する。通常のイベントだけでなく、敵対的なシナリオや極端な条件下でシステムをテストします。たとえば、モデルの一般化とノイズ耐性を評価するためにトレーニングとテストにノイズの多いデータを使用し、敵対的環境におけるシステムの敵対的能力を評価するために汚染されたデータを使用します。もちろん、敵対的な環境によってもたらされるリスクについて過度に心配する必要はありません。なぜなら、AI システムを回避するには、攻撃者が多大な労力、時間、専門知識を費やす必要があり、通常のルールを回避するよりもはるかに難しいことが多いからです。

難しさ5: モデルの解釈可能性とその実現方法

AI システムの出力には、他のほとんどのシステムよりも多くの説明が必要です。人工知能システムによってもたらされる不確実性は、特定のユーザータスクやシナリオでは許容できない可能性があるため、そのような出力判断を行う根拠と理由について顧客とコミュニケーションを取ることが必要になることがよくあります。他の機械学習アプリケーションでは、解釈可能性の問題はそれほど重要ではないかもしれません。画像カテゴリ認識のための機械学習のほとんどは、画像がどのカテゴリに属するかは直感的にわかり、結果が正しいか間違っているかは一般の人でも簡単に判断できるため、説明可能性を無視できます。同様に、電子メールをスパムとして分類するスパム検出器は非常に直感的なタスクであり、解釈の余地はあまりありません。しかし、セキュリティリスク検出アプリケーションとしては、ネットワークセキュリティの専門家ではない顧客にとっては、検出結果が直感的ではないことがよくあります。このとき、顧客の信頼を得るためには説明出力が必要です。 AI システムが、これまで知られていなかった Web サーバーの脆弱性を正確に検出し、「ホストの HTTP トラフィックが通常の構成ファイルと一致しません」とだけ報告するとします。そのアラートが十分に信頼できるものであっても、運用担当者は何が起こったのかを解明するために多大な労力を費やす必要があります。

セキュリティリスク検出では、多くの場合、関係する担当者が迅速に評価して対応し、リスク管理計画を策定するためのさらなるガイダンスが必要であり、このプロセスには極めて高いエラーコストが伴います。したがって、検出結果の必要かつ正しい解釈は、セキュリティリスク検出アプリケーションの基本要件であり、これによってアプリケーションの使いやすさも保証されます。しかし、ここでの難しさは、人工知能システムの出力結果に関する情報を、ユーザーが正しく情報を受け取って理解できるように、どのように表示できるかということです。同時に、競合他社にモデル情報を公開したり、攻撃者に悪用されたりしないように、あまり多くの情報を表示することはできません。さらに問題を難しくしているのは、AI モデルの本来の解釈が、特定のしきい値を超える変数などの検出ロジックを含む一連の数学用語であるため、モデル作成者以外の人にとっては理解しにくく、出力結果の用途が限られていることです。これらの数学的意味解釈をビジネス意味とどのように結び付けるかは、より大きな課題です。

対策

（１）出力結果の解釈可能性を再設計する

既存の機械学習やディープラーニングのモデル出力解釈技術では、多くの場合、特徴を属性付けしますが、この情報が直接表示されると、競合他社や攻撃者にモデルの機密情報を偽装して提供することが容易になり、モデルがバイパスされるリスクが高まります。結果の設計を再度要約し、暗黙のモデルに関連する詳細、特に数値情報を提示することを避け、出力結果の信頼性と不確実性について数値的な説明を使用することを避けます。「低、中、高」などの段階的な表現を使用できます。

（２）結果を解釈する上で最も重要なのは、その起源を理解することである。

適切な説明には、多くの場合、非常に低いレベルでの入力と出力の関連付けが必要です。

難しさ6：総合的な評価の難しさ

サイバーセキュリティ分野の人工知能システムにとって、合理的かつ完全な評価計画を設計することは容易ではありません。実際、認識モデル自体を構築することよりも難しい場合があります。包括的な評価において最も重要なステップは、適切なデータを取得することです。サイバーセキュリティの分野において、AI システムを評価する上で最も大きな課題は、適切かつ公平で十分な量の、すぐに利用できる公開データセットが不足していることです。企業が独自のテストデータセットを作成したとしても、十分かつ包括的なデータを取得することは困難です。ネットワークセキュリティ検出の典型的なターゲットであるインターネットトラフィックを例に挙げてみましょう。インターネットトラフィックは企業や組織にとって重要なプライベートリソースであり、簡単に共有できるものではありません。ネットワークトラフィックは、組織や企業ごとに異なります。小規模な研究室ネットワークのトラフィックの特性は、大規模なビジネスシステムのトラフィックの特性とは大きく異なる場合があります。単一のネットワーク内であっても、帯域幅、接続期間、アプリケーションの組み合わせなど、ネットワークの最も基本的な特性は大きな変動を示し、トラフィック特性が短期間（数秒から数時間）で劇的に変化することがあります。さらに、ほとんどの企業や組織は、相当規模のネットワークトラフィックを取得できる条件を備えていません。シミュレーションを通じてデータを収集したとしても、データの信憑性と関連性が、その後の人工知能システムに評価が難しい悪影響をもたらすことになります。ミクロ環境分析から得られた結論は、マクロ環境分析に拡張できないことがよくあります。したがって、データの不完全性はモデルのパフォーマンスの不完全な評価につながり、つまり、人工知能システムが何を検出できるか、何を検出できないか、それがどの程度信頼できるかなどを総合的に評価することが困難になります。

対策

残念ながら、評価データ不足の問題に対する適切な解決策は現在のところありません。あらゆる研究と同様に、評価データセットの潜在的な欠点を認識することが重要です。困難ではありますが、幅広い環境からの現実的なネットワークトラフィックを含むデータセットを取得することが望ましいです。理想的には、さまざまなネットワークから大量のデータが得られますが、完璧なデータセットは存在しないため、検出システムを評価する際には通常、複数のデータセットが必要になります。システムがさまざまな環境に適応することを学習できることを実証するには、複数のソースからのデータを使用した評価も必要です。インターネットトラフィックの多様性に似た問題の場合、実行可能なアプローチの 1 つは集約を使用することです。トラフィック特性は中期および短期の間隔では大きく変動しますが、より長い期間 (数時間から数日、場合によっては数週間) にわたって観察されるトラフィック特性はより安定する傾向があります。

難しさ7: 機械学習は導入と維持が難しい

慎重に設計および開発された機械学習モジュールは、既存のセキュリティ保護システムの他の部分と統合され、一連の問題やリスクを引き起こす可能性があります。

1 つ目は互換性の問題です。機械学習やディープラーニングの研究開発および展開ツールのリリース時期は、他の既存のセキュリティ保護システムモジュールを実装するためのツールのリリース時期よりも遅くなることがよくあります。 Tensorflow は 2015 年にリリースされ、PyTorch は 2017 年にリリースされました。既存の保護システムが長年稼働している場合、統合時に基盤となるテクノロジーに互換性がなくなる可能性が高くなります。
2つ目は、セキュリティ業務プロセスの変化です。通常、機械学習アプリケーションのレベルは、ほとんどの場合、成熟したセキュリティ保護アプリケーションに発展することが困難です。これには、関連するビジネスプロセスの再設計が必要な既存の保護モジュールとのコラボレーションが含まれます。
最後に、機械学習モジュールの完全性と可用性を保護します。これには、機械学習モジュールのコアコンポーネントが破壊、改ざん、盗難などを保護するために既存のシステムに依存する必要があります。より多くの情報がモデルについて得られるほど、モデルをバイパスするコストが低くなり、さらに悪化します。

サイバーセキュリティは、急速に変化する分野です。攻撃者は変更され、その方法は必ずしも同じではなく、プログラミング言語がアップグレードされ、攻撃武器が無限のストリームに現れます。モデルが変更された場合にのみ、これらの変更に適切に応答できます。したがって、メンテナンスの観点から見ると、最もコアの問題は高い更新頻度です。高周波更新要件では、AIシステムの変更率は、システム全体の他のモジュールと矛盾しています。データとモデルは頻繁に変更されます。つまり、システムの他の部分も変更する必要があります。データを収集し、必要に応じてラベルを付け、サイバーセキュリティフィールドについて継続的に調査および学習することは、MLツールを維持するための継続的なニーズです。反復プロセス中に、モデルを更新した後、システムが識別および検出できる脅威を検出できないという問題に直面します。図3の単純化されたモデルを考えてみましょう。最初のモデルF（x）の精度は（3+4）/10 = 70％です。これは、機械学習プロジェクトで頻繁に発生します。アルゴリズムの最適化の目標は、指定されたデータセットの精度などの指標のグローバルな最適ソリューションを見つけることであるため、反復プロセス中にデータセットが増加または減少する場合があります。または、データバランスと分布パターンが以前とは異なる場合があります。

図3：モデル反復効果の概略図

対策

開発チームは、建築設計におけるセキュリティ、可用性、信頼性、パフォーマンス、スケーラビリティなど、コア要件を完全に考慮する必要があります。ゆるく結合した展開ソリューションを可能な限り実装してみてください。これを拡張または交換して、避けられないデータとモデルの変更とアルゴリズムの革新に適応するため、システムまたはシステムインフラストラクチャの他のモジュールの各更新の影響と変更を減らします。フィードバックの収集の閉ループを実現し、生産環境での人工知能システムの出力を追跡し、フィードバックワークフローを形成し、定期的に分析とフィードバックの検出結果とパフォーマンスインジケーターを分析し、フィードバックします。可能な限り、自動化された方法を使用して、システム出力に関する人間のフィードバックを取得し、モデルを改善（つまり再訓練）する必要があります。システムのレイテンシや精度の低下の形でパフォーマンスの低下など、リアルタイムでユーザーエクスペリエンスを監視し、早期に問題を検出します。低相互作用システムでさえ、エンコードできない評価の判断（実用的、倫理的、道徳的、信頼、リスク関連）を行うかどうか、およびモデルの改ざんまたはシステムの誤用の兆候があるかどうかをコンピューターが評価の判断（実用的、倫理的、道徳的、信頼、リスク関連）を行っているかどうかを監視するための継続的な人間の関与を確保します。

<<: 自然言語処理の商業的価値を示す5つの成功事例

>>: テンセントAIが新たな記録を樹立：ACL 2020に27本の論文が選出