Amazonが2006年にEC2サービスをリリースしてから11年が経ちました。この 11 年間で、AWS の収益は数十万ドルから 100 億ドル以上に増加し、あらゆる企業がクラウド コンピューティングを利用できるようになりました。 中国情報通信研究院が発表した「2016年クラウドコンピューティング白書」によると、企業の約90%がクラウドコンピューティング(パブリッククラウド、プライベートクラウドなどを含む)の利用を開始しており、大規模なクラウドコンピューティングはもはや企業だけのトレンドではなく、確立された事実であることがわかります。
クラウド コンピューティングの普及により、セキュリティに関して次のような多くの課題も生じています。 01クラウド化により、ハードウェアデバイスに基づく従来のセキュリティ手法が機能しなくなる 企業とのコミュニケーションにおいて、複数の企業が次のような懸念を表明しました。パブリック クラウドへの移行プロセスにおいて、購入したハードウェア保護をクラウドに移行できないため、ビジネス セキュリティについて非常に心配しています。 興味深いことに、彼らはクラウドに移行した後、トラフィック層攻撃について心配していません。クラウド上の高防御 IP などの製品がほとんどの問題を解決できると考えているからです。クラウド コンピューティングにより、ビジネス層にセキュリティ ギャップが生じていますが、これはパブリック クラウド環境だけでなくプライベート クラウド環境でも発生します。 02クラウドコンピューティングは攻撃や悪意のある活動にかかるコストを大幅に削減します クラウドコンピューティングは、IT 分野における「シェアリングエコノミー」のアップグレード版であり、初期の IDC レンタルから Linux カーネル名前空間レンタルへと進化しています。しかし、この「シェアリングエコノミー」は企業にコスト削減や使いやすさなどのメリットをもたらす一方で、攻撃者にも同じメリットをもたらします。 現在の市場状況によると、攻撃者がパブリックElastic IPアドレスをレンタルするコストは1日あたり1元と低くなっています。IaaSプラットフォームのハイパーバイザー層のコンピューティング環境をレンタルするコストも1日あたり数元にすぎません。コンテナ層のコンピューティング環境であれば、コストはさらに低くなります。 コストが非常に低いため、攻撃者は従来のように培養肉マシンを掘り出すために多大な労力を費やす必要がなくなり、攻撃のためのコンピューティングネットワークリソースを瞬時に簡単に入手できるようになります。 有名なインターネット求人サイトを例にとると、攻撃者は数万の IP アドレスを使用して、1 日に非常に低い頻度でコア ユーザーの履歴書をクロールできます。 03クラウド化によりビジネスの制御性が低下し、攻撃のリスクが大幅に増加します クラウドは、客観的にビジネスの複雑性と制御不能性を引き起こします。自社またはパートナーのビジネスの多くが同じクラウド上で実行されており、いずれかのビジネスが攻撃されると、他の部分にも影響が及ぶ可能性があります。 既存のハイパーバイザー分離技術が非常に成熟していることは否定できません。CPU を例にとると、タイムスライス割り当てを計算し、実行命令の間にさまざまなスピン ロックを挿入することで、エグゼキューターの CPU 割り当てを正確に制御できます。メモリや IO などの他のリソースも適切に制御できます。 しかし、すべてのリソースの中で、ネットワーク、特にパブリック ネットワークは分離に対して最も脆弱です。結局のところ、NAT 出口とドメイン名は分離するのが困難です。 したがって、私たちはクラウド コンピューティング時代の恩恵を享受する一方で、直面するビジネス レベルのセキュリティ問題はますます深刻化しているという現実に直面しなければなりません。 機械学習はセキュリティ問題を解決するための黄金の鍵です 機械学習の歴史 上の図からわかるように、現在普及しているディープラーニングの源泉であるニューラルネットワークは、1970 年代に早くも提案されました。 1980年代から今世紀にかけて、機械学習は停滞と爆発の時期を何度か経験してきました。ビッグデータの発展といくつかのホットな出来事(AlphaGoのイ・セドルに対する勝利など)により、機械学習は再び爆発の時期を迎えました。 では、ビッグデータと機械学習の関係は何でしょうか?これもディープラーニングに関連しています。理論的には、ディープラーニングは基本的に多層ニューラルネットワーク計算を使用して従来の特徴エンジニアリングの特徴選択を置き換え、従来の特徴エンジニアリングに匹敵するか、それを超える分類アルゴリズムの効果を実現します。 このロジックに基づいて、十分な数のラベル付きサンプル(いわゆる「ビッグデータ」)がある場合、囲碁のゲームでどちら側が有利であるかを判断するなど、ディープラーニングを通じて非常に強力な分類器を構築できます。
ディープラーニングの人気により、AIは非常に強力になっているようですが、残念ながら、現在のAI開発の成熟度は、人間の脳に取って代わることも、人間の脳のレベルに近づくこともできないほどです。チューリングテスト理論によれば、AI 自体が解決する必要がある問題は、認識、理解、フィードバックです。 これら 3 つの質問は徐々に進歩し、真に知能の高いロボットは最終的に人間の脳と同じフィードバックを提供できるようになり、チューリング テストではそれが人間なのか機械なのかを区別できなくなるでしょう。 現在のAIの発展状況によると、「認識」はこれまで最高の成果を上げています。画像、音声、動画のいずれであっても、多くのメーカーが非常に高い認識率を達成しています。しかし、「理解」は満足できるレベルには程遠いです。誰もがAppleのSiriを使ったことがあるでしょうが、人と実際に対話できるレベルにはまだ達していません。 フィードバックはさらに難しく、理解に基づいて常に適応する必要があります。同じ質問でも、相手の身元、気分、コミュニケーションの機会に応じて、異なるトーンやイントネーションで異なる回答が返される場合があります。 そのため、機械学習が大きな効果を発揮している分野は、顔認識や人間とコンピュータのチェスなど、一般的な分野ではなく、特定の分野における認識問題がほとんどです(人間とコンピュータのチェスは、本質的には特定のチェス分野における認識問題です。何千ものチェスのゲームを学習した後、機械は、あるチェスのゲームで一方が動いたときに、誰が有利であるかを自動的に識別できます)。 幸いなことに、セキュリティ分野における問題のほとんどは、一般的なシナリオではなく、特定のシナリオでの識別問題であり、理解とフィードバックを伴いません。機械学習システムに関連データを与え、安全か危険か、そして危険である理由の識別判断を行わせるだけで済みます。 セキュリティ問題は本質的に特定の分野における識別問題であるため、理論的に言えば、機械学習はセキュリティ分野への応用に非常に適しており、セキュリティ問題を解決するための黄金の鍵となります。 セキュリティ分野における機械学習の適用の難しさ 機械学習は長い間存在してきましたが、セキュリティ市場は長い間変化してきませんでした。主な理由は次のとおりです。 01セキュリティ分野のサンプルアノテーションコストは高い 機械学習では、大量かつ完全で客観的かつ正確なラベル付きサンプルを用意することが極めて重要です。ラベル付きサンプルが包括的であればあるほど、トレーニングされた分類器の精度は高まります。 サンプル(ラベル付きサンプル)の入手はどの業界でも容易なことではありませんが、セキュリティ分野では特に困難です。例えば、顔認証によるラベリングは中学生や小学生でもできますが、セキュリティ脅威インシデントの場合は、非常に経験豊富なセキュリティ担当者でないと完了できません。両者のコスト差は大きいです。 インジェクション攻撃 上の図に示すように、このインジェクション攻撃は何度も複雑にエンコードされており、専門家でない人がサンプルにラベルを付けるのは難しいです。そのため、一般的なシナリオでは、セキュリティ分野におけるディープラーニングは現時点では広く実装されていません。主な理由は、大量のラベル付きデータを取得することが難しいことです。 02セキュリティ分野のシナリオ特性はより明確 攻撃を判断する基準は、ビジネスの特性によって異なります。最も単純な CC 攻撃を例にとると、1 分あたり 600 回のアクセスは、一部の企業にとっては破壊的な攻撃を意味する可能性がありますが、他の企業にとっては通常のアクセス範囲内です。 そのため、たとえラベル付けされたサンプルが大量に存在したとしても、ある企業のラベル付けされたサンプルが他の企業にとっては役に立たない可能性がある。これも、セキュリティ分野における機械学習の応用が難しいもう一つの重要な理由である。 03従来のテキストベースの攻撃では、単純な特徴エンジニアリングや直接的な正規マッチングの方が効果的であると従来の考え方では考えられています。 Web 攻撃は、行動攻撃とテキスト攻撃の 2 つのカテゴリに分類されます。
フォロワーをブラッシングする動作を例に挙げると、各リクエストは正常に見えますが、攻撃者は多数の IP を使用して短期間に多数のアカウントを登録し、同じユーザーをフォローする可能性があります。これらの行動を結び付けて一緒に分析することによってのみ、問題を発見することができます。
特徴の次元が低く、一部の次元の識別力が高い場合、単純な線形分類器で良好な精度を実現できます。 たとえば、SQL インジェクションに関するいくつかの規則的なルールを簡単に定式化することができ、それを多くのシナリオに適用することもできます。しかし、この従来の考え方は再現率の問題を無視しています。実際、SQL インジェクションの通常のルールによってどの程度の再現率を達成できるかを知っている人はほとんどいません。 同時に、一部のシナリオでは、ビジネスの通常のインターフェースが JSON を介して SQL ステートメントを送信する場合、この通常のルールベースの分類子では非常に多くの誤判定が発生します。 04従来のセキュリティ担当者は機械学習を理解していない 伝統的なセキュリティ企業のセキュリティ人材の多くは、さまざまな脆弱性検出の構築、さまざまな境界条件バイパスの探索、パッチ戦略の策定に長けていますが、AI機械学習には長けていません。これは、このような国境を越えた人材の希少性と重要性を示しています。 機械学習がウェブセキュリティを再定義 セキュリティ分野におけるサンプルラベリング問題をどのように解決するか? 機械学習は 2 つのカテゴリに分けられます。 教師あり学習。正確にラベル付けされたサンプルが必要です。 教師なし学習。サンプルにラベルを付けずに、特徴空間でクラスタリング計算を実行できます。ラベリングが難しいセキュリティ分野では、教師なし学習が強力なツールとなることは明らかです。 01教師なし学習 教師なし学習では、事前に大量のラベル付きサンプルを準備する必要がありません。特徴クラスタリングによって正常なユーザーと異常なユーザーを区別できるため、大量のサンプルにラベルを付けるという困難を回避できます。 クラスタリングには、距離クラスタリング、密度クラスタリングなど、さまざまな方法がありますが、その中心となるのは、依然として 2 つの固有ベクトル間の距離を計算することです。 Web セキュリティの分野では、取得するデータはユーザーの HTTP トラフィックや HTTP ログであることが多いのですが、距離計算を行う際に次のような問題が発生することがあります。 たとえば、各次元の計算粒度は異なります。たとえば、ベクトル空間における 2 人のユーザーの HTTP 200 戻りコード比率間の距離は、2 つの float 値の計算ですが、リクエスト長間の距離は、2 つの int 値の計算です。これには、粒度の正規化の問題が関係します。 この点に関しては多くの手法があります。たとえば、従来のユークリッド距離の代わりにマハラノビス距離を使用できます。マハラノビス距離の本質は、標準偏差を通じて値を制限することです。標準偏差が大きい場合、サンプルのランダム性が大きいことを意味するため、値の重みは減少します。 逆に、標準偏差が小さい場合は、サンプルにかなりの規則性があることを意味するため、値の重みが増します。 教師なしクラスタリングでは、EM 計算モデルを使用できます。カテゴリ、クラスターの数、またはシルエット係数は、EM 計算モデルの潜在変数と見なすことができ、計算は継続的に反復され、最良の結果に近づきます。 最終的には、通常のユーザーと異常なユーザーが異なるクラスターにクラスター化されていることがわかり、その後の処理に進むことができます。もちろん、これは理想的な状況にすぎません。ほとんどの場合、正常な動作と異常な動作は多くのクラスターにまとめられます。正常な動作と異常な動作が混在するクラスターもいくつかあります。この場合、追加のテクニックが必要になります。 02教師なしクラスタリングのルールを学ぶ 教師なしクラスタリングの前提は、ユーザーのアクセス行動に基づいてベクトル空間を構築することです。ベクトル空間は次のようになります。
ここで関係する問題は、「キーを見つける方法」と「値を決定する方法」の 2 つです。 適切なキーを見つけるための本質は、特徴選択の問題、つまり、多数の特徴次元から最も識別力があり代表的な次元をどのように選択するかという問題です。 一部のディープラーニング手法のように、すべての機能をまとめて計算しないのはなぜでしょうか? これは主に計算の複雑さによるものです。注意: 特徴選択は特徴次元削減と同じではありません。私たちがよく使用する PCA 主成分分析と SVD 分解は、単に特徴次元削減です。本質的には、ディープラーニングの最初の数層も、ある意味では特徴次元削減の一種です。 特徴選択方法は実際の状況に応じて実行できます。実験では、正と負のラベル付きサンプルがある場合にランダム フォレストが適切な選択であることが示されています。ラベル付けされたサンプルが少ない場合やサンプル自体に問題がある場合は、ピアソン距離を使用して特徴を選択することもできます。 最終的に、ユーザーのアクセス行動は一連の機能になります。機能の価値をどのように判断するのでしょうか。最も重要な機能であるアクセス頻度を例にとると、どの程度のアクセス頻度が注目に値するのでしょうか。これらのキーの価値を判断するには、各ビジネス シナリオを調査する必要があります。 学習ルールには主に 2 つの種類があります。
そして、この関数に基づいて人口の割合を計算することができます。最も不確実なランダム分布の場合でも、チェビシェフ理論を使用すると値が異常であることがわかります。 統計計算により、GET /login.php?username = のユーザー名パラメータの平均長が 10 で標準偏差が 2 である場合、ユーザーが長さ 20 のユーザー名を入力すると、そのユーザーの入力はグループの 5% 未満を占めるニッチな動作になります。 特徴選択と動作、テキストの規則性学習を通じて、ユーザー アクセスをベクトル化するための完全かつ正確な特徴空間を構築し、教師なし学習を実行できます。 03 システムをよりスマートにする システムに人間の関与がなければ、システムはより賢くなることはできません。たとえば、AlphaGo も人間の名人と対戦することで継続的に強化する必要があります。 セキュリティ分野では、完全なサンプルラベリングは不可能ですが、半教師あり学習の原理を使用して代表的な動作を選択し、プロのセキュリティ担当者に判断を委ねることができます。評価と修正を経て、システム全体がよりスマートになります。 セキュリティ担当者による修正は、強化学習とアンサンブル学習を組み合わせることで実現できます。アルゴリズムが正確な判断を下した場合は、パラメータの重みを増やし、そうでない場合は適切に減らすことができます。 同様のアイデアは、世界最高峰の人工知能カンファレンス CVPR 2016 の優秀論文の 1 つ、「AI2: ビッグデータ マシンを防御用にトレーニング」にも登場しました。MIT のスタートアップ チームは、半教師あり学習に基づく AI2 システムを提案しました。このシステムにより、人間の関与を最小限に抑えながら、セキュリティ システムをより安全でスマートにすることができます。 04Webセキュリティの再定義 上記の点に基づいて、AI ベースの Web セキュリティの基本要素を概説することができます。 AI Web セキュリティ技術スタック 上の図からわかるように、すべてのアルゴリズムはリアルタイム コンピューティング フレームワークに含まれています。リアルタイム コンピューティング フレームワークでは、脅威イベントが発生したときにシステムが迅速に対応できるように、データ ストリームの入力、計算、出力がすべてリアルタイムである必要があります。 しかし、リアルタイム コンピューティングの要件には、多くの課題と困難も伴います。従来のオフライン モードでは問題にならない問題も、リアルタイム コンピューティングでは突然難しい問題になります。 たとえば、最も単純な中央値計算の場合、リアルタイム ストリーム入力の場合に精度を保証できる中央値アルゴリズムを設計するのは簡単ではありません。T-digest は、O(K) のメモリ使用スペースに制限できる優れた選択肢です。 O(1)のメモリ使用量で比較的正確な中央値を計算できるアルゴリズムもいくつかあります。 まとめると、AI を使用して Web セキュリティを実現することは避けられないトレンドであることがわかります。AI は、ポリシー構成モデルに基づく従来のセキュリティ製品を覆し、正確で包括的な脅威の識別を実現します。 ただし、AI ベースのセキュリティ製品の構築自体は複雑なプロジェクトであり、機能エンジニアリング、アルゴリズムの設計と検証、安定した信頼性の高いエンジニアリングの実装が必要になります。 つまり、AI ベースの Web セキュリティは新興技術分野です。まだ開発段階ですが、最終的には従来のポリシー主導のセキュリティ製品に取って代わり、企業の Web セキュリティを確保するための基礎となるでしょう。
コン・レイ Baishan Cloud Technology のパートナー兼エンジニアリング担当副社長 2006 年から 2015 年まで Sina に勤務。SAE (SinaAppEngine) の創設者であり、ゼネラルマネージャー兼チーフアーキテクトを務めました。 2010 年以来、Sina のクラウド コンピューティング チームを率いて、クラウド関連分野の技術研究開発に従事しています。彼は 10 件の発明特許を保有しており、現在は工業情報化省の Trusted Cloud Services の認定審査員を務めています。 2016年に白山クラウドに入社し、主にクラウドアグリゲーション製品の研究開発管理とクラウドチェーン製品システムの構築を担当しています。 |
<<: AIの活用を拡大するには? 人工知能には「1%の問題」がある
>>: 「順序付きファネル」アルゴリズム問題は、iResearch A10サミットで新たなブレークスルーを達成すると期待されています。
ニューロモルフィック コンピューティングは、人間の脳を構成するニューロンとシナプスのメカニズムを模倣...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能は新たな産業変革の中核的な原動力であり、これまでの科学技術革命と産業変革によって蓄積された膨...
5年前(2019年1月)、Nature Machine Intelligenceが設立されました。...
[[252713]]画像出典: Visual China 2018年の中国インターネット業界を一言...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[[221404]] 3月3日午後9時30分、全国人民代表大会の代表でテンセント会長の馬化騰氏が黒...
[[201793]]導入毎晩残業して家に帰るときは、Didiやシェア自転車を使うこともあります。ア...
大規模モデルが驚くべきパフォーマンスを示したため、モデルのサイズはモデルのパフォーマンスに影響を与え...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[393090]]この記事はWeChatの公開アカウント「Qianyu's IT Hou...
史上最大のチューリングテストの予備結果が出ました!今年 4 月中旬、AI 21 Lab は楽しいソー...