ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状況を理解し、問題を特定し、リスクを予測するために使用され、無限のマーケティングの可能性をもたらします。理想的な状況は、機械学習プログラムを動かすデータを攻撃から抽出し、それをアルゴリズムに入力して、すべてを制御できるようにすることです。
情報セキュリティツールとしての「機械学習」に関する誇大宣伝は、データサイエンスのそれほど魅力的ではないが重要な側面、つまりデータの収集と準備(後者はデータサイエンティストの時間の約 80% を占めます)を覆い隠しています。実際のところ、効果的な結果を得るには、機械学習やその他のアルゴリズムを適切かつクリーンで十分に理解されたデータに適用する必要があります。 セキュリティ市場にこのような誤解を招く傾向があることは驚くことではありませんが、セキュリティ分野でそれが起こると、有害な影響を及ぼす可能性があります。情報セキュリティには、非常に多くの複雑で多様なデータ セットがあり、それらが統合され、さまざまな利害関係者グループ (CISO、セキュリティ オペレーター、IT オペレーター、リスク委員会など) 向けに自動分析を通じて提示されます。 機械学習製品が大きな約束をしながらも、得られる結果が限られている場合、それはデータ懐疑論者、さらにはセキュリティ プログラムの予算を決定する人々にとってさえ、問題となるでしょう。一度失敗すると、同じデータ主導のアプローチを再び採用する可能性は低くなります。 データを金に変えると主張する分析/メトリクス ツールを購入する場合、考慮すべき重要な情報は次のとおりです。 1. ツールが約束する結果を得るためにはどのようなデータが必要ですか? 一部の分析製品は、特定の方法でシステムからデータを取得しないと機能しません。たとえば、購入したいプラットフォームが Web プロキシ データを使用する場合、ログイン許可を与えるリスクと、セキュリティのために講じたさまざまな対策とのバランスをどのように取るのでしょうか。情報セキュリティの拡大に伴うログインのニーズをどのように満たすのでしょうか。データ ストレージのニーズをどのように満たすのでしょうか。 必要な情報を得るには、インターネット全体からより多くのデータを入手する必要があります。そうしないと、無視できないすべての重要なリスクではなく、目に見える危険だけに基づいて決定を下す可能性があります。 分析製品に利用できない特定のデータまたはデータ セットがある場合、ベンダーは意思決定に使用される情報の完全性とマーケティング資料との間の不一致について通知する必要があります。 さらに、さまざまなデータ ソースを取得するために実行する必要があるさまざまな些細なタスクを考慮する必要があります。このデータの所有者は誰ですか: 情報セキュリティ ベンダーですか、それともサードパーティ (インフラストラクチャや外部ベンダーなど) ですか? データにアクセスできますか? どのような形式で、データは変更されていますか? 変更された場合、分析結果に影響するため、これは非常に重要です。 データはどのくらい早く取得できますか。また、データが作成されてからどのくらい早く取得できますか。データは API 経由でクラウドから取得されるだけですか (脆弱性データなど)、それともネットワーク チームがインフラストラクチャを通じてログをダンプする必要がありますか (Active Directory イベント ログなど)。データの生成と取り込みの間の遅延は、タイムリーな対応能力に影響を与える可能性があります。 2. 約束されたレベルの精度と有効性を達成するには、製品のインストール後どのくらいの期間でデータを収集する必要がありますか。また、その前に、結果 (理想的ではない場合でも) はいつ入手できますか。 機械学習モデルをトレーニングする必要があります。たとえば、異常なネットワーク動作を探す脅威検出ツールには、まず、最近の一般的なネットワーク動作をすべて網羅したデータが提供される必要があります。モデルに多くのデータがあれば、本当に異常な動作をより正確に検出できるようになります。特定の時間にツールを使用して問題を解決する場合、ベンダーはモデル トレーニングに関するすべての詳細情報をタイムリーに提供する必要があります。 3. 分析ツールによって出力されたデータはどのように表示されますか? これらの出力を実用的な「結果」に変換するために、チームはどのようなフォローアップ作業を行う必要がありますか? 新しい脅威検出ソリューションによって、処理が必要なアラートが 1 日あたり 1,500 件生成される場合、セキュリティ運用を担当するスタッフをさらに雇用する必要があります。さらに、サービス プロバイダーは、これらのアラートのうちどれだけが本物であるかを自信を持って言うことができますか? 機械学習モデルは常に「偽の脅威」を返すため、アルゴリズムの精度(すべての脅威のうち何パーセントが真の脅威であるか)と、発生するデバッグ コストをベンダーに必ず確認してください。精度が低い場合、チームは多くのノイズコストに対処する必要があります。ノイズが大きすぎて、ベンダーのアナリストがそのレベルに到達するまでにまだ多くのデバッグが必要な場合は、その能力にあまり自信を持たない方がよいでしょう。 アクセスが難しく、インターネット経由で送信するのが難しい 7 つのソースからデータを取得する必要がある場合でも、問題にならない可能性があります。投資に見合った利益が得られるかを知るには、機械がトレーニングされるまで 9 か月待たなければならないとしても、それはおそらく大した問題ではありません。しかし、上記の可能性を知らないと、それは本当に面倒です。なぜなら、これらの要因は、時間、人材、お金をどのように投資するか、また結果に対する心理的な期待をどのように設定するかに影響を与えるからです。 |
<<: スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック
>>: Microsoft EdgeブラウザがGoogleのオープンソース圧縮アルゴリズムをサポート
機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...
9月21日、生理学・医学分野の最高賞であるラスカー賞が発表されました!ラスカー賞には、基礎医学研究賞...
映画『マトリックス リザレクション』(2021年)では、主人公のネオがコンピューター生成の世界「マト...
最も強力な中国語 - 英語バイリンガル モデルがオープン ソースになりました。今日、Wudao Ti...
周知のとおり、宣伝されている ChatGPT は Python や Java を含む複数の言語でコー...
マルチモーダル生体認証とは何ですか? マルチモーダル生体認証は、さまざまなシナリオやセキュリティ レ...
Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で...
シリコンバレーの大企業の中でも、グーグルの従業員はテクノロジー業界で最も高給を得ている社員の一部であ...
7月2日、国家市場監督管理総局は「価格違反に対する行政処罰(意見募集稿)」を発表し、ダンピング、価格...
人工知能については誰もが知っていますが、人工知能トレーナーについてはどのくらい知っていますか? [[...
機械学習プロジェクトには、データ処理、モデルの最適化など、多くの要素が関係します。開発者は混乱したり...
[51CTO.com からのオリジナル記事] キーワードマッチングと手動で記述された応答ルールに基づ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...