機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状況を理解し、問題を特定し、リスクを予測するために使用され、無限のマーケティングの可能性をもたらします。理想的な状況は、機械学習プログラムを動かすデータを攻撃から抽出し、それをアルゴリズムに入力して、すべてを制御できるようにすることです。

[[179782]]

情報セキュリティツールとしての「機械学習」に関する誇大宣伝は、データサイエンスのそれほど魅力的ではないが重要な側面、つまりデータの収集と準備(後者はデータサイエンティストの時間の約 80% を占めます)を覆い隠しています。実際のところ、効果的な結果を得るには、機械学習やその他のアルゴリズムを適切かつクリーンで十分に理解されたデータに適用する必要があります。

セキュリティ市場にこのような誤解を招く傾向があることは驚くことではありませんが、セキュリティ分野でそれが起こると、有害な影響を及ぼす可能性があります。情報セキュリティには、非常に多くの複雑で多様なデータ セットがあり、それらが統合され、さまざまな利害関係者グループ (CISO、セキュリティ オペレーター、IT オペレーター、リスク委員会など) 向けに自動分析を通じて提示されます。

機械学習製品が大きな約束をしながらも、得られる結果が限られている場合、それはデータ懐疑論者、さらにはセキュリティ プログラムの予算を決定する人々にとってさえ、問題となるでしょう。一度失敗すると、同じデータ主導のアプローチを再び採用する可能性は低くなります。

データを金に変えると主張する分析/メトリクス ツールを購入する場合、考慮すべき重要な情報は次のとおりです。

1. ツールが約束する結果を得るためにはどのようなデータが必要ですか?

一部の分析製品は、特定の方法でシステムからデータを取得しないと機能しません。たとえば、購入したいプラットフォームが Web プロキシ データを使用する場合、ログイン許可を与えるリスクと、セキュリティのために講じたさまざまな対策とのバランスをどのように取るのでしょうか。情報セキュリティの拡大に伴うログインのニーズをどのように満たすのでしょうか。データ ストレージのニーズをどのように満たすのでしょうか。

必要な情報を得るには、インターネット全体からより多くのデータを入手する必要があります。そうしないと、無視できないすべての重要なリスクではなく、目に見える危険だけに基づいて決定を下す可能性があります。

分析製品に利用できない特定のデータまたはデータ セットがある場合、ベンダーは意思決定に使用される情報の完全性とマーケティング資料との間の不一致について通知する必要があります。

さらに、さまざまなデータ ソースを取得するために実行する必要があるさまざまな些細なタスクを考慮する必要があります。このデータの所有者は誰ですか: 情報セキュリティ ベンダーですか、それともサードパーティ (インフラストラクチャや外部ベンダーなど) ですか? データにアクセスできますか? どのような形式で、データは変更されていますか? 変更された場合、分析結果に影響するため、これは非常に重要です。

データはどのくらい早く取得できますか。また、データが作成されてからどのくらい早く取得できますか。データは API 経由でクラウドから取得されるだけですか (脆弱性データなど)、それともネットワーク チームがインフラストラクチャを通じてログをダンプする必要がありますか (Active Directory イベント ログなど)。データの生成と取り込みの間の遅延は、タイムリーな対応能力に影響を与える可能性があります。

2. 約束されたレベルの精度と有効性を達成するには、製品のインストール後どのくらいの期間でデータを収集する必要がありますか。また、その前に、結果 (理想的ではない場合でも) はいつ入手できますか。

機械学習モデルをトレーニングする必要があります。たとえば、異常なネットワーク動作を探す脅威検出ツールには、まず、最近の一般的なネットワーク動作をすべて網羅したデータが提供される必要があります。モデルに多くのデータがあれば、本当に異常な動作をより正確に検出できるようになります。特定の時間にツールを使用して問題を解決する場合、ベンダーはモデル トレーニングに関するすべての詳細情報をタイムリーに提供する必要があります。

3. 分析ツールによって出力されたデータはどのように表示されますか? これらの出力を実用的な「結果」に変換するために、チームはどのようなフォローアップ作業を行う必要がありますか?

新しい脅威検出ソリューションによって、処理が必要なアラートが 1 日あたり 1,500 件生成される場合、セキュリティ運用を担当するスタッフをさらに雇用する必要があります。さらに、サービス プロバイダーは、これらのアラートのうちどれだけが本物であるかを自信を持って言うことができますか?

機械学習モデルは常に「偽の脅威」を返すため、アルゴリズムの精度(すべての脅威のうち何パーセントが真の脅威であるか)と、発生するデバッグ コストをベンダーに必ず確認してください。精度が低い場合、チームは多くのノイズコストに対処する必要があります。ノイズが大きすぎて、ベンダーのアナリストがそのレベルに到達するまでにまだ多くのデバッグが必要な場合は、その能力にあまり自信を持たない方がよいでしょう。

アクセスが難しく、インターネット経由で送信するのが難しい 7 つのソースからデータを取得する必要がある場合でも、問題にならない可能性があります。投資に見合った利益が得られるかを知るには、機械がトレーニングされるまで 9 か月待たなければならないとしても、それはおそらく大した問題ではありません。しかし、上記の可能性を知らないと、それは本当に面倒です。なぜなら、これらの要因は、時間、人材、お金をどのように投資するか、また結果に対する心理的な期待をどのように設定するかに影響を与えるからです。

<<:  スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック

>>:  Microsoft EdgeブラウザがGoogleのオープンソース圧縮アルゴリズムをサポート

ブログ    
ブログ    
ブログ    

推薦する

このAIは、監視カメラを素早く検索し、重要なシーンを見つけ、24時間のビデオを10分で処理するのに役立ちます。

1月23日のニュース、今日では、ビデオ監視の存在により、過去には検証が困難だった多くの事実を記録す...

HarmonyOS メタサービス開発実践: デスクトップカード辞書

1. プロジェクトの説明1.DEMOのアイデアはカード辞書です。 2. カードによって表示される内容...

Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIが生成した小説が静かに人気を集めている。人間ならではの創造性がAIにコピーされてしまったのだろうか?

[[408920]]編集部注:人工知能(AI)の発達により、人々は徐々に未来についてより多様な想像...

Python 暗号化および復号化モジュール hashlib の 7 つの暗号化アルゴリズムの一覧

[[393258]]序文プログラムでは、MD5 sha1 など、多くの暗号化アルゴリズムをよく見かけ...

...

さまざまなソートアルゴリズムの概要

ソート アルゴリズムは、最も基本的で一般的に使用されるアルゴリズムです。ソート アルゴリズムは、シナ...

ジェネレーティブAIがインテリジェントオートメーションを推進する方法

1997 年、世界は現チェスチャンピオンのガルリ・カスパロフと IBM の Deep Blue AI...

マイクロソフトとヤフーが検索広告契約を締結、Bingがヤフーの独占アルゴリズムに

7月29日、これまでの多くの噂がついに確認された。マイクロソフトとヤフーは10年間の検索協力契約を締...

AIがビデオ業界の変革を推進する方法

AI コンテンツ分析は、ビデオで取り上げられているトピックや、ビデオ内の登場人物が表現した感情を識別...

蔡子星院士:オープンソースは人工知能開発の新たなトレンド

[[397103]] 「AIコア技術の躍進は産業の高度化の原動力であり、オープンソースはAI発展の新...