翻訳者 |陳俊 レビュー | Chonglou 異常検出は、企業が競合他社よりも先に今後のトレンドを特定するのに役立つことはよく知られています。アプリのトラフィックを監視することで不正なトランザクションにフラグを立て、ビジネス領域での動作の逸脱を検出できるため、チームメンバーはインシデントが発生する前に介入できます。この記事では、以下の点について詳しく説明します。
異常検出とは何ですか?異常検出は、データ セットの標準的な動作など、確立されたベースラインから逸脱するデータ ポイントを検出するために企業データを分析するデータ マイニングの一種です。これらの外れ値は、多くの場合、機器の技術的な故障、顧客の嗜好の変化、その他の種類の異常などのイベントを示します。検出を通じて、企業は損害が発生する前に対策を講じることができます。 例外とは何ですか?ここで、異常とは、通常のパターンから逸脱した一貫性のないデータ ポイントのことです。必ずしも重大な問題ではありませんが、問題がさらに悪化するのを防ぐために調査する価値はあります。その中で、ビジネス データの異常は通常、次の 3 つのカテゴリに分類できます。
異常検出に AI が必要なのはなぜですか?今日、ほとんどの企業は大量の構造化データと非構造化データを扱っており、後者は通常、企業内で生成される情報の90%を占めています。この非構造化データは、多くの場合、画像、トランザクション、自由形式のテキストで構成されているため、これらすべての情報を手動で処理して有意義な洞察を得るには、明らかに面倒すぎます。 研究によると、大規模な非構造化データセットを処理するには機械学習テクノロジーが最適な選択肢であることがわかっています。この分野の膨大な数のアルゴリズムの中から自分に最適なものを選択するか、複数の機械学習技術を組み合わせて最良の結果を得ることができます。 AI 異常検出はどのように機能しますか?現在、人工知能と機械学習に基づく異常検出技術には、主に次の 3 つの種類があります。
AIベースの異常検出方法異常検出は、人工知能と機械学習を含むそのさまざまなサブタイプを利用することで実現できます。以下では、5 つの一般的な機械学習手法について説明します。 オートエンコーダオートエンコーダは、教師なし人工ニューラル ネットワークの一種です。データを圧縮し、可能な限り元の形式に近い形で再構築します。このようなアルゴリズムは、ノイズを効果的に無視し、テキスト、画像、その他の種類のデータを再構築できます。通常、オートエンコーダは次の 2 つの部分で構成されます。
オートエンコーダを使用する場合は、コードのサイズに注意する必要があります。コードのサイズによって圧縮率が直接決まります。もう一つの重要なパラメータはレイヤーの数です。当然、レイヤーが少ないほどアルゴリズムは高速になりますが、処理できる機能は少なくなります。 ベイジアンネットワークこれは、ベイズ推論に基づいて確率を計算する確率グラフベースのモデリング手法です。下の図のノードはランダム変数に対応し、エッジは条件付きの依存関係を表し、モデルが適切な推論を行えるようにします。 ベイジアン ネットワークは、診断、因果モデリング、推論に使用できます。異常検出において、この方法は他の技術では検出が難しい微妙な逸脱を検出するのに特に役立ちます。同時に、この方法はトレーニング中にデータが欠落しても許容でき、小さなデータセットでトレーニングする場合でも安定したパフォーマンスを維持できます。 密度ベースのモデルこれは、パターンを検出するために隣接するデータ間の空間的な位置と距離のみに依存する、教師なしの機械学習クラスタリング手法です。データ ポイントの密度値を隣接するデータ ポイントの密度値と比較します。外れ値 (異常なポイント) は、データ集団の残りの部分よりも密度値が低くなります。 サポートベクターマシン (SVM)これは分類によく使用される教師あり機械学習アルゴリズムです。もちろん、さまざまなSVM拡張機能を教師なし設定で実行することもできます。この手法では、超平面を使用してデータポイントをさまざまなカテゴリに分類します。 SVMは通常2つ以上のカテゴリを処理できますが、異常検出では主に単一カテゴリの問題を分析します。つまり、データ ポイントが同じクラスに属しているか、外れ値であるかを判断するための「標準」のクラスを学習します。 ガウス混合モデル (GMM)GMMは確率的クラスタリング手法です。この手法は、確率分布に基づいてデータを異なるクラスターに分割します。データ ポイントが未知のパラメーターを持つガウス分布の混合に属していると想定し、データの低密度領域を見つけることで異常を検出します。 典型的なAI異常検出のユースケースこの時点で、異常検出が舞台裏でどのように機能するか、そしてそれが依存する AI テクノロジーがどのようなものかはすでにご存知でしょう。さまざまな業界における異常検出の例をいくつか見てみましょう。 医療における異常検出異常検出は、医師が患者の健康上の問題を特定し、入院患者の状態を検出し、医療スタッフにタイムリーに通知して診断と治療法の選択を支援するのに役立ちます。これらすべてにより、手作業が削減され、医師の認知的負担が軽減されます。現在、医療異常検出アルゴリズムは次のような情報を分析できます。
この分野における異常検出の典型的な例は、南アフリカの研究グループによるものです。彼らは、オートエンコーダと極度勾配ブースティング技術を組み合わせて、 COVID-19患者の生理学的変数を監視し、健康状態の悪化を示す異常を検出することに成功しました。 別のチームは、外れ値を検出するだけでなく、ツールがなぜ外れ値としてフラグを立てたのかを説明することにも重点を置きました。これを実現するために、彼らはまず異常検出技術を使用して異常を見つけ、次にマイニング アルゴリズムを展開して一連の特徴を概説しました。これらの特徴のうち、一部のデータ ポイントは外れ値と見なされます。 エンターテインメント業界における異常検出スポーツやエンターテイメントの環境では、広範囲にわたるビデオ セキュリティ監視のために数百台のカメラが使用されることがよくあります。機械学習の助けを借りて、アルゴリズムは施設内のすべてのカメラからのビデオストリームを分析し、セキュリティ違反を検出できます。 機械学習モデルは現場で学習するにつれて、人間のオペレーターが気付かない脅威や違反を徐々に発見します。これらのアルゴリズムは、破壊行為、観客の妨害、煙、不審な物体などを検出し、セキュリティ担当者に警告を発して、時間をかけ行動し、主催者が責任を負ったり評判が損なわれたりするのを防ぐことができます。 米国を拠点とするエンターテインメント会社は、全米各地にゲームセンターを展開している。彼らは機械学習を活用した異常検出ソリューションを構築し、それをクラウドベースのビデオ監視システムに統合しました。このアプリは、危険で暴力的な行為を捕捉するだけでなく、忘れ物や故障した機械も発見し、管理プロセスを簡素化します。異常を見つけるために主にクロス検証に依存します。たとえば、このソリューションでは、画面上のエラー メッセージを「読み取り」、利用可能な画面テンプレートと照合することで、故障したゲーム コンソールを識別できます。同時に、このソリューションはクラウド セキュリティ システムとシームレスに統合されており、ゲーム機の 24 時間監視を実現し、異常が検出されるとセキュリティ担当者に速やかに通知します。 製造業における異常検出生産プロセスの自動化が進むにつれて、機械はより複雑になり、設備はより大型化します。したがって、従来の監視方法ではもはやニーズを満たすことができません。異常検出テクノロジーは、機器の標準からの逸脱を検出し、インシデントに発展する前に保守担当者に通知することができ、さらに、軽微な問題と緊急の問題を区別することも学習できます。具体的には、異常検出により製造業における以下の問題を特定できます。
たとえば、Hemlock Semiconductor は超高純度ポリシリコンを製造する米国の企業です。異常検出を導入することで、プロセスを理解し、最適な生産パターンからの逸脱を記録できます。その結果、同社は毎月約 30 万ドルのリソース消費を節約しています。 小売業における異常検出異常検出は、小売業者が異常な行動パターンを識別し、その洞察を活用して業務を改善し、ビジネスと顧客を保護するのに役立ちます。 AI アルゴリズムは変化する顧客の需要を捉え、売れ行きの悪い商品の購入をやめ、需要の高い商品の在庫を増やすよう小売業者に警告することができます。同時に、異常事態は小売業者に、ビジネスチャンスの早い段階で競争相手に先んじる機会を与えることもできます。さらに、電子商取引の場合、ウェブサイトの所有者は異常検出モデルを導入して、不正行為を示唆する異常な動作がないかトラフィックを監視することができます。 もちろん、小売業者は異常検出テクノロジーを使用して、敷地内の安全を確保することもできます。たとえば、アクション検出タスクにおける優れたパフォーマンスを考慮すると、3D 畳み込みニューラル ネットワークに依存する異常検出方法は、幅広い戦闘データセットでトレーニングされ、既存のセキュリティ システムにシームレスに統合できます。 AI異常検知の実装ご覧のとおり、正確な異常検出のためにカスタマイズされた AI モデルをトレーニングすることは技術的な課題です。事前に定義された異常を検出し、確立された標準から逸脱する動作を発見するには、通常、次の 5 つの手順を実行する必要があります。 ステップ1 : 異常検出方法を決定するここでは 2 つのオプションがあります。データ内の特定の異常を探すか、標準の動作から逸脱するすべてのデータにフラグを立てるかです。選択内容はトレーニング データに影響し、AI テクニックの選択が制限されます。 ベースラインからのすべての逸脱を捕捉したい場合は、通常の動作を表す大規模なデータセットでモデルをトレーニングする必要があります。たとえば、運転と交通安全について研究しているとすると、データセットは安全運転を示すビデオで構成されることになります。一方、赤信号無視などの軽微な違反ではなく、自動車事故などの特定の異常を検出する必要がある場合は、トレーニング データセットに自動車事故のビデオや画像を含める必要があります。 ステップ2 : トレーニングデータセットを集約して前処理する前のステップの結果は、社内のソースからデータを収集するか、公開データセットを使用するかなど、必要なデータの種類を決定するのに役立ちます。次に、このデータをクリーンアップして、重複、誤り、および不均衡なエントリを削除する必要があります。データセットをクリーンアップした後、スケーリング、正規化、その他のデータ変換手法を使用して、選択した AI アルゴリズムに適したものにすることができます。通常、データセットは次の 3 つの部分に分けられます。
上記についてさらに詳しく知りたい場合は、機械学習用のデータの準備方法に関する詳細なガイドをご覧ください。 https://hackernoon.com/data-preparation-for-machine-learning-a-step-by-step-guide?ref=hackernoon.com . ステップ3 : 異常検出技術を選択するカスタマイズされた AI テクノロジー ソリューションを構築するには、次の 3 つの重要な要素を考慮する必要があります。
ステップ4 : モデルの構築、購入、トレーニング既製の異常検出ソフトウェアを購入することも、異常の種類をカスタマイズして独自のニーズを満たすシステムを実装することもできます。 資金が限られている場合、カスタマイズ可能なトレーニング データセットがない場合、またはモデルをトレーニングする時間がない場合は、既製の異常検出システムを選択できます。ただし、このようなソリューションには、データの特性に関する前提が組み込まれていることが多く、これらの前提が成り立つ場合にのみ適切に機能することに注意してください。会社のデータがこのベースラインから逸脱すると、アルゴリズムによって検出される異常の精度が大幅に低下します。 AI アルゴリズムをトレーニングするのに十分なデータがある場合は、機械学習開発会社を雇って、カスタマイズされた異常検出ソリューションを構築およびトレーニングすることができます。このソリューションは、お客様のビジネス ニーズを満たし、プロセスに適応することができます。もう 1 つの大きな利点は、導入後でもビジネス ニーズの変化に応じて設定を調整できるため、さまざまなパラメータに迅速に焦点を合わせてソリューションを最適化できることです。 ステップ5 : ソリューションを展開して監視する異常検出ソリューションはオンプレミスまたはクラウドに導入できます。で:
機械学習アルゴリズムは動作しながら学習し、新しいタイプのデータに適応します。もちろん、偏見やその他の望ましくない傾向が生まれる可能性もあります。これを回避するには、監査を使用してアルゴリズムのパフォーマンスを再評価し、必要な調整を実施します。 翻訳者紹介51CTO コミュニティの編集者である Julian Chen 氏は、IT プロジェクトの実装で 10 年以上の経験があります。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティの知識と経験の普及に重点を置いています。 元のタイトル:異常検出を理解し、それが企業にどのような利益をもたらすか、著者: @itrex |
>>: ベイジアンネットワークを使用して病院の患者数を予測する
レポート概要新しいインフラストラクチャにより人工知能アプリケーションの実装が加速COVID-19パン...
16 年前、ビル・ゲイツはスパムの問題は 2006 年までに解決すると約束しました。 2020 年...
[51CTO.com クイック翻訳] 自然言語生成や音声認識などの分野を中心に、現在主流となってい...
知乎のホットな投稿によると、中国のトップAI研究者でUCLA教授の朱松春氏が清華大学オートメーション...
人工知能がマルチドメイン畳み込みニューラル ネットワークを介して JPEG 二重圧縮画像の偽造領域を...
まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...
人類が宇宙に建設した最初の工場がここにあります。しかも無人工場です!先週、この衛星はマスク氏のスペー...
[[218374]]今年、AIによる意思決定はより透明化されるでしょうか?現在、IT ビジネスで A...
都市交通の分野では、AI信号制御、インテリジェントな街路交通監視、スマートバス停、スマート高速道路な...
サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...
[[435870]]繰り返しのない数字のシーケンスが与えられた場合、そのシーケンスのすべての可能な順...
統計は私たちの日常生活のいたるところに存在し、すべての人や物事は統計を使って説明できるようです。人類...
人工知能はますます多用途になり、すでに私たちの仕事のすべてを人工知能が引き継ぐことができるようです。...