AI 異常検出は企業にどのようなメリットをもたらすのでしょうか?

AI 異常検出は企業にどのようなメリットをもたらすのでしょうか?

翻訳者 |陳俊

レビュー | Chonglou

異常検出は、企業が競合他社よりも先に今後のトレンドを特定するのに役立つことはよく知られていますアプリのトラフィックを監視することで不正なトランザクションにフラグを立て、ビジネス領域での動作の逸脱を検出できるため、チームメンバーはインシデントが発生する前に介入できます。この記事では、以下のについて詳しく説明します

  • 異常検出とは何ですか?
  • AI 異常検出はどのように機能しますか?
  • 典型的なAI異常検出のユースケース
  • AI異常検知の実装

異常検出とは何ですか?

異常検出は、データ セットの標準的な動作など、確立されたベースラインから逸脱するデータ ポイントを検出するために企業データを分析するデータ マイニング一種です。これらの外れ値は、多くの場合、機器の技術的な故障、顧客の嗜好の変化、その他の種類の異常などのイベントを示します。検出を通じて、企業は損害が発生する前に対策を講じることができます。

例外とは何ですか?

ここで、異常とは、通常のパターンから逸脱した一貫性のないデータ ポイントのことです。必ずしも重大な問題ではありませんが、問題がさらに悪化するのを防ぐために調査する価値はあります。その中で、ビジネス データの異常は通常、次の 3 つのカテゴリに分類できます。

  • グローバル外れ値とは、他のデータから異常に離れたデータ ポイントを指します。たとえば、毎月銀行口座に7,000ドルが振り込まれるとします突然50,000ドルの送金を受け取った場合、それは世界的な異常事態です。
  • コンテキスト外れ値とは、同じコンテキストから逸脱する他のデータを指します。たとえば、あなたの国では冬は雪が降り、夏は暑いのが普通です。そうなると、冬に大雪が降るのは普通のことです。夏に雪が降るのは異常です。
  • 集合的外れ値とは、データセット全体から外れたデータ ポイントの特定のサブセットを指します。たとえば、一見無関係に見える複数の製品の売上が異常に減少しているのを観察し、その後、それらが何らかの関連があることに気付いた場合、観察結果を組み合わせて集合的な異常として捉えることができます。

異常検出に AI が必要なのはなぜですか?

今日ほとんどの企業は大量の構造化データと非構造化データを扱っており、後者は通常、企業内で生成される情報の90%を占めています。この非構造化データは、多くの場合、画像、トランザクション、自由形式のテキストで構成されているため、これらすべての情報を手動で処理して有意義な洞察を得るには、明らかに面倒すぎます。

研究によると、大規模な非構造化データセットを処理するには機械学習テクノロジーが最適な選択肢であることがわかっています。この分野の膨大な数のアルゴリズムの中から自分に最適なものを選択するか、複数の機械学習技術を組み合わせて最良の結果を得ることができます。

AI 異常検出はどのように機能しますか?

現在、人工知能と機械学習に基づく異常検出技術には、主に次の 3 つの種類があります。

  • 教師あり異常検出。ここでは、正常な動作と異常な動作の両方を含む完全にラベル付けされたデータセットで機械学習モデルをトレーニングおよびテストできます。このアプローチは、トレーニング データセット内の逸脱を検出するのには有効ですが、トレーニング中に見られなかった新しい異常に直面すると問題が発生する可能性があります。結局のところ、監視テクノロジーには手動操作と専門的なドメイン知識が必要であり、多くの場合、データにラベルを付ける人が必要になります。
  • 教師なし異常検出。この方法では、データの手動注釈は必要ありません。このモデルでは、残りのデータと大幅に異なる少数のデータ ポイントのみが異常であると想定されます。外れ値はトレーニング中に学習した知識ではなく、その特徴に基づいて検出されるため、教師なし手法ではトレーニング中に検出されなかった新しい外れ値を効果的に識別できます。ただし、このようなアルゴリズムは通常、非常に複雑です。そのアーキテクチャは「ブラックボックス」であるため、ユーザーはツールがどのように決定を下すのかを正確に説明してもらえません。
  • 半教師あり異常検出。このタイプのテクノロジーは、ラベル付きデータとラベルなしデータの両方を処理することで、手動によるラベル付けのコストを削減します。半教師あり異常検出モデルは、導入後も独自に学習続け、トレーニング中に検出されなかった異常を検出します。さらに、教師なし手法と同様に、これらのモデルは非構造化データでも機能します。

AIベースの異常検出方法

異常検出は、人工知能と機械学習を含むそのさまざまなサブタイプを利用することで実現できます。以下では、5 つの一般的な機械学習手法について説明します

オートエンコーダ

オートエンコーダは、教師なし人工ニューラル ネットワークの一種です。データを圧縮し、可能な限り元の形式に近い形で再構築します。このようなアルゴリズムは、ノイズを効果的に無視し、テキスト、画像、その他の種類のデータを再構築できます。通常、オートエンコーダは次の 2 つの部分で構成されます。

  • エンコーダー、入力データを圧縮するために使用される
  • デコーダーはデータを解凍して元の形式に近づけます。

オートエンコーダを使用する場合は、コードのサイズに注意する必要があります。コードのサイズによって圧縮率が直接決まります。もう一つの重要なパラメータはレイヤーの数です。当然、レイヤーが少ないほどアルゴリズムは高速になりますが、処理できる機能は少なくなります。

ベイジアンネットワーク

これは、ベイズ推論に基づいて確率を計算する確率グラフベースのモデリング手法です。下の図のノードはランダム変数に対応し、エッジは条件付きの依存関係を表し、モデルが適切な推論を行えるようにします

ベイジアン ネットワークは、診断、因果モデリング、推論に使用できます。異常検出において、この方法は他の技術では検出が難しい微妙な逸脱を検出するのに特に役立ちます。同時に、この方法はトレーニング中にデータが欠落しても許容でき、小さなデータセットでトレーニングする場合でも安定したパフォーマンスを維持できます。

密度ベースのモデル

これは、パターンを検出するために隣接するデータ間の空間的な位置と距離のみに依存する、教師なしの機械学習クラスタリング手法です。データ ポイントの密度値を隣接するデータ ポイントの密度値と比較します。外れ値 (異常なポイント) は、データ集団の残りの部分よりも密度値が低くなります。

サポートベクターマシン (SVM)

これは分類によく使用される教師あり機械学習アルゴリズムですもちろん、さまざまなSVM拡張機能を教師なし設定で実行することもできます。この手法では、超平面を使用してデータポイントをさまざまなカテゴリに分類します。

SVMは通常2つ以上のカテゴリを処理できます、異常検出では主に単一カテゴリの問題を分析します。つまりデータ ポイントが同じクラスに属しているか、外れ値であるかを判断するための「標準のクラス学習します

ガウス混合モデル (GMM)

GMMは確率的クラスタリング手法です。この手法は、確率分布に基づいてデータを異なるクラスターに分割します。データ ポイントが未知のパラメーターを持つガウス分布の混合に属していると想定し、データの低密度領域を見つけることで異常を検出します。

典型的なAI異常検出のユースケース

この時点で、異常検出が舞台裏でどのように機能するか、そしてそれが依存する AI テクノロジーがどのようなものかはすでにご存知でしょう。さまざまな業界における異常検出の例をいくつか見てみましょう。

医療における異常検出

異常検出は、医師が患者の健康上の問題を特定し、入院患者の状態を検出し、医療スタッフにタイムリーに通知して診断と治療法の選択を支援するのに役立ちます。これらすべてにより、手作業が削減され、医師の認知的負担が軽減されます。現在、医療異常検出アルゴリズムは次のような情報を分析できます。

  • 医療用 IoT デバイスがバイタルサインやその他のパラメータを測定するのを支援します。
  • 良性および悪性の腫瘍、さまざまな感染症、その他の健康状態の兆候を明らかにするX線やCTスキャンなどの医療画像機器の使用を支援します
  • 健康保険請求における不正行為の特定と防止を支援します。

この分野における異常検出の典型的な例は、南アフリカの研究グループによるものです。彼らは、オートエンコーダと極度勾配ブースティング技術を組み合わせて、 COVID-19患者の生理学的変数を監視し、健康状態の悪化を示す異常を検出することに成功しました。

別のチームは、外れ値を検出するだけでなく、ツールがなぜ外れ値としてフラグを立てたのかを説明することにも重点を置きました。これを実現するために、彼らはまず異常検出技術を使用して異常を見つけ、次にマイニング アルゴリズムを展開して一連の特徴を概説しました。これらの特徴のうち、一部のデータ ポイントは外れ値と見なされます。

エンターテインメント業界における異常検出

スポーツやエンターテイメントの環境では、広範囲にわたるビデオ セキュリティ監視のために数百台のカメラが使用されることがよくあります機械学習の助けを借りて、アルゴリズムは施設内のすべてのカメラからのビデオストリームを分析し、セキュリティ違反を検出できます。

機械学習モデルは現場で学習するにつれて、人間のオペレーターが気付かない脅威や違反を徐々に発見します。これらのアルゴリズムは、破壊行為、観客の妨害、煙、不審な物体などを検出し、セキュリティ担当者に警告を発して、時間をかけ行動し、主催者が責任を負ったり評判が損なわれたりするのを防ぐことができます

米国を拠点とするエンターテインメント会社は、全米各地にゲームセンターを展開している。彼らは機械学習を活用した異常検出ソリューションを構築し、それをクラウドベースのビデオ監視システムに統合しました。このアプリは、危険で暴力的な行為を捕捉するだけでなく、忘れ物や故障した機械も発見し、管理プロセスを簡素化します。異常を見つけるために主にクロス検証に依存します。たとえば、このソリューションでは、画面上のエラー メッセージを「読み取り」、利用可能な画面テンプレートと照合することで、故障したゲーム コンソールを識別できます。同時に、このソリューションはクラウド セキュリティ システムとシームレスに統合されており、ゲーム機の 24 時間監視を実現し、異常が検出されるとセキュリティ担当者に速やかに通知します。

製造業における異常検出

生産プロセスの自動化が進むにつれて、機械はより複雑になり、設備はより大型化します。したがって、従来の監視方法ではもはやニーズを満たすことができません。異常検出テクノロジーは、機器の標準からの逸脱を検出し、インシデントに発展する前に保守担当者に通知することができ、さらに、軽微な問題と緊急の問題を区別することも学習できます。具体的には異常検出により製造業における以下の問題を特定できます。

  • 機器の故障。 AI アルゴリズムは、製造業のIoT (モノのインターネット) センサー連携して、振動や温度などのさまざまな機器パラメータを監視し、正常値からの逸脱を捕捉することができます。これらの変化は機器の過負荷を示している可能性がありますが、故障の始まりを意味する場合もあります。アルゴリズムはデバイスにフラグを付けて、さらに検査を行います。これは予測保守とも呼ばれます。
  • 設備の利用率が不十分。機械学習に基づく異常検出ソリューションは、どの機器が長時間アイドル状態になっているかを特定し、オペレーターに負荷分散のバランスを取るよう促すことができます。
  • 安全上の問題。異常検出ソフトウェアは、防犯カメラを監視することで、工場の安全プロトコルに従わず、自身の安全を危険にさらしている従業員を見つけることができます。従業員が安全監視のためにウェアラブルデバイスを使用している場合、機械学習はセンサーデータを分析して、疲労または病気の従業員を検出し、休憩を取るか仕事を辞めることを推奨することができます。
  • インフラの問題。人工知能アルゴリズムは、水漏れやガス漏れ、その他のインフラの損傷を検出し、現場管理者に直ちに通知することができます。

たとえば、Hemlock Semiconductor は超高純度ポリシリコンを製造する米国の企業です。異常検出を導入することで、プロセスを理解し、最適な生産パターンからの逸脱を記録できます。その結果、同社は毎月約 30 万ドルのリソース消費を節約しています

小売業における異常検出

異常検出は、小売業者が異常な行動パターンを識別し、その洞察を活用して業務を改善し、ビジネスと顧客を保護するのに役立ちます。 AI アルゴリズムは変化する顧客の需要を捉え、売れ行きの悪い商品の購入をやめ、需要の高い商品の在庫を増やすよう小売業者に警告することができます。同時に、異常事態は小売業者に、ビジネスチャンスの早い段階で競争相手に先んじる機会を与えることもできます。さらに、電子商取引の場合、ウェブサイトの所有者は異常検出モデルを導入して、不正行為を示唆する異常な動作がないかトラフィックを監視することができます。

もちろん、小売業者は異常検出テクノロジーを使用して、敷地内の安全を確保することもできます。たとえばアクション検出タスクにおける優れたパフォーマンスを考慮すると、3D 畳み込みニューラル ネットワークに依存する異常検出方法は、幅広い戦闘データセットでトレーニングされ、既存のセキュリティ システムにシームレスに統合できます。

AI異常検知の実装

ご覧のとおり、正確な異常検出のためにカスタマイズされた AI モデルをトレーニングすることは技術的な課題です。事前に定義された異常を検出し、確立された標準から逸脱する動作を発見するには、通常、次の 5 つの手順を実行する必要があります。

ステップ1 : 異常検出方法を決定する

ここでは 2 つのオプションがあります。データ内の特定の異常を探すか、標準の動作から逸脱するすべてのデータにフラグを立てるかです。選択内容はトレーニング データに影響し、AI テクニックの選択が制限されます。

ベースラインからのすべての逸脱を捕捉したい場合は、通常の動作を表す大規模なデータセットでモデルをトレーニングする必要があります。たとえば、運転と交通安全について研究しているとすると、データセットは安全運転を示すビデオで構成されることになります。一方、赤信号無視などの軽微な違反ではなく、自動車事故などの特定の異常を検出する必要がある場合は、トレーニング データセットに自動車事故のビデオや画像を含める必要があります。

ステップ2 : トレーニングデータセットを集約して前処理する

前のステップの結果は、社内のソースからデータを収集する公開データセットを使用するかなど、必要なデータの種類を決定するのに役立ちます。次に、このデータをクリーンアップして、重複誤り、および不均衡なエントリを削除する必要がありますデータセットをクリーンアップした後、スケーリング、正規化、その他のデータ変換手法を使用して、選択した AI アルゴリズムに適したものにすることができます。通常、データセットは次の 3 つの部分に分けられます。

  • 教育モデル用のトレーニングデータ
  • トレーニング中にモデルのパフォーマンスを評価するために使用される検証データ
  • トレーニングプロセス完了後にパフォーマンスを評価するためのテストデータ

上記についてさらに詳しく知りたい場合は、機械学習用のデータの準備方法に関する詳細なガイドをご覧ください。 https://hackernoon.com/data-preparation-for-machine-learning-a-step-by-step-guide?ref=hackernoon.com .

ステップ3 : 異常検出技術を選択する

カスタマイズされた AI テクノロジー ソリューションを構築するには、次の 3 つの重要な要素を考慮する必要があります。

  • 手元のタスク (上記の手順1 を参照)。具体的に定義された異常を検出する場合は、変分オートエンコーダ(VAE)が適しています。
  • 技術要件。達成したい精度と詳細のレベルが含まれます。たとえば、ビデオ内の異常を検出できる機械学習モデルをトレーニングする場合、さまざまなアルゴリズムが異なる速度でフレームを分析するため、最適なフレーム レートを決定することが重要です。検出したい異常がほんの一瞬以内に発生する限り、ビデオ クリップのすべてのフレームを調べる必要があります。 VAEなどの低速アルゴリズムを使用することは明らかに非現実的になります。対照的に、特異値分解 (SVD) はそのようなタスクをはるかに高速に実行できます。
  • トレーニング データセットのサイズ。オートエンコーダなどモデルは、小さなデータセットでは正しくトレーニングできません。

ステップ4 : モデルの構築、購入、トレーニング

既製の異常検出ソフトウェアを購入することも、異常の種類をカスタマイズして独自のニーズを満たすシステムを実装することもできます。

資金が限られている場合、カスタマイズ可能なトレーニング データセットがない場合、またはモデルをトレーニングする時間がない場合は、既製の異常検出システムを選択できます。ただし、このようなソリューションには、データの特性に関する前提が組み込まれていることが多く、これらの前提が成り立つ場合にのみ適切に機能することに注意してください。会社のデータがこのベースラインから逸脱すると、アルゴリズムによって検出される異常の精度が大幅に低下します。

AI アルゴリズムをトレーニングするのに十分なデータがある場合は、機械学習開発会社を雇って、カスタマイズされた異常検出ソリューションを構築およびトレーニングすることができます。このソリューションは、お客様のビジネス ニーズを満たし、プロセスに適応することができます。もう 1 つの大きな利点は、導入後でもビジネス ニーズの変化に応じて設定を調整できるため、さまざまなパラメータに迅速に焦点を合わせてソリューションを最適化できることです。

ステップ5 : ソリューションを展開して監視する

異常検出ソリューションはオンプレミスまたはクラウドに導入できます。で:

  • クラウドベースの異常検出では、ソフトウェア システム、デバイス、サードパーティ サービスからデータを集約し、クラウドに送信して保存および処理することで、ローカル リソースの負担を軽減できます。
  • エッジ異常検出では、機械学習アルゴリズムを通じてデータをローカルで分析し、データの一部のみをクラウドにアップロードできます。このアプローチは、自動運転車や医療 IoT など、遅延を許容できないミッションクリティカルなシステムに最適です。

機械学習アルゴリズムは動作しながら学習し、新しいタイプのデータに適応します。もちろん、偏見やその他の望ましくない傾向が生まれる可能性もあります。これを回避するには、監査を使用してアルゴリズムのパフォーマンスを再評価し、必要な調整を実施します。

翻訳者紹介

51CTO コミュニティの編集者である Julian Chen 氏は、IT プロジェクトの実装で 10 年以上の経験があります。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティの知識と経験の普及に重点を置いています。

元のタイトル:異常検出を理解し、それが企業にどのような利益をもたらすか、著者: @itrex

<<: 

>>:  ベイジアンネットワークを使用して病院の患者数を予測する

ブログ    

推薦する

新しいインフラの推進により、人工知能の応用は新たな段階に入る

レポート概要新しいインフラストラクチャにより人工知能アプリケーションの実装が加速COVID-19パン...

2020年にスパムはなくなるでしょうか?

16 年前、ビル・ゲイツはスパムの問題は 2006 年までに解決すると約束しました。 2020 年...

これら 19 の主流 AI テクノロジーについて、どの企業がサービスを提供しているかご存知ですか?

[51CTO.com クイック翻訳] 自然言語生成や音声認識などの分野を中心に、現在主流となってい...

国家戦略科学者としてトップのAI研究者である朱松春氏は中国に戻り、北京総合AI研究所を設立した。

知乎のホットな投稿によると、中国のトップAI研究者でUCLA教授の朱松春氏が清華大学オートメーション...

人工知能は、マルチドメイン畳み込みニューラルネットワークを通じて、JPEG二重圧縮画像内の偽造領域を特定します。

人工知能がマルチドメイン畳み込みニューラル ネットワークを介して JPEG 二重圧縮画像の偽造領域を...

この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...

...

マスク氏の元従業員が「宇宙工場」を建設し、スペースXのロケットで打ち上げられた新型コロナウイルス治療薬パクスロビドの製造を開始した。

人類が宇宙に建設した最初の工場がここにあります。しかも無人工場です!先週、この衛星はマスク氏のスペー...

2018年に注目すべき4つのAIトレンド

[[218374]]今年、AIによる意思決定はより透明化されるでしょうか?現在、IT ビジネスで A...

人工知能技術は交通にどのように応用できるのでしょうか?

都市交通の分野では、AI信号制御、インテリジェントな街路交通監視、スマートバス停、スマート高速道路な...

分析: 機械学習を妨げる 10 のサイバー攻撃とは?

サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...

毎日のアルゴリズム: 完全順列問題

[[435870]]繰り返しのない数字のシーケンスが与えられた場合、そのシーケンスのすべての可能な順...

因果推論と正規化がリストに載っています。権威ある専門家が過去 50 年間で最も重要な統計的アイデアをレビューします。

統計は私たちの日常生活のいたるところに存在し、すべての人や物事は統計を使って説明できるようです。人類...

...

ニューラルスタイル転送アルゴリズムで絵を描くことを学習する人間は、芸術分野で人工知能に負けるのでしょうか?

人工知能はますます多用途になり、すでに私たちの仕事のすべてを人工知能が引き継ぐことができるようです。...