AI 異常検出は企業にどのようなメリットをもたらすのでしょうか?

AI 異常検出は企業にどのようなメリットをもたらすのでしょうか?

翻訳者 |陳俊

レビュー | Chonglou

異常検出は、企業が競合他社よりも先に今後のトレンドを特定するのに役立つことはよく知られています。アプリのトラフィックを監視することで不正なトランザクションにフラグを立て、ビジネス領域での動作の逸脱を検出できるため、チームメンバーはインシデントが発生する前に介入できます。この記事では、以下の点について詳しく説明します。

異常検出とは何ですか?
AI 異常検出はどのように機能しますか?
典型的なAI異常検出のユースケース
AI異常検知の実装

異常検出とは何ですか?

異常検出は、データセットの標準的な動作など、確立されたベースラインから逸脱するデータポイントを検出するために企業データを分析するデータマイニングの一種です。これらの外れ値は、多くの場合、機器の技術的な故障、顧客の嗜好の変化、その他の種類の異常などのイベントを示します。検出を通じて、企業は損害が発生する前に対策を講じることができます。

例外とは何ですか?

ここで、異常とは、通常のパターンから逸脱した一貫性のないデータポイントのことです。必ずしも重大な問題ではありませんが、問題がさらに悪化するのを防ぐために調査する価値はあります。その中で、ビジネスデータの異常は通常、次の 3 つのカテゴリに分類できます。

グローバル外れ値とは、他のデータから異常に離れたデータポイントを指します。たとえば、毎月銀行口座に7,000ドルが振り込まれるとします。突然50,000ドルの送金を受け取った場合、それは世界的な異常事態です。
コンテキスト外れ値とは、同じコンテキストから逸脱する他のデータを指します。たとえば、あなたの国では冬は雪が降り、夏は暑いのが普通です。そうなると、冬に大雪が降るのは普通のことです。夏に雪が降るのは異常です。
集合的外れ値とは、データセット全体から外れたデータポイントの特定のサブセットを指します。たとえば、一見無関係に見える複数の製品の売上が異常に減少しているのを観察し、その後、それらが何らかの関連があることに気付いた場合、観察結果を組み合わせて集合的な異常として捉えることができます。

異常検出に AI が必要なのはなぜですか?

今日、ほとんどの企業は大量の構造化データと非構造化データを扱っており、後者は通常、企業内で生成される情報の90%を占めています。この非構造化データは、多くの場合、画像、トランザクション、自由形式のテキストで構成されているため、これらすべての情報を手動で処理して有意義な洞察を得るには、明らかに面倒すぎます。

研究によると、大規模な非構造化データセットを処理するには機械学習テクノロジーが最適な選択肢であることがわかっています。この分野の膨大な数のアルゴリズムの中から自分に最適なものを選択するか、複数の機械学習技術を組み合わせて最良の結果を得ることができます。

AI 異常検出はどのように機能しますか?

現在、人工知能と機械学習に基づく異常検出技術には、主に次の 3 つの種類があります。

教師あり異常検出。ここでは、正常な動作と異常な動作の両方を含む完全にラベル付けされたデータセットで機械学習モデルをトレーニングおよびテストできます。このアプローチは、トレーニングデータセット内の逸脱を検出するのには有効ですが、トレーニング中に見られなかった新しい異常に直面すると問題が発生する可能性があります。結局のところ、監視テクノロジーには手動操作と専門的なドメイン知識が必要であり、多くの場合、データにラベルを付ける人が必要になります。
教師なし異常検出。この方法では、データの手動注釈は必要ありません。このモデルでは、残りのデータと大幅に異なる少数のデータポイントのみが異常であると想定されます。外れ値はトレーニング中に学習した知識ではなく、その特徴に基づいて検出されるため、教師なし手法ではトレーニング中に検出されなかった新しい外れ値を効果的に識別できます。ただし、このようなアルゴリズムは通常、非常に複雑です。そのアーキテクチャは「ブラックボックス」であるため、ユーザーはツールがどのように決定を下すのかを正確に説明してもらえません。
半教師あり異常検出。このタイプのテクノロジーは、ラベル付きデータとラベルなしデータの両方を処理することで、手動によるラベル付けのコストを削減します。半教師あり異常検出モデルは、導入後も独自に学習を続け、トレーニング中に検出されなかった異常を検出します。さらに、教師なし手法と同様に、これらのモデルは非構造化データでも機能します。

AIベースの異常検出方法

異常検出は、人工知能と機械学習を含むそのさまざまなサブタイプを利用することで実現できます。以下では、5 つの一般的な機械学習手法について説明します。

オートエンコーダ

オートエンコーダは、教師なし人工ニューラルネットワークの一種です。データを圧縮し、可能な限り元の形式に近い形で再構築します。このようなアルゴリズムは、ノイズを効果的に無視し、テキスト、画像、その他の種類のデータを再構築できます。通常、オートエンコーダは次の 2 つの部分で構成されます。

エンコーダー、入力データを圧縮するために使用される
デコーダーはデータを解凍して元の形式に近づけます。

オートエンコーダを使用する場合は、コードのサイズに注意する必要があります。コードのサイズによって圧縮率が直接決まります。もう一つの重要なパラメータはレイヤーの数です。当然、レイヤーが少ないほどアルゴリズムは高速になりますが、処理できる機能は少なくなります。

ベイジアンネットワーク

これは、ベイズ推論に基づいて確率を計算する確率グラフベースのモデリング手法です。下の図のノードはランダム変数に対応し、エッジは条件付きの依存関係を表し、モデルが適切な推論を行えるようにします。

ベイジアンネットワークは、診断、因果モデリング、推論に使用できます。異常検出において、この方法は他の技術では検出が難しい微妙な逸脱を検出するのに特に役立ちます。同時に、この方法はトレーニング中にデータが欠落しても許容でき、小さなデータセットでトレーニングする場合でも安定したパフォーマンスを維持できます。

密度ベースのモデル

これは、パターンを検出するために隣接するデータ間の空間的な位置と距離のみに依存する、教師なしの機械学習クラスタリング手法です。データポイントの密度値を隣接するデータポイントの密度値と比較します。外れ値 (異常なポイント) は、データ集団の残りの部分よりも密度値が低くなります。

サポートベクターマシン (SVM)

これは分類によく使用される教師あり機械学習アルゴリズムです。もちろん、さまざまなSVM拡張機能を教師なし設定で実行することもできます。この手法では、超平面を使用してデータポイントをさまざまなカテゴリに分類します。

SVMは通常2つ以上のカテゴリを処理できますが、異常検出では主に単一カテゴリの問題を分析します。つまり、データポイントが同じクラスに属しているか、外れ値であるかを判断するための「標準」のクラスを学習します。

ガウス混合モデル (GMM)

GMMは確率的クラスタリング手法です。この手法は、確率分布に基づいてデータを異なるクラスターに分割します。データポイントが未知のパラメーターを持つガウス分布の混合に属していると想定し、データの低密度領域を見つけることで異常を検出します。

典型的なAI異常検出のユースケース

この時点で、異常検出が舞台裏でどのように機能するか、そしてそれが依存する AI テクノロジーがどのようなものかはすでにご存知でしょう。さまざまな業界における異常検出の例をいくつか見てみましょう。

医療における異常検出

異常検出は、医師が患者の健康上の問題を特定し、入院患者の状態を検出し、医療スタッフにタイムリーに通知して診断と治療法の選択を支援するのに役立ちます。これらすべてにより、手作業が削減され、医師の認知的負担が軽減されます。現在、医療異常検出アルゴリズムは次のような情報を分析できます。

医療用 IoT デバイスがバイタルサインやその他のパラメータを測定するのを支援します。
良性および悪性の腫瘍、さまざまな感染症、その他の健康状態の兆候を明らかにするX線やCTスキャンなどの医療画像機器の使用を支援します。
健康保険請求における不正行為の特定と防止を支援します。

この分野における異常検出の典型的な例は、南アフリカの研究グループによるものです。彼らは、オートエンコーダと極度勾配ブースティング技術を組み合わせて、 COVID-19患者の生理学的変数を監視し、健康状態の悪化を示す異常を検出することに成功しました。

別のチームは、外れ値を検出するだけでなく、ツールがなぜ外れ値としてフラグを立てたのかを説明することにも重点を置きました。これを実現するために、彼らはまず異常検出技術を使用して異常を見つけ、次にマイニングアルゴリズムを展開して一連の特徴を概説しました。これらの特徴のうち、一部のデータポイントは外れ値と見なされます。

エンターテインメント業界における異常検出

スポーツやエンターテイメントの環境では、広範囲にわたるビデオセキュリティ監視のために数百台のカメラが使用されることがよくあります。機械学習の助けを借りて、アルゴリズムは施設内のすべてのカメラからのビデオストリームを分析し、セキュリティ違反を検出できます。

機械学習モデルは現場で学習するにつれて、人間のオペレーターが気付かない脅威や違反を徐々に発見します。これらのアルゴリズムは、破壊行為、観客の妨害、煙、不審な物体などを検出し、セキュリティ担当者に警告を発して、時間をかけ行動し、主催者が責任を負ったり評判が損なわれたりするのを防ぐことができます。

米国を拠点とするエンターテインメント会社は、全米各地にゲームセンターを展開している。彼らは機械学習を活用した異常検出ソリューションを構築し、それをクラウドベースのビデオ監視システムに統合しました。このアプリは、危険で暴力的な行為を捕捉するだけでなく、忘れ物や故障した機械も発見し、管理プロセスを簡素化します。異常を見つけるために主にクロス検証に依存します。たとえば、このソリューションでは、画面上のエラーメッセージを「読み取り」、利用可能な画面テンプレートと照合することで、故障したゲームコンソールを識別できます。同時に、このソリューションはクラウドセキュリティシステムとシームレスに統合されており、ゲーム機の 24 時間監視を実現し、異常が検出されるとセキュリティ担当者に速やかに通知します。

製造業における異常検出

生産プロセスの自動化が進むにつれて、機械はより複雑になり、設備はより大型化します。したがって、従来の監視方法ではもはやニーズを満たすことができません。異常検出テクノロジーは、機器の標準からの逸脱を検出し、インシデントに発展する前に保守担当者に通知することができ、さらに、軽微な問題と緊急の問題を区別することも学習できます。具体的には、異常検出により製造業における以下の問題を特定できます。

機器の故障。 AI アルゴリズムは、製造業のIoT (モノのインターネット) センサーと連携して、振動や温度などのさまざまな機器パラメータを監視し、正常値からの逸脱を捕捉することができます。これらの変化は機器の過負荷を示している可能性がありますが、故障の始まりを意味する場合もあります。アルゴリズムはデバイスにフラグを付けて、さらに検査を行います。これは予測保守とも呼ばれます。
設備の利用率が不十分。機械学習に基づく異常検出ソリューションは、どの機器が長時間アイドル状態になっているかを特定し、オペレーターに負荷分散のバランスを取るよう促すことができます。
安全上の問題。異常検出ソフトウェアは、防犯カメラを監視することで、工場の安全プロトコルに従わず、自身の安全を危険にさらしている従業員を見つけることができます。従業員が安全監視のためにウェアラブルデバイスを使用している場合、機械学習はセンサーデータを分析して、疲労または病気の従業員を検出し、休憩を取るか仕事を辞めることを推奨することができます。
インフラの問題。人工知能アルゴリズムは、水漏れやガス漏れ、その他のインフラの損傷を検出し、現場管理者に直ちに通知することができます。

たとえば、Hemlock Semiconductor は超高純度ポリシリコンを製造する米国の企業です。異常検出を導入することで、プロセスを理解し、最適な生産パターンからの逸脱を記録できます。その結果、同社は毎月約 30 万ドルのリソース消費を節約しています。

小売業における異常検出

異常検出は、小売業者が異常な行動パターンを識別し、その洞察を活用して業務を改善し、ビジネスと顧客を保護するのに役立ちます。 AI アルゴリズムは変化する顧客の需要を捉え、売れ行きの悪い商品の購入をやめ、需要の高い商品の在庫を増やすよう小売業者に警告することができます。同時に、異常事態は小売業者に、ビジネスチャンスの早い段階で競争相手に先んじる機会を与えることもできます。さらに、電子商取引の場合、ウェブサイトの所有者は異常検出モデルを導入して、不正行為を示唆する異常な動作がないかトラフィックを監視することができます。

もちろん、小売業者は異常検出テクノロジーを使用して、敷地内の安全を確保することもできます。たとえば、アクション検出タスクにおける優れたパフォーマンスを考慮すると、3D 畳み込みニューラルネットワークに依存する異常検出方法は、幅広い戦闘データセットでトレーニングされ、既存のセキュリティシステムにシームレスに統合できます。

AI異常検知の実装

ご覧のとおり、正確な異常検出のためにカスタマイズされた AI モデルをトレーニングすることは技術的な課題です。事前に定義された異常を検出し、確立された標準から逸脱する動作を発見するには、通常、次の 5 つの手順を実行する必要があります。

ステップ1 : 異常検出方法を決定する

ここでは 2 つのオプションがあります。データ内の特定の異常を探すか、標準の動作から逸脱するすべてのデータにフラグを立てるかです。選択内容はトレーニングデータに影響し、AI テクニックの選択が制限されます。

ベースラインからのすべての逸脱を捕捉したい場合は、通常の動作を表す大規模なデータセットでモデルをトレーニングする必要があります。たとえば、運転と交通安全について研究しているとすると、データセットは安全運転を示すビデオで構成されることになります。一方、赤信号無視などの軽微な違反ではなく、自動車事故などの特定の異常を検出する必要がある場合は、トレーニングデータセットに自動車事故のビデオや画像を含める必要があります。

ステップ2 : トレーニングデータセットを集約して前処理する

前のステップの結果は、社内のソースからデータを収集するか、公開データセットを使用するかなど、必要なデータの種類を決定するのに役立ちます。次に、このデータをクリーンアップして、重複、誤り、および不均衡なエントリを削除する必要があります。データセットをクリーンアップした後、スケーリング、正規化、その他のデータ変換手法を使用して、選択した AI アルゴリズムに適したものにすることができます。通常、データセットは次の 3 つの部分に分けられます。

教育モデル用のトレーニングデータ
トレーニング中にモデルのパフォーマンスを評価するために使用される検証データ
トレーニングプロセス完了後にパフォーマンスを評価するためのテストデータ

上記についてさらに詳しく知りたい場合は、機械学習用のデータの準備方法に関する詳細なガイドをご覧ください。 https://hackernoon.com/data-preparation-for-machine-learning-a-step-by-step-guide?ref=hackernoon.com .

ステップ3 : 異常検出技術を選択する

カスタマイズされた AI テクノロジーソリューションを構築するには、次の 3 つの重要な要素を考慮する必要があります。

手元のタスク (上記の手順1 を参照)。具体的に定義された異常を検出する場合は、変分オートエンコーダ(VAE)が適しています。
技術要件。達成したい精度と詳細のレベルが含まれます。たとえば、ビデオ内の異常を検出できる機械学習モデルをトレーニングする場合、さまざまなアルゴリズムが異なる速度でフレームを分析するため、最適なフレームレートを決定することが重要です。検出したい異常がほんの一瞬以内に発生する限り、ビデオクリップのすべてのフレームを調べる必要があります。 VAEなどの低速アルゴリズムを使用することは明らかに非現実的になります。対照的に、特異値分解 (SVD) はそのようなタスクをはるかに高速に実行できます。
トレーニングデータセットのサイズ。オートエンコーダなどのモデルは、小さなデータセットでは正しくトレーニングできません。

ステップ4 : モデルの構築、購入、トレーニング

既製の異常検出ソフトウェアを購入することも、異常の種類をカスタマイズして独自のニーズを満たすシステムを実装することもできます。

資金が限られている場合、カスタマイズ可能なトレーニングデータセットがない場合、またはモデルをトレーニングする時間がない場合は、既製の異常検出システムを選択できます。ただし、このようなソリューションには、データの特性に関する前提が組み込まれていることが多く、これらの前提が成り立つ場合にのみ適切に機能することに注意してください。会社のデータがこのベースラインから逸脱すると、アルゴリズムによって検出される異常の精度が大幅に低下します。

AI アルゴリズムをトレーニングするのに十分なデータがある場合は、機械学習開発会社を雇って、カスタマイズされた異常検出ソリューションを構築およびトレーニングすることができます。このソリューションは、お客様のビジネスニーズを満たし、プロセスに適応することができます。もう 1 つの大きな利点は、導入後でもビジネスニーズの変化に応じて設定を調整できるため、さまざまなパラメータに迅速に焦点を合わせてソリューションを最適化できることです。

ステップ5 : ソリューションを展開して監視する

異常検出ソリューションはオンプレミスまたはクラウドに導入できます。で：

クラウドベースの異常検出では、ソフトウェアシステム、デバイス、サードパーティサービスからデータを集約し、クラウドに送信して保存および処理することで、ローカルリソースの負担を軽減できます。
エッジ異常検出では、機械学習アルゴリズムを通じてデータをローカルで分析し、データの一部のみをクラウドにアップロードできます。このアプローチは、自動運転車や医療 IoT など、遅延を許容できないミッションクリティカルなシステムに最適です。

機械学習アルゴリズムは動作しながら学習し、新しいタイプのデータに適応します。もちろん、偏見やその他の望ましくない傾向が生まれる可能性もあります。これを回避するには、監査を使用してアルゴリズムのパフォーマンスを再評価し、必要な調整を実施します。

翻訳者紹介

51CTO コミュニティの編集者である Julian Chen 氏は、IT プロジェクトの実装で 10 年以上の経験があります。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティの知識と経験の普及に重点を置いています。

元のタイトル:異常検出を理解し、それが企業にどのような利益をもたらすか、著者: @itrex

>>: ベイジアンネットワークを使用して病院の患者数を予測する

2024 年の IT 管理トレンド: ジェネレーティブ AI など

2024 年の IT 管理トレンド: ジェネレーティブ AI など

ブログ

ブログ

ブログ

この「アンケート」で初めて AI が人間を上回る、Microsoft が SuperGLUE でトップ

この「アンケート」で初めて AI が人間を上回る、Microsoft が SuperGLUE でトップ

ブログ

AI 開発の方向性に関する大論争: ハイブリッド AI?強化学習？実践的な知識と常識をAIに統合する？

AI 開発の方向性に関する大論争: ハイブリッド AI?強化学習？実践的な知識と常識をAIに統合する？

ブログ

ブログ

ブログ

生物学的視覚とコンピュータビジョンの違いを理解する方法

生物学的視覚とコンピュータビジョンの違いを理解する方法

ブログ

ブログ

ブログ

推薦する

AIは水産養殖業界に浸透しつつある。品質と効率性の向上に加え、人員の削減にもつながる。

[[264097]]この農場では、人工知能技術の活用により、人員が 3 分の 2 削減されました。...

人工知能技術の出発点と終着点

1. 人工知能技術の定義人工知能技術は、複雑な生産労働において機械が人間に取って代わることを可能にす...

...

...

...

...

ペット経済に乗って、ロボットアプリケーションが新しい市場を開拓

[[391010]]昨今、都市化の加速と生活水準の向上に伴い、ペットを飼うことがますます多くの人々の...

人工知能に対する期待と不安

AI は世界を変えようとしていますが、問題は、それがどのように起こるか誰も予測できないことです。過去...

...

...

大量データのための2次パーソナルコネクションマイニングアルゴリズム（Hadoop実装）

私は最近、Sina Weibo の「あなたに興味があるかもしれない人々」の間接的なフォローアップ推奨...

...

ビジネスリーダーが AI を活用して人々の心をつかみ、成果を上げる 5 つの方法

AI がリーダーシップ能力を強化できるとしたらどうでしょうか? チームをより深く理解し、チームのニー...

機械学習でデータを実用的な洞察に変換する

ビジネスが今やデータ主導型になっていることは誰もが知っています。データ収集の増加に伴い、分析はビジネ...

...