異常検出に機械学習を使用する際に尋ねるべき 7 つの質問

異常検出に機械学習を使用する際に尋ねるべき 7 つの質問

導入

異常検出に関するいくつかの入門的な質問。

質問することは学習するための最良の方法の一つです。しかし、特に異常検出のように比較的馴染みのあるトピックの場合、どこから始めればよいのか、何を質問すればいいのかわからないことがあります。この場合、他の人の問題に耳を傾け、その考えを参考にして学習を進めるのが最善です。ここでは、「何でも聞いてください: 異常検出」ウェビナー中に寄せられた質問をいくつか紹介します。開始する際にお役立てください。

外れ値と外れ値の違いは何ですか?

外れ値とは、分布の位置または平均から遠く離れた観測値です。ただし、必ずしも異常な動作や異なるプロセスから生じる動作を表すわけではありません。一方、異常は、さまざまなプロセスによって生成されるデータ パターンです。

医薬品における異常検出の応用はありますか?

異常検出は、製薬ライフサイエンス分野で多くの用途があります。医薬品製造におけるプロセス監視および品質管理のための統計的プロセス管理 (SPC) または品質管理 (QC) および多変量プロセス管理 (MSPC) チャートの使用が含まれます。異常をタイムリーに検出することが、異常な事象を回避し、安全基準を遵守するための鍵となります。店頭取引における異常を発見することで、医薬品小売データにおける処方薬の乱用を阻止することができます。複数パラメータの臨床試験データにおける異常をリアルタイムで検出することで、臨床試験の成功を確実にすることができます。

GAN は異常検出にも使用されますか? その場合、業界での使用例を教えてください。

生成的敵対的ネットワーク (GAN) は、異常の識別に非常に効果的な新しい教師なし学習方法です。 GAN は反復的に設計されており、敵対的トレーニングは再構築されたサンプルを使用して残差損失を最適化することを目的としているため、半構造化データと非構造化データでうまく機能します。これらは、医療画像分析(放射線科医が識別が難しい腫瘍を見つけるのに役立ちます)、顔認識、テキストから画像への変換などに非常に役立ちます。

データの相関関係は異常検出に影響しますか? どのような方法を使用でき、これらの影響をどのように軽減できますか? 異常検出を開始する前に相関データをクリーンアップして削除したほうがよいでしょうか?

ウェビナーで述べたように、相関関係が異常検出に影響を与えるとは考えていませんが、相関関係のある変数をどのように扱うかを判断するのに役立つ多くの手法があります。 1 つの提案は、主成分分析 (PCA) などの手法を使用して次元を削減することです。

ネットワーク アクティビティまたはデータ内の異常なアクティビティの識別に関連する異常を検出するのに適していると推奨されるアルゴリズムは何ですか?

ウェビナーで述べたように、異常検出のさまざまなアプリケーションやユースケースに適したアプローチやアルゴリズムは数多くあります。その中には、リカレントニューラルネットワーク (RNN)、敵対的生成ネットワーク (GAN)、アイソレーションフォレスト、ディープオートエンコーダーなどがあります。ネットワーク/グラフ分析に特に興味がある場合、ネットワーク グラフ内の異常を識別するために使用される 2 つの主な方法は、直接近隣外れ値検出アルゴリズム (DNODA) とコミュニティ近隣アルゴリズム (CNA) です。

私の現在の仕事では、「新しさ」を見つけることが主な目的です。品質管理チャートは既知のパターンには有効ですが、新しいパターンを自動的に識別することは困難です。この点に関して役立つツールのアイデアをいくつか得たいと思っていました。

単変量品質管理チャートの場合、西洋の電気規則を使用していくつかの共通パターンを検出できます。部分最小二乗法 (PLS) などの従来の多変量法は、単変量法では検出できない複数の変数を含むパターンを捕捉します。オートエンコーダーは最も包括的なツールであり、最も広範囲のさまざまなパターンをカバーします。多変量、周期的、非線形、インタラクティブなパターンをキャプチャできます。通常のデータセットを使用してオートエンコーダをトレーニングすると、トレーニング セットには存在しなかった新しいデータに現れるパターンにラベルが付けられます。

PCA を実行して次元を減らすと、データセット内の異常に影響しますか? 異常は消えますか? もしそうなら、どうすればそれを防ぐことができますか?

PCA を実行すると、元のデータセット内の分散の一定の割合が取得されます。したがって、異常検出に PCA を使用する方法は、元の点から低次元空間で表された点までの「距離」を計算することです。距離が大きいほど(つまり、観測値を低次元空間にマッピングするときに「失われる」ものが多いほど)、異常であるとみなされます。

<<:  Facebook AI はディープラーニングを使用してプログラミング言語の変換を実現し、コードベースの移行はもはや困難ではありません。

>>:  人工知能技術はスマートビルの未来をどのように変えるのでしょうか?

ブログ    

推薦する

...

...

スマート水利建設を加速する必要があり、ドローンが大きな推進力となる

夏の気温が上昇し続け、雨季が近づいているため、我が国の水利インフラは再び大きな試練に直面することにな...

面接に合格してNLPの扉を開くのに役立つNLPの簡単なガイド

弱い人工知能の時代が到来し、人々の日常生活はアルゴリズムが提供するサービスと切り離せないものとなって...

テスラの自動運転タクシー参入は依然として困難

[[442909]] [51CTO.com クイック翻訳]テスラは2019年4月に「Autonomy...

...

人工知能のこれらの5つのトレンドが世界に影響を与えることは注目に値する。

人工知能はもはや未来の技術ではありません。私たちの日常の作業を自動化する機械はますます賢くなり、人工...

家のドアをロックするChuangmi Technologyは、スマートホームセキュリティブランドをリードするスマートドアロックC1を発売しました。

「そう遠くない将来、スマートホームシステムを備えていない家庭は、インターネットにアクセスできない今...

信用デフォルト予測モデリングでは、ランダムフォレストが 91.1% でトップに!

みなさんこんにちは、ピーターです〜この記事は、Kaggle での機械学習の実践的なケーススタディです...

Google が使用する 4 つのデータ指標モデル

この目的のために、市場で一般的なデータ モデルを見つけて整理し、分析することができます。主流のデータ...

...

IoT生体認証は職場でより大きな役割を果たす

組織はセンサーや監視を通じて職場のセキュリティと従業員の安全性を向上させるために生体認証を使用できま...

3分レビュー! 2021年1月のロボット工学分野の重要な動向の概要

ポスト疫病時代において、国内ロボット市場は急速に発展しました。同時に、国際ロボット分野は前向きな発展...

ヘルスケア市場における人工知能の急速な発展を理解する

COVID19パンデミックにより、医療機関は効果的な結果を達成するために人工知能(AI)ベースのソリ...