異常検出に機械学習を使用する際に尋ねるべき 7 つの質問

異常検出に機械学習を使用する際に尋ねるべき 7 つの質問

導入

異常検出に関するいくつかの入門的な質問。

質問することは学習するための最良の方法の一つです。しかし、特に異常検出のように比較的馴染みのあるトピックの場合、どこから始めればよいのか、何を質問すればいいのかわからないことがあります。この場合、他の人の問題に耳を傾け、その考えを参考にして学習を進めるのが最善です。ここでは、「何でも聞いてください: 異常検出」ウェビナー中に寄せられた質問をいくつか紹介します。開始する際にお役立てください。

外れ値と外れ値の違いは何ですか?

外れ値とは、分布の位置または平均から遠く離れた観測値です。ただし、必ずしも異常な動作や異なるプロセスから生じる動作を表すわけではありません。一方、異常は、さまざまなプロセスによって生成されるデータ パターンです。

医薬品における異常検出の応用はありますか?

異常検出は、製薬ライフサイエンス分野で多くの用途があります。医薬品製造におけるプロセス監視および品質管理のための統計的プロセス管理 (SPC) または品質管理 (QC) および多変量プロセス管理 (MSPC) チャートの使用が含まれます。異常をタイムリーに検出することが、異常な事象を回避し、安全基準を遵守するための鍵となります。店頭取引における異常を発見することで、医薬品小売データにおける処方薬の乱用を阻止することができます。複数パラメータの臨床試験データにおける異常をリアルタイムで検出することで、臨床試験の成功を確実にすることができます。

GAN は異常検出にも使用されますか? その場合、業界での使用例を教えてください。

生成的敵対的ネットワーク (GAN) は、異常の識別に非常に効果的な新しい教師なし学習方法です。 GAN は反復的に設計されており、敵対的トレーニングは再構築されたサンプルを使用して残差損失を最適化することを目的としているため、半構造化データと非構造化データでうまく機能します。これらは、医療画像分析(放射線科医が識別が難しい腫瘍を見つけるのに役立ちます)、顔認識、テキストから画像への変換などに非常に役立ちます。

データの相関関係は異常検出に影響しますか? どのような方法を使用でき、これらの影響をどのように軽減できますか? 異常検出を開始する前に相関データをクリーンアップして削除したほうがよいでしょうか?

ウェビナーで述べたように、相関関係が異常検出に影響を与えるとは考えていませんが、相関関係のある変数をどのように扱うかを判断するのに役立つ多くの手法があります。 1 つの提案は、主成分分析 (PCA) などの手法を使用して次元を削減することです。

ネットワーク アクティビティまたはデータ内の異常なアクティビティの識別に関連する異常を検出するのに適していると推奨されるアルゴリズムは何ですか?

ウェビナーで述べたように、異常検出のさまざまなアプリケーションやユースケースに適したアプローチやアルゴリズムは数多くあります。その中には、リカレントニューラルネットワーク (RNN)、敵対的生成ネットワーク (GAN)、アイソレーションフォレスト、ディープオートエンコーダーなどがあります。ネットワーク/グラフ分析に特に興味がある場合、ネットワーク グラフ内の異常を識別するために使用される 2 つの主な方法は、直接近隣外れ値検出アルゴリズム (DNODA) とコミュニティ近隣アルゴリズム (CNA) です。

私の現在の仕事では、「新しさ」を見つけることが主な目的です。品質管理チャートは既知のパターンには有効ですが、新しいパターンを自動的に識別することは困難です。この点に関して役立つツールのアイデアをいくつか得たいと思っていました。

単変量品質管理チャートの場合、西洋の電気規則を使用していくつかの共通パターンを検出できます。部分最小二乗法 (PLS) などの従来の多変量法は、単変量法では検出できない複数の変数を含むパターンを捕捉します。オートエンコーダーは最も包括的なツールであり、最も広範囲のさまざまなパターンをカバーします。多変量、周期的、非線形、インタラクティブなパターンをキャプチャできます。通常のデータセットを使用してオートエンコーダをトレーニングすると、トレーニング セットには存在しなかった新しいデータに現れるパターンにラベルが付けられます。

PCA を実行して次元を減らすと、データセット内の異常に影響しますか? 異常は消えますか? もしそうなら、どうすればそれを防ぐことができますか?

PCA を実行すると、元のデータセット内の分散の一定の割合が取得されます。したがって、異常検出に PCA を使用する方法は、元の点から低次元空間で表された点までの「距離」を計算することです。距離が大きいほど(つまり、観測値を低次元空間にマッピングするときに「失われる」ものが多いほど)、異常であるとみなされます。

<<:  Facebook AI はディープラーニングを使用してプログラミング言語の変換を実現し、コードベースの移行はもはや困難ではありません。

>>:  人工知能技術はスマートビルの未来をどのように変えるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

今は2020年です。ディープラーニングの今後はどうなるのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

現代オフィスのデジタル変革

企業は、迅速かつ効率的に適応し、生産性、快適性、持続可能性を向上させるスマート オフィス テクノロジ...

2020 年の人工知能におけるトップ 10 の技術進歩

[[373610]]編集者注: 2020年が過ぎようとしています。今年、人工知能の分野ではどんな大き...

ビジネスインテリジェンスを通じて脆弱性と危険な行動を特定する方法

[[389855]]ビジネスに関連するすべてのリスクを排除できると主張しても、多くの人はそれを信じま...

中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

企業が機械学習で犯す5つの間違い

機械学習技術の発展により、企業内のさまざまな構造化コンテンツや非構造化コンテンツから、より多くの情報...

...

TCP のこと 1: TCP プロトコル、アルゴリズム、原理

TCP は、多くの問題を解決する必要があり、これらの問題により多くのサブ問題とダークサイドが引き起こ...

...

ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

2020 年はボリューメトリック ニューラル レンダリングが爆発的に普及する年です。たとえば、Ne...

教育は新世代の人工知能の発展を積極的に支援すべきである

[[250135]]習近平総書記は中国共産党中央委員会政治局第9回集団学習会で、人工知能は新たな科学...

Githubのオブジェクトカウントアルゴリズム

Github を使用しているときに、次のプロンプトを見たことがありますか? $ gitクローンhtt...

李開復氏:反復労働の代替として、農村地域はAIロボットの着陸に最適な場所

人工知能技術は農業にどのような力を与えるのでしょうか?将来、農業に変化をもたらす最も重要な技術は何で...