この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 機械学習では、異常なデータと大幅に異なるデータを区別することが重要です。 NeurIPS 2019 の論文では、Google はゲノム配列における OOD 検出のための現実的なベンチマーク データセットを提案して公開し、OOD 検出の精度を大幅に向上できる尤度比ベースのソリューションを提案しました。 AI Technology Reviewでは、この手法に関するGoogleの公式解釈を以下のようにまとめています。 ディープラーニングの科学者が機械学習システムをうまく導入するには、異常なデータ、つまりトレーニングに使用されたデータとは大きく異なるデータを区別できるシステムが必要です。 ディープ ニューラル ネットワーク分類器は、分布外 (ODD) 入力を高い信頼度で分布内カテゴリに分類する可能性があるため、外れ値データまたは大幅に異なるデータを区別することが重要です。異常データの検出は、これらの予測を現実世界の意思決定に役立てる場合に特に重要になります。 たとえば、ゲノム配列に基づく細菌検出に機械学習モデルを適用することは、現実世界では難しいアプリケーションです。細菌検査は、敗血症などの感染症の診断と治療、および食中毒病原体の特定に不可欠です。 近年、新しい細菌種が次々と発見されているため、既知の分類に基づいてトレーニングされたニューラル ネットワーク分類器は、クロス検証を通じて高い測定精度を達成していますが、実際のデータは絶えず進化しており、以前のトレーニング データ (OOD 入力) には登場したことのないゲノムが必然的に含まれるため、モデルの展開は依然として非常に困難です。 図1 近年、新しい細菌種が徐々に発見されています。既知の分類データでトレーニングされた分類器に既知の分類データを入力すると、入力分類データが既知であるため高い精度を達成できますが、高い信頼性で既知の分類データと混在する未知の分類データ (ODD データなど) を含む入力を誤分類する可能性があります。 Google は、NeurIPS 2019 で発表された論文「分布外検出の尤度比」の中で、前述の新しい細菌種の検出などの現実世界の問題に着想を得て、ゲノム配列の OOD 検出のための現実世界のベンチマーク データセットを提案し、公開しました。
彼らはゲノム配列に基づく生成モデルを使用して既存のOOD検出方法をテストし、尤度値(モデル入力が歪んだデータを使用して推定された分布から得られる確率)が間違っていることが多いことを発見しました。彼らは、画像の深層生成モデルに関する最近の研究でもこの現象を観察し、統計的な背景効果を通じてそれを説明した後、OOD 検出の精度を大幅に向上できる尤度比ベースのソリューションを提案しました。 1. 密度モデルを OOD 検出に適用できないのはなぜですか?現実世界の問題をシミュレートし、さまざまなアプローチを体系的に評価するために、研究者らは、国立生物工学情報センター (NCBI) の公開されている原核生物カタログのゲノム配列データを使用して、新しい細菌データセットを作成しました。 配列データをシミュレートするために、研究者らはゲノムを現在の配列技術で一般的に使用されている 250 塩基対の短い配列に断片化しました。次に、分布内データと分布外データを発見日ごとに分離し、カットオフ時間前に発見された細菌種は分布内と定義され、カットオフ時間後に発見された細菌種は分布外 (OOD) と定義されます。 次に、分布内ゲノム配列に基づく深層生成モデルをトレーニングし、尤度曲線をプロットして、分布内入力データと分布外入力データを区別するモデルの能力をテストしました。 OOD シーケンス尤度値のヒストグラムは、分布内シーケンス尤度値と高度に重複しており、生成モデルが 2 つのカテゴリ間の OOD 検出結果を区別できないことを示しています。 深層画像生成モデルに関する初期の研究でも同様の結論が得られました (関連資料: https://arxiv.org/abs/1810.09136)。たとえば、Fashion-MNIST データセット (衣服と履物の画像で構成) でトレーニングされた PixelCNN++ モデルは、MNIST データセット (数字 0 ~ 9 の画像で構成) の OOD 画像よりも高い尤度値を割り当てました。 図 2 左: 分布内および分布外 (OOD) ゲノム配列の尤度値のヒストグラム。 尤度値では、分布内ゲノム配列とOODゲノム配列を区別できませんでした。 右: Fashion-MNIST データセットでトレーニングされたモデルと、MNIST データセットで推定された尤度値のヒストグラム。 モデルは、分布内画像よりもOOD(MNIST)画像に高い尤度値を割り当てました。 この障害モデルを研究しているときに、背景統計が尤度値の計算に影響を及ぼす可能性があることに気付きました。この現象をより直感的に理解するために、入力は(1)背景統計によって特徴付けられる背景コンポーネントと(2)分布内のデータに固有のパターンによって特徴付けられるセマンティックコンポーネントの2つのコンポーネントで構成されていると仮定します。 たとえば、MNIST 画像は背景とセマンティクスとしてモデル化できます。人間が画像を解釈する際、背景情報を無視し、下図の「/」マークのような意味情報に主に焦点を当てる傾向があります。ただし、画像内のすべてのピクセルに対して尤度を計算すると、計算結果には意味ピクセルと背景ピクセルの両方が含まれます。決定を下すには意味的な尤度値のみを使用する必要がありますが、元の尤度値の結果には主に背景コンポーネントが含まれている可能性があります。 図 3. 左上: Fashion-MNIST からの画像の例。 左下: MNIST からの例画像。 右: MNIST 画像の背景と意味コンポーネント。 2. OOD検出の尤度比彼らは、背景効果を除去し、意味的要素に焦点を当てるための尤度比法を提案しました。 まず、遺伝子変異にヒントを得て、入力値の位置をランダムに選択し、それを等確率で別の値に置き換えるという摂動入力法を使用して背景モデルをトレーニングします。画像化の場合、256 個の可能なピクセル値の中から入力値をランダムに選択し、DNA 配列の場合、4 つの可能なヌクレオチド (A、T、C、または G) の中から入力値を選択しました。このプロセス中に、適切な量の摂動によってデータの意味構造が破壊され、背景のみがキャプチャされることになります。 次に、背景コンポーネントを削除して意味的尤度値のみが保持されるようにし、完全モデルと背景モデル間の尤度比を計算しました。尤度比は背景コントラストスコアです。つまり、意味と背景のコントラストの意味を捉えます。 尤度値と尤度比の違いを定性的に評価するために、Fashion-MNIST データセットと MNIST データセットの各ピクセルの尤度と尤度比の値をプロットし、画像と同じサイズのヒートマップを作成しました。 これにより、どのピクセルがこれら 2 つの値のそれぞれに最も貢献しているかを視覚的に確認できるようになりました。対数尤度ヒートマップから、背景ピクセルが意味ピクセルよりも尤度値に大きく寄与していることがわかります。 後から考えてみると、背景のピクセルは主にゼロの文字列で構成されているため、モデルによって簡単に学習できるため、これは驚くべきことではありません。 MNIST ヒートマップと Fashion-MNIST ヒートマップを比較すると、MNIST がより高い尤度値を返す理由がわかります。これは、背景ピクセルがより多く含まれているからです。対照的に、尤度比の結果は、意味的なピクセルに重点を置いています。 この尤度比アプローチは背景効果を修正します。彼らは Fashion-MNIST に基づいて PixelCNN++ モデルをトレーニングし、MNIST 画像データセットで OOD 検出を実行しました。実験結果は大幅に改善され、AUROC スコアは 0.089 から 0.994 に増加しました。 彼らがゲノムベンチマークデータセットの困難な問題に尤度比法を適用したところ、他の 12 のベースライン法と比較して最高のパフォーマンスを示しました。 しかし、彼らはまた、尤度比法はゲノムデータセットで最先端のパフォーマンスを達成したものの、実際のアプリケーションでモデルを展開するための高精度の要件にはまだ程遠いと述べました。 彼らは研究者たちに、この重要な問題に取り組み、現在の最先端技術を改善するために一生懸命働くことを奨励しています。 |
<<: 2020 年の CIO にとっての 5 つの戦略的優先事項
>>: 2020 年に注目すべき 4 つのエンタープライズ AR トレンド
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
スマートテクノロジーをどのように活用するのでしょうか?ほとんどのテクノロジー製品は、特にワイヤレス接...
セキュリティ・リサーチ・ラボのディレクター、カーステン・ノール氏は、このクラックによりGPRSの盗聴...
顔スキャン決済は私たちの生活に入り込んでいます。普通のスマートフォンのカメラに顔を向けるだけで、本人...
[[416242]]オブジェクト検出、オブジェクト認識、セグメンテーション タスク用の自動注釈ソリュ...
[51CTO.com クイック翻訳]職場における支援/拡張現実 (AR) と人工知能 (AI) の潜...
誰もがこのような経験をしたことがあると思います。道路を運転しているとき、携帯電話は位置情報と速度を送...
気候変動は現在人類が取り組むべき最も重要な課題の一つとなっています。この急速に拡大する危機には、その...
テクノロジー企業は、AI がビジネスメモを書いたり、コンピューターコードを作成したりできると宣伝して...
「機械に人間から学ばせてはいけない。機械には独自の方法と手段がなければならない。」 「機械に独自の知...
人工知能が徐々に物理セキュリティの分野に参入するにつれて、より高度なアクセス制御ソリューションが登場...
過去数年間はリカレントニューラルネットワークが主流でしたが、現在では自己回帰 Wavenet や T...