CNN の弱点を見つけ、MNIST の「ルーチン」に注意する

CNN の弱点を見つけ、MNIST の「ルーチン」に注意する

[[191828]]

CNN は現在非常に人気のあるモデルです。多くの画像検索問題において、CNN モデルの効果が以前より大幅に向上しました。しかし、CNN は結局これらの問題を完全に解決したわけではなく、CNN にはまだ独自の弱点があります。この弱点は、この病気特有の問題とは言えませんが、その効能があまりにも優れているため、迷信的に信じる人も多く、この洗面器に冷水をかけているのです。

専門家たちは CNN モデルの威力を目の当たりにしましたが、次のような疑問を抱かずにはいられませんでした。CNN で処理できないものがあるのでしょうか? たとえば、CNN を使用して顔認識モデルを構築します。このモデルはトレーニング データ セットとテスト データ セットで優れたパフォーマンスを発揮しますが、誤判断するユース ケースはあるのでしょうか? また、こうしたユース ケースを生成するパターンを見つけることはできるのでしょうか?

以前正しく識別されたデータにわずかな変更を加えると、依然として正しく識別できる可能性があることが想像できます。そこで私たちは、ある計画を思いつきました。画像に少し変更を加えるたびに、その画像を CNN に渡してテストし、CNN の予測結果が変わったかどうかを確認します。変わっていない場合は、画像を保存して次の変更を行います。数回の変更が終わったら、生成された画像を出力して、画像がどのように見えるかを確認します。

ここでは MNIST を例にとり、次の変更計画を示します。

  1. MNIST トレーニング セットを使用して CNN モデルをトレーニングします。CNN モデルの構造は次のとおりです: conv32*3*3->relu->maxpool2*2->conv64*3*6->relu->maxpool2*2->fc256->dropout0.5->fc10。
  2. トレーニングデータセットを見つけ、そのデータ範囲を 0 から 1 に制限します。各ピクセルに対して -0.1 から 0.1 の間の数値をランダムに増減して、64 枚のランダム画像を取得します。次に、CNN モデルを使用して、これらの 64 枚の画像の予測ラベルを予測し、元のラベルと同じラベルを持つ画像を選択します。数回の反復処理を繰り返すと、ランダムに変更された数値がどのようになるかがわかります。

私たちは0番を選択しました:

50 回の反復後、次の画像が得られます。

100 回の反復後、次の画像が得られます。

150 回の反復後、次の画像が得られます。

200 回の反復処理の後、次の画像が得られます。

ここまでは、まだ数字がぼんやり見えていることがわかりますが、実際には画像がぼやけ、雑然とした情報が混ざり合って、元の数字とはまったく異なっています。

このルーチンは「CNNをだます」と呼ばれ、中国北東部の人々をだますことを意味します。繰り返し作業を続けることで、さらに魅力的な画像を生成できます。もちろん、これは CNN モデルを騙す 1 つの方法にすぎません。画像を生成する方法は他にもあります。他の方法についてはここでは紹介しません。こうした詐欺行為に関して、専門家は機械学習に関連した説明も行いました。

CNN モデルは究極的には識別モデルです。画像を X、ラベルを y に設定すると、CNN モデルは p(y|X) の値を見つけることと同等になります。判別モデルは「このラベルの画像はどのような画像であるか」を記述することと同等であり、これらの条件を満たす画像が必ずしも実際のラベルが付いた画像ではない場合があります。上記の詐欺はこの抜け穴を利用しています。

上記の例では、この fool メソッドを使用して、ぼやけた画像の元のラベルを保持し、それほどぼやけていない画像を CNN によって誤って別のラベルとして認識させることもできます。

たとえば、次の画像は 40 回の反復処理の後に 6 として認識されました。

こうしたルーチンの出現により、私たちは CNN を警戒するようになりました。CNN に手書きの数字を完全に保持させたいのであれば、他の補助手段が必要です。そうしないと、このような事故が常に発生します。

それで、この問題を解決する方法はあるのでしょうか?

<<:  AWS 上でディープラーニングホストを構築する (Windows 版)

>>:  ディープラーニングにおけるバッチ正規化の落とし穴

ブログ    
ブログ    
ブログ    

推薦する

自動運転タクシーの分野では競争が激しく、中国では百度がリードしています。

タクシーサービスに代表される商業的探究の激化に伴い、自動運転タクシーの急速な導入は、自動運転が人々の...

...

消防ドローンはあらゆる能力に優れていることから人気が高まっています!

火災による被害は明らかですが、火災の予防と制御は容易ではありません。たとえば、森林火災は、その範囲が...

データ時代の金採掘者になりましょう。Analysysアルゴリズムコンペティションがあなたの実力を披露するのを待っています。

もっと多くのアルゴリズムの才能とつながりたいですか?業界の最先端の技術を知りたいですか?インターネッ...

中国電信が星辰AIビッグモデルをソース公開:LLM研究開発を完了し、オープンソース化した初の中央企業

予期せぬことに、オープンソースのビッグモデル ファミリーに特別なプレーヤーが登場しました。国営企業か...

地下鉄路線図のための高速経路探索アルゴリズム

1. 概要過去2日間、Blog Parkで地下鉄マップの実装について話していました。その前に、私もク...

...

賈強淮: Ant大規模知識グラフの構築とその応用

1. アトラスの概要まず、ナレッジグラフの基本的な概念をいくつか紹介します。 1. ナレッジグラフと...

...

MDFR: 顔画像復元と顔回転の結合モデルに基づく顔認識法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

中関村科学技術の張傑氏との対話:大規模モデルを実装するには従うべき「テクニック」がある

ゲスト | 張潔インタビュー | 張小南編集者 | 徐潔成制作:51CTO テクノロジースタック(W...

スマートサーマルイメージングカメラは屋外セキュリティソリューションの第一選択肢となる

スマートサーマルイメージングカメラは、屋外の資産を保護するための侵入者検知ソリューションとして急速に...

...

OpenAI GPTストアは来週開始予定

OpenAI は 2024 年に出発する準備が整っているようです。 ChatGPT の背後にある会社...

MD5アルゴリズムの暗号化プロセス

MD5とは何か MD5 はアルゴリズムです。MD5 の MD はMessage Digest の略で...