AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

AIのブラックボックスをどう解決するか?

ニューラル ネットワーク モデルのトレーニング中、一部の ReLU ノードは「消滅」します。つまり、常に 0 を出力し、役に立たなくなります。

それらは削除されたり無視されたりすることが多いです。

ちょうど、生と死の境界が曖昧になる祝日であるハロウィーンと重なるので、「デッドノード」を探索するのに良い時期です。

ほとんどの画像生成モデルでは、出力はポジティブ画像になります。ただし、アルゴリズムを最適化すると、モデルはより奇妙で恐ろしい画像を生成できるようになります。

たとえば、テキストと画像の一致度を測定できる CLIP モデルを考えてみましょう。

グロテスクなシーンを説明するテキストが与えられた場合、最適化アルゴリズムを使用して、CLIP 損失を最小限に抑えることで、テキストに一致する恐ろしい画像を生成します。

損失関数の最も深く恐ろしい領域を探索し続けると、狂気の状態に入るようなものです。

これらの奇妙な写真はあなたの想像を超えていることに気づくでしょう。

最も重要なのは、他のモデルの助けを借りずに、CLIP モデルの最適化のみによって生成されることです。

最適化アルゴリズムを使用すると、ニューラル ネットワークを「分析」することができ、特徴の視覚化により、単一のニューロンの最大活性化の画像を見つけることができます。

アンドリュー・ン氏とジェフ・ディーンは2012年にImageNet画像分類モデルで同様の実験を行い、黒猫に反応するニューロンを発見しました。

これに対して、メリーランド大学とニューヨーク大学の研究者は「特徴視覚化」を使用して CLIP モデルを分析し、非常に不穏なニューロンを発見しました。

完全に頭蓋骨のようなイメージです。

しかし、それは本当に「ドクロと骨のニューロン」なのでしょうか?どうやらそうではないようです。実際、それはもっと神秘的で説明のつかないパターンを表しています。

何が起こっているのか?

モデル反転、畳み込みネットワークViTは適用されません

AIが生成した画像を説明するには、モデル反転と呼ばれる手法が必要です。

「モデル反転」は、ニューラル アーキテクチャの内部動作を視覚化して説明し、モデルが学習した内容を理解し、モデルの動作を説明するための重要なツールです。

一般的に言えば、「モデル反転」は通常、ネットワーク内の特定の機能をアクティブ化できる入力(つまり、機能の視覚化)または特定のカテゴリの高出力応答を生成できる入力(つまり、カテゴリ反転)を探します。

しかし、ニューラル ネットワーク アーキテクチャの継続的な開発により、既存の「モデル反転」ソリューションに大きな課題が生じています。

畳み込みネットワークは長い間、CV タスクのデフォルトの方法であり、モデル反転の分野における研究の焦点となってきました。

Vision Transformer (ViT)、MLP-Mixer、ResMLP などの他のアーキテクチャの出現により、ほとんどの既存のモデル反転手法はこれらの新しい構造に適切に適用できなくなりました。

要約すると、現在、新しい構造に適用できるモデル反転法の開発が求められています。

これに対して、メリーランド州とニューヨーク大学の研究者らは「階級の逆転」に注目した。

目標は、モデルのトレーニング データを知らなくても、特定のクラスの出力スコアを最大化する解釈可能な画像を見つけることです。

クラス反転はモデルの説明や画像合成などのタスクに適用されてきましたが、いくつかの重要な欠陥があります。生成された画像の品質は正規化の重みに非常に敏感であり、バッチ正規化パラメータを必要とする方法は新しいアーキテクチャには適用できません。

研究者らは、データ拡張に基づくクラス反転手法であるプラグイン反転 (PII) を提案しました。

論文アドレス: https://arxiv.org/pdf/2201.12961.pdf

PII の利点は、明示的な正規化が不要で、モデルや画像インスタンスごとにハイパーパラメータを調整する必要がないことです。

実験結果は、PII が同じアーキテクチャに依存しないアプローチとハイパーパラメータを使用して、CNN、ViT、および MLP アーキテクチャを反転できることを示しています。

新しいタイプの逆転 - PII

これまで、クラス反転の研究では、ディザリングなどの強化がよく使用されていました。

画像を水平方向と垂直方向にランダムにシフトし、水平方向の Ips もシフトして、反転画像の品質を向上させます。

最新の研究では、著者らは反転に有利な他の機能強化を検討し、それらを組み合わせて PII アルゴリズムを形成する方法を説明しています。

検索空間の制限

著者らは、反転画像の空間品質を向上させるために、センタリングとズームという 2 つの強化方法を検討しています。

これらの方法の設計は、入力最適化空間を制限することで、より優れた機能レイアウトを実現できるという仮定に基づいています。

どちらの方法も、小さなサイズから始めて徐々にスペースを拡大し、意味的なコンテンツを中央に配置するようにすることで、より解釈しやすく認識しやすい反転画像を生成することを目指しています。

図 1 と 2 は、それぞれセンタリングとスケーリングのプロセスの各ステップでの画像の状態を示しています。

カラーシフト強化

先ほど示した反転画像では、色が不自然に見えました。

これは、研究者によって提案された新しい強化方法である ColorShift によるものです。

ColorShift は、各カラー チャネルの平均と分散をランダムに変化させて画像の色を変更し、より豊かで多様な反転画像の色を生成することを目的としています。

下の図では、ColorShift の安定化効果を視覚化しています。

統合された

アンサンブルは、強化された推論からデータセットのセキュリティに至るまでのさまざまなアプリケーションで頻繁に使用される成熟したツールです。

研究者たちは、同じ画像の異なる ColorShifts で構成されるアンサンブルを同時に最適化すると、反転法のパフォーマンスが向上することを発見しました。

図 4 は、ColorShift とともに統合を適用した結果を示しています。

より大きなアンサンブルに移行するとわずかな改善が得られるように見えますが、サイズが 1 または 2 のアンサンブルでも満足のいく結果が得られます。

使用可能な GPU メモリによってセットの可能なサイズが制限されるため、これは ViT のようなモデルにとって重要です。

この時点で、PII が何であるかを理解しました。PII は、ディザリング、統合、ColorShift、センタリング、スケーリングの手法を組み合わせ、その結果を「プラグイン反転」と名付けます。

これは、任意の微分可能モデル (ViT および MLP を含む) に適用でき、固定ハイパーパラメータのセットのみを必要とします。

さまざまなネットワークアーキテクチャに適用可能

では、PII の効果は何でしょうか?

実験結果は、PII がさまざまなモデルに適用できることを示しています。研究者がすべてのケースで PII パラメータに同じ設定を使用したことを強調することが重要です。

図 6 には、CNN、ViT、MLP の例を含む、さまざまなアーキテクチャの Volcano クラスを反転して生成された画像が示されています。

さまざまなニューラル ネットワークによって生成される画像の品質は異なりますが、それらはすべて、識別可能で適切に配置された視覚情報を含んでいます。

図 7 では、研究者らは、いくつかの任意の ImageNet クラスについて、各主要アーキテクチャ タイプの代表から PII によって生成された画像も示しています。

ご覧のとおり、各行には独自の視覚スタイルがあり、モデル反転を使用してさまざまなモデルの学習情報を理解できることがわかります。

図 8 では、著者らは PII を使用して、ImageNet でトレーニングされ、CIFAR-100 で微調整された ViT モデルを反転しています。

図9はCIFAR-10で微調整されたモデルの逆解析結果を示しています。

新しい手法を定量的に評価するために、著者らは事前学習済みの ViT モデルと事前学習済みの ResMLP モデルを反転し、PII を使用して各クラスの画像を生成し、DeepDream を使用して同じ操作を実行しました。

これらの画像は、事前にトレーニングされたさまざまなモデルを使用して分類されます。

表 1 には、これらのモデルの平均トップ 1 およびトップ 5 の分類精度と、各方法で生成された画像の Inception スコアが含まれています。

図 10 は、PII と DeepInversion によって生成された任意のカテゴリの画像を示しています。

<<:  ちょうど今、ビートルズはAIがプロデュースした「最後の」新曲をリリースした。

>>:  文脈学習 = 対照学習?人民大学が ICL 推論の背後にある暗黙の更新メカニズムを明らかに: 勾配は更新されるのか? 「さらに」

推薦する

人工知能がやって来ます。準備はできていますか?

ちょうど2年前、大学に入学したときに一度だけ行ったことがあります。その時は、まず入り口の機械で番号を...

2027年のAIはどのようになっているでしょうか?ヒントは、あなたの脳の中にあります。

やっていることをやめて、窓の外の鳥やリス、昆虫などを眺めてみましょう。これらの生物は、食物を見つけた...

ディープラーニングを使用して、あなたのようにチャットできるロボットをトレーニングするにはどうすればよいでしょうか?

[[201242]]チャットボットとは一体何でしょうか? 簡単に言えば、音声またはテキスト方式で会...

顔認識は道徳的および倫理的な懸念を引き起こします。あなたの顔は監視されていますか?

顔認識システムは私たちの都市に多くの利便性をもたらしました。しかし、多くの国では顔認識に対する抵抗が...

Redis のソースコードを読んで、キャッシュ除去アルゴリズム W-TinyLFU を学びましょう

[[433812]]この記事は董澤潤氏が執筆したWeChat公開アカウント「董澤潤の技術ノート」から...

オリンピックチャンピオンでさえ正しく答えられなかった質問が ML モデルのテストに使用されているのですか? GPT-3: できない

機械学習モデルの数学解答能力を測定するために、カリフォルニア大学バークレー校とシカゴ大学の研究者らは...

インペリアル・カレッジ:専門医の80%が懸念する心臓リズムデバイスインプラント手術問題をAIで解決する方法

インペリアル・カレッジ・ロンドンの研究者らは、ペースメーカーや除細動器のメーカーとモデルを識別するた...

2019年北京知源会議が北京で開幕、中国と海外の学術リーダーが人工知能研究の最前線について議論

10月31日、北京知源人工知能研究所が主催する2019年北京知源大会が国家会議センターで2日間にわた...

この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

多くのメディア記事では、「機械学習がXX業界に力を与える」という言葉を目にしますが、この「エネルギー...

ロボットがIoTアプリケーションの範囲を拡大する方法

ロボットの学習能力と IoT アプリケーションの相互接続性は、実りある未来を約束します。モノのインタ...

...

「データオープン化」の道で、百度アポロはウェイモをリード

6月17日、世界最大のコンピュータービジョンカンファレンスであるCVPRの自動運転セミナーにおいて、...

...