AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

AIのブラックボックスをどう解決するか?

ニューラル ネットワーク モデルのトレーニング中、一部の ReLU ノードは「消滅」します。つまり、常に 0 を出力し、役に立たなくなります。

それらは削除されたり無視されたりすることが多いです。

ちょうど、生と死の境界が曖昧になる祝日であるハロウィーンと重なるので、「デッドノード」を探索するのに良い時期です。

ほとんどの画像生成モデルでは、出力はポジティブ画像になります。ただし、アルゴリズムを最適化すると、モデルはより奇妙で恐ろしい画像を生成できるようになります。

たとえば、テキストと画像の一致度を測定できる CLIP モデルを考えてみましょう。

グロテスクなシーンを説明するテキストが与えられた場合、最適化アルゴリズムを使用して、CLIP 損失を最小限に抑えることで、テキストに一致する恐ろしい画像を生成します。

損失関数の最も深く恐ろしい領域を探索し続けると、狂気の状態に入るようなものです。

これらの奇妙な写真はあなたの想像を超えていることに気づくでしょう。

最も重要なのは、他のモデルの助けを借りずに、CLIP モデルの最適化のみによって生成されることです。

最適化アルゴリズムを使用すると、ニューラル ネットワークを「分析」することができ、特徴の視覚化により、単一のニューロンの最大活性化の画像を見つけることができます。

アンドリュー・ン氏とジェフ・ディーンは2012年にImageNet画像分類モデルで同様の実験を行い、黒猫に反応するニューロンを発見しました。

これに対して、メリーランド大学とニューヨーク大学の研究者は「特徴視覚化」を使用して CLIP モデルを分析し、非常に不穏なニューロンを発見しました。

完全に頭蓋骨のようなイメージです。

しかし、それは本当に「ドクロと骨のニューロン」なのでしょうか?どうやらそうではないようです。実際、それはもっと神秘的で説明のつかないパターンを表しています。

何が起こっているのか?

モデル反転、畳み込みネットワークViTは適用されません

AIが生成した画像を説明するには、モデル反転と呼ばれる手法が必要です。

「モデル反転」は、ニューラル アーキテクチャの内部動作を視覚化して説明し、モデルが学習した内容を理解し、モデルの動作を説明するための重要なツールです。

一般的に言えば、「モデル反転」は通常、ネットワーク内の特定の機能をアクティブ化できる入力(つまり、機能の視覚化)または特定のカテゴリの高出力応答を生成できる入力(つまり、カテゴリ反転)を探します。

しかし、ニューラル ネットワーク アーキテクチャの継続的な開発により、既存の「モデル反転」ソリューションに大きな課題が生じています。

畳み込みネットワークは長い間、CV タスクのデフォルトの方法であり、モデル反転の分野における研究の焦点となってきました。

Vision Transformer (ViT)、MLP-Mixer、ResMLP などの他のアーキテクチャの出現により、ほとんどの既存のモデル反転手法はこれらの新しい構造に適切に適用できなくなりました。

要約すると、現在、新しい構造に適用できるモデル反転法の開発が求められています。

これに対して、メリーランド州とニューヨーク大学の研究者らは「階級の逆転」に注目した。

目標は、モデルのトレーニング データを知らなくても、特定のクラスの出力スコアを最大化する解釈可能な画像を見つけることです。

クラス反転はモデルの説明や画像合成などのタスクに適用されてきましたが、いくつかの重要な欠陥があります。生成された画像の品質は正規化の重みに非常に敏感であり、バッチ正規化パラメータを必要とする方法は新しいアーキテクチャには適用できません。

研究者らは、データ拡張に基づくクラス反転手法であるプラグイン反転 (PII) を提案しました。

論文アドレス: https://arxiv.org/pdf/2201.12961.pdf

PII の利点は、明示的な正規化が不要で、モデルや画像インスタンスごとにハイパーパラメータを調整する必要がないことです。

実験結果は、PII が同じアーキテクチャに依存しないアプローチとハイパーパラメータを使用して、CNN、ViT、および MLP アーキテクチャを反転できることを示しています。

新しいタイプの逆転 - PII

これまで、クラス反転の研究では、ディザリングなどの強化がよく使用されていました。

画像を水平方向と垂直方向にランダムにシフトし、水平方向の Ips もシフトして、反転画像の品質を向上させます。

最新の研究では、著者らは反転に有利な他の機能強化を検討し、それらを組み合わせて PII アルゴリズムを形成する方法を説明しています。

検索空間の制限

著者らは、反転画像の空間品質を向上させるために、センタリングとズームという 2 つの強化方法を検討しています。

これらの方法の設計は、入力最適化空間を制限することで、より優れた機能レイアウトを実現できるという仮定に基づいています。

どちらの方法も、小さなサイズから始めて徐々にスペースを拡大し、意味的なコンテンツを中央に配置するようにすることで、より解釈しやすく認識しやすい反転画像を生成することを目指しています。

図 1 と 2 は、それぞれセンタリングとスケーリングのプロセスの各ステップでの画像の状態を示しています。

カラーシフト強化

先ほど示した反転画像では、色が不自然に見えました。

これは、研究者によって提案された新しい強化方法である ColorShift によるものです。

ColorShift は、各カラー チャネルの平均と分散をランダムに変化させて画像の色を変更し、より豊かで多様な反転画像の色を生成することを目的としています。

下の図では、ColorShift の安定化効果を視覚化しています。

統合された

アンサンブルは、強化された推論からデータセットのセキュリティに至るまでのさまざまなアプリケーションで頻繁に使用される成熟したツールです。

研究者たちは、同じ画像の異なる ColorShifts で構成されるアンサンブルを同時に最適化すると、反転法のパフォーマンスが向上することを発見しました。

図 4 は、ColorShift とともに統合を適用した結果を示しています。

より大きなアンサンブルに移行するとわずかな改善が得られるように見えますが、サイズが 1 または 2 のアンサンブルでも満足のいく結果が得られます。

使用可能な GPU メモリによってセットの可能なサイズが制限されるため、これは ViT のようなモデルにとって重要です。

この時点で、PII が何であるかを理解しました。PII は、ディザリング、統合、ColorShift、センタリング、スケーリングの手法を組み合わせ、その結果を「プラグイン反転」と名付けます。

これは、任意の微分可能モデル (ViT および MLP を含む) に適用でき、固定ハイパーパラメータのセットのみを必要とします。

さまざまなネットワークアーキテクチャに適用可能

では、PII の効果は何でしょうか?

実験結果は、PII がさまざまなモデルに適用できることを示しています。研究者がすべてのケースで PII パラメータに同じ設定を使用したことを強調することが重要です。

図 6 には、CNN、ViT、MLP の例を含む、さまざまなアーキテクチャの Volcano クラスを反転して生成された画像が示されています。

さまざまなニューラル ネットワークによって生成される画像の品質は異なりますが、それらはすべて、識別可能で適切に配置された視覚情報を含んでいます。

図 7 では、研究者らは、いくつかの任意の ImageNet クラスについて、各主要アーキテクチャ タイプの代表から PII によって生成された画像も示しています。

ご覧のとおり、各行には独自の視覚スタイルがあり、モデル反転を使用してさまざまなモデルの学習情報を理解できることがわかります。

図 8 では、著者らは PII を使用して、ImageNet でトレーニングされ、CIFAR-100 で微調整された ViT モデルを反転しています。

図9はCIFAR-10で微調整されたモデルの逆解析結果を示しています。

新しい手法を定量的に評価するために、著者らは事前学習済みの ViT モデルと事前学習済みの ResMLP モデルを反転し、PII を使用して各クラスの画像を生成し、DeepDream を使用して同じ操作を実行しました。

これらの画像は、事前にトレーニングされたさまざまなモデルを使用して分類されます。

表 1 には、これらのモデルの平均トップ 1 およびトップ 5 の分類精度と、各方法で生成された画像の Inception スコアが含まれています。

図 10 は、PII と DeepInversion によって生成された任意のカテゴリの画像を示しています。

<<:  ちょうど今、ビートルズはAIがプロデュースした「最後の」新曲をリリースした。

>>:  文脈学習 = 対照学習?人民大学が ICL 推論の背後にある暗黙の更新メカニズムを明らかに: 勾配は更新されるのか? 「さらに」

ブログ    
ブログ    
ブログ    

推薦する

量子超越性のマイルストーン! Googleの量子コンピュータは47年分の計算を6秒で完了し、世界初のスーパーコンピュータを上回る

Googleは再び「量子超越性」を達成したのか?最近、Google は、同社の量子コンピュータが、世...

チャットボットについては長い間話されてきましたが、良いチャットボットとはどのように定義されるのでしょうか?

なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...

大型模型+ロボット、詳細なレビューレポートはこちら、多くの中国の学者が参加

大型モデルの優れた能力は誰の目にも明らかであり、ロボットに統合されれば、ロボットはより賢い脳を持つこ...

ハン・ソン、チュー・ジュンヤンらがGAN圧縮方式を提案:計算電力消費は1/9以下、オープンソース化

GAN は大幅に圧縮することもできます。MIT ハン・ソン氏のチームによる最新の研究は、多くの研究者...

AI + エッジコンピューティング - エッジ人工知能は本当に存在するのか?

EdgeAI はもはやブループリント段階ではありません。すでに主流として採用され、驚異的な速度で成...

誰かが1週間でPASCALデータセットの17,120枚の画像をクリーンアップし、mAPを13%向上させました。

ある研究では、PASCAL VOC 2012 データセット内の 17,120 枚の画像を 1 週間で...

調達における AI の夜明け: 効率性と洞察力の新時代

McKinsey & Company の画期的なレポートでは、AI を含むデジタル調達ソリュ...

WeChat JS-SDK-使用許可署名アルゴリズム

jsapi_チケット署名を生成する前に、まず jsapi_ticket を理解する必要があります。j...

...

...

人工知能の可能性を解き放つ3つのステップ

ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...

ビル・ゲイツ:人工知能に国境を簡単に引いてはいけない

[[260361]]新華社によると、ビル&メリンダ・ゲイツ財団の共同議長ビル・ゲイツ氏は最近スタンフ...

AIの背後にあるエンジンを理解する、テクノロジー愛好家が知っておくべき4つの機械学習アルゴリズム

人工知能は、車の運転、バーでのミキシング、戦争など、驚くべきことを行っていますが、ロボットマスクが脚...

AIアルゴリズムから製品実装までの8つのギャップを数える

今日、人工知能技術は急速に発展し続けており、画像認識、音声認識、意味理解など多くの特定の分野で人間の...

3日間で自己学習したAlphaZeroがAlphaGoに勝利。GitHubの2017年年次レポートは人工知能の人気ぶりを示す!

[[207020]]本日 Nature に発表されたこの重要な論文には、Google の Deep...