AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

AIのブラックボックスをどう解決するか？

ニューラルネットワークモデルのトレーニング中、一部の ReLU ノードは「消滅」します。つまり、常に 0 を出力し、役に立たなくなります。

それらは削除されたり無視されたりすることが多いです。

ちょうど、生と死の境界が曖昧になる祝日であるハロウィーンと重なるので、「デッドノード」を探索するのに良い時期です。

ほとんどの画像生成モデルでは、出力はポジティブ画像になります。ただし、アルゴリズムを最適化すると、モデルはより奇妙で恐ろしい画像を生成できるようになります。

たとえば、テキストと画像の一致度を測定できる CLIP モデルを考えてみましょう。

グロテスクなシーンを説明するテキストが与えられた場合、最適化アルゴリズムを使用して、CLIP 損失を最小限に抑えることで、テキストに一致する恐ろしい画像を生成します。

損失関数の最も深く恐ろしい領域を探索し続けると、狂気の状態に入るようなものです。

これらの奇妙な写真はあなたの想像を超えていることに気づくでしょう。

最も重要なのは、他のモデルの助けを借りずに、CLIP モデルの最適化のみによって生成されることです。

最適化アルゴリズムを使用すると、ニューラルネットワークを「分析」することができ、特徴の視覚化により、単一のニューロンの最大活性化の画像を見つけることができます。

アンドリュー・ン氏とジェフ・ディーンは2012年にImageNet画像分類モデルで同様の実験を行い、黒猫に反応するニューロンを発見しました。

これに対して、メリーランド大学とニューヨーク大学の研究者は「特徴視覚化」を使用して CLIP モデルを分析し、非常に不穏なニューロンを発見しました。

完全に頭蓋骨のようなイメージです。

しかし、それは本当に「ドクロと骨のニューロン」なのでしょうか?どうやらそうではないようです。実際、それはもっと神秘的で説明のつかないパターンを表しています。

何が起こっているのか？

モデル反転、畳み込みネットワークViTは適用されません

AIが生成した画像を説明するには、モデル反転と呼ばれる手法が必要です。

「モデル反転」は、ニューラルアーキテクチャの内部動作を視覚化して説明し、モデルが学習した内容を理解し、モデルの動作を説明するための重要なツールです。

一般的に言えば、「モデル反転」は通常、ネットワーク内の特定の機能をアクティブ化できる入力（つまり、機能の視覚化）または特定のカテゴリの高出力応答を生成できる入力（つまり、カテゴリ反転）を探します。

しかし、ニューラルネットワークアーキテクチャの継続的な開発により、既存の「モデル反転」ソリューションに大きな課題が生じています。

畳み込みネットワークは長い間、CV タスクのデフォルトの方法であり、モデル反転の分野における研究の焦点となってきました。

Vision Transformer (ViT)、MLP-Mixer、ResMLP などの他のアーキテクチャの出現により、ほとんどの既存のモデル反転手法はこれらの新しい構造に適切に適用できなくなりました。

要約すると、現在、新しい構造に適用できるモデル反転法の開発が求められています。

これに対して、メリーランド州とニューヨーク大学の研究者らは「階級の逆転」に注目した。

目標は、モデルのトレーニングデータを知らなくても、特定のクラスの出力スコアを最大化する解釈可能な画像を見つけることです。

クラス反転はモデルの説明や画像合成などのタスクに適用されてきましたが、いくつかの重要な欠陥があります。生成された画像の品質は正規化の重みに非常に敏感であり、バッチ正規化パラメータを必要とする方法は新しいアーキテクチャには適用できません。

研究者らは、データ拡張に基づくクラス反転手法であるプラグイン反転 (PII) を提案しました。

論文アドレス: https://arxiv.org/pdf/2201.12961.pdf

PII の利点は、明示的な正規化が不要で、モデルや画像インスタンスごとにハイパーパラメータを調整する必要がないことです。

実験結果は、PII が同じアーキテクチャに依存しないアプローチとハイパーパラメータを使用して、CNN、ViT、および MLP アーキテクチャを反転できることを示しています。

新しいタイプの逆転 - PII

これまで、クラス反転の研究では、ディザリングなどの強化がよく使用されていました。

画像を水平方向と垂直方向にランダムにシフトし、水平方向の Ips もシフトして、反転画像の品質を向上させます。

最新の研究では、著者らは反転に有利な他の機能強化を検討し、それらを組み合わせて PII アルゴリズムを形成する方法を説明しています。

検索空間の制限

著者らは、反転画像の空間品質を向上させるために、センタリングとズームという 2 つの強化方法を検討しています。

これらの方法の設計は、入力最適化空間を制限することで、より優れた機能レイアウトを実現できるという仮定に基づいています。

どちらの方法も、小さなサイズから始めて徐々にスペースを拡大し、意味的なコンテンツを中央に配置するようにすることで、より解釈しやすく認識しやすい反転画像を生成することを目指しています。

図 1 と 2 は、それぞれセンタリングとスケーリングのプロセスの各ステップでの画像の状態を示しています。

カラーシフト強化

先ほど示した反転画像では、色が不自然に見えました。

これは、研究者によって提案された新しい強化方法である ColorShift によるものです。

ColorShift は、各カラーチャネルの平均と分散をランダムに変化させて画像の色を変更し、より豊かで多様な反転画像の色を生成することを目的としています。

下の図では、ColorShift の安定化効果を視覚化しています。

統合された

アンサンブルは、強化された推論からデータセットのセキュリティに至るまでのさまざまなアプリケーションで頻繁に使用される成熟したツールです。

研究者たちは、同じ画像の異なる ColorShifts で構成されるアンサンブルを同時に最適化すると、反転法のパフォーマンスが向上することを発見しました。

図 4 は、ColorShift とともに統合を適用した結果を示しています。

より大きなアンサンブルに移行するとわずかな改善が得られるように見えますが、サイズが 1 または 2 のアンサンブルでも満足のいく結果が得られます。

使用可能な GPU メモリによってセットの可能なサイズが制限されるため、これは ViT のようなモデルにとって重要です。

この時点で、PII が何であるかを理解しました。PII は、ディザリング、統合、ColorShift、センタリング、スケーリングの手法を組み合わせ、その結果を「プラグイン反転」と名付けます。

これは、任意の微分可能モデル (ViT および MLP を含む) に適用でき、固定ハイパーパラメータのセットのみを必要とします。

さまざまなネットワークアーキテクチャに適用可能

では、PII の効果は何でしょうか?

実験結果は、PII がさまざまなモデルに適用できることを示しています。研究者がすべてのケースで PII パラメータに同じ設定を使用したことを強調することが重要です。

図 6 には、CNN、ViT、MLP の例を含む、さまざまなアーキテクチャの Volcano クラスを反転して生成された画像が示されています。

さまざまなニューラルネットワークによって生成される画像の品質は異なりますが、それらはすべて、識別可能で適切に配置された視覚情報を含んでいます。

図 7 では、研究者らは、いくつかの任意の ImageNet クラスについて、各主要アーキテクチャタイプの代表から PII によって生成された画像も示しています。

ご覧のとおり、各行には独自の視覚スタイルがあり、モデル反転を使用してさまざまなモデルの学習情報を理解できることがわかります。

図 8 では、著者らは PII を使用して、ImageNet でトレーニングされ、CIFAR-100 で微調整された ViT モデルを反転しています。

図9はCIFAR-10で微調整されたモデルの逆解析結果を示しています。

新しい手法を定量的に評価するために、著者らは事前学習済みの ViT モデルと事前学習済みの ResMLP モデルを反転し、PII を使用して各クラスの画像を生成し、DeepDream を使用して同じ操作を実行しました。

これらの画像は、事前にトレーニングされたさまざまなモデルを使用して分類されます。

表 1 には、これらのモデルの平均トップ 1 およびトップ 5 の分類精度と、各方法で生成された画像の Inception スコアが含まれています。

図 10 は、PII と DeepInversion によって生成された任意のカテゴリの画像を示しています。

<<: ちょうど今、ビートルズはAIがプロデュースした「最後の」新曲をリリースした。

>>: 文脈学習 = 対照学習?人民大学が ICL 推論の背後にある暗黙の更新メカニズムを明らかに: 勾配は更新されるのか? 「さらに」

ブログ

AIが生成した写真は奇妙すぎますか?メリーランド大学とニューヨーク大学が共同でニューラルネットワークを解析、CLIPモデルのニューロンは頭蓋骨に似ている

モデル反転、畳み込みネットワークViTは適用されません

新しいタイプの逆転 - PII

さまざまなネットワークアーキテクチャに適用可能

【文字列処理アルゴリズム】回文判定のアルゴリズム設計とCコード実装

Pythonを使用して機械学習モデルを作成する方法

Julia vs Python: 2019 年に機械学習でナンバー 1 になるプログラミング言語はどれでしょうか?

映画の好みを予測しますか?オートエンコーダを使用して協調フィルタリングを実装する方法

Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

AI が大学入試のエッセイのテーマを予測: 科学、形而上学、それとも誇大広告?

スマートフォンの代替品？元アップルデザイナーが699ドルの人工知能ブローチ「AI Pin」を発売

推薦する

Javaは一般的な組み合わせアルゴリズムを実装する

諸刃の剣、顔認識技術はどのように発展すべきか？

データサイエンスプロジェクトに Scikit-learn Python ライブラリを使用する方法

マスク氏とクック氏は秘密協定を結んだのか？アップルは「アップル税」でテスラに数百万ドルの節約をもたらす

人工知能は飛躍の準備ができており、セキュリティは機会と課題に直面している

ビジネスにおける人工知能の主な応用

MarketsandMarkets: AI ロボット市場は 2026 年までに 353 億ドルに達する

脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド

分散ストレージシステムにおけるDHTアルゴリズムの改善

2030年までに、仕事の70％が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか？

OpenAIをターゲットに！元Google CEOがAI+サイエンスのムーンショット計画を発表

アルゴリズムはあなたが次に何をするかを知っている

IDCレポート：ジェネレーティブAIは爆発的な産業探査の時代に入り、技術供給側は商業化の初期段階にある