AIビジュアルクロスワードパズルが大ヒット！モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者：最近最もクールな拡散モデル

AIが描いたマリリン・モンローが180°回転してアインシュタインに？！

これは、最近ソーシャルメディアで話題になっている拡散モデルの錯視絵画です。AI に 2 つの異なるプロンプトセットを与えるだけで、AI が絵を描いてくれます。

まったく異なるオブジェクトも使用できます。たとえば、色を反転すると男性が魔法のように女性に変身できます。

単語を反転させて新しい効果を作成することもできます。1 回の回転で、ハッピーやホリデーなどの効果を作成できます。

これはミシガン大学による新しい「視覚パズル」研究であることが判明しました。論文が発表されるとすぐに、Hacker News で人気となり、人気は 800 近くにまで急上昇しました。

NVIDIA のシニア AI 科学者 Jim Fan 氏は次のように賞賛しています。

これは最近見た中で最もクールな拡散モデルです!

一部のネットユーザーは嘆いた。

これは、フラクタル圧縮に取り組んだときの私の経験を思い出させます。私はいつもそれを純粋な芸術だと考えていました。

ご存知のように、回転、色の反転、変形を経て新しいテーマを表現する絵画を作成するには、画家が色、形、空間について一定の理解を持っている必要があります。

今ではAIでもこのような効果を実現できるようになりました。どのように実現するのでしょうか？実際効果はそんなに良いのでしょうか？

私たちはそれを試し、その背後にある原理も探求しました。

Colabを使って直接試すことができます

このモデルを使用して、正面から見ると山のように見え、背面から見ると都市のスカイラインのように見えるローポリスタイルの絵画のセットを描きました。

同時に、ChatGPT(DALL・E-3)に描画を試みてもらいましたが、結果は明瞭度が増す以外に利点はないように見えました。

作者自身が表現する効果はより豊かで刺激的です。

雪山を90度回転させると馬になり、ダイニングテーブルを角度を変えると滝になります...

最も興味深いのは下の写真です。上下左右の 4 つの角度から見ると、各方向の内容が異なります。

（読者の皆さんにテストです：この 4 匹の動物が何であるかわかりますか？）

ウサギを初期状態として、反時計回りに 90 度回転するたびに、鳥、キリン、テディベアが順番に表示されます。

以下の 2 つの図では、4 つの方向のそれぞれに「新しいコンテンツ」はありませんが、それでも 3 つの異なる方向が作成されます。

回転に加えて、画像をパズルのピースに切り分けて新しいコンテンツに再構成したり、ピクセルレベルまで直接分解したりすることもできます。

画風も多彩で、水彩画、油絵、水墨画、線画など、あらゆるものが揃っています。

では、このモデルはどこでプレイできるのでしょうか?

より多くのネットユーザーがこの新しいおもちゃを体験できるように、著者はColabノートブックを用意しました。

ただし、Colab の T4 の無料版はあまり有能ではなく、V100 ではメモリ制限を超えることがあるため、安定して動作させるには A100 が必要です。

作者自身も、無料版が開発を促進できると感じた人はすぐに知らせてほしいと述べています。

話題に戻ると、コードの最初の行が実行された後、Hugging Face トークンを入力して取得アドレスを指定するように求められます。

同時に、次の手順に進む前に、DeepFloyd プロジェクトページにアクセスしてユーザー契約に同意する必要があります。

準備が完了したら、3 つのコード部分を順番に実行して、環境の展開を完了します。

著者はまだモデルのグラフィカルインターフェイスを設計していないことに注意してください。効果の選択とプロンプトワードの変更には、手動でコードを調整する必要があります。

著者は注釈に 3 つの効果を記載しています。必要な効果を使用する場合は、コメントを解除し (その行の前の # 記号を削除)、使用していない効果を削除またはコメントアウトします (# 記号を追加)。

ここでリストされている 3 つのエフェクトは完全ではありません。他のエフェクトを使用する場合は、コードを手動で置き換えることができます。サポートされている具体的なエフェクトは次のとおりです。

変更後、このコード行を実行すると、プロンプトの単語は同じになります。

変更して実行した後は、生成フェーズに入ることができ、そこで推論ステップ数やガイダンスの強度を変更することもできます。

最初に image_64 関数を実行して小さなイメージを生成し、その後に続くイメージを使用してそれを大きなイメージに変換する必要があることに注意してください。そうしないと、エラーが報告されます。

要約すると、私たちの経験では、このモデルはプロンプト単語に対して比較的高い要件を持っていることがわかりました。

著者もこれを認識し、プロンプトワードに関するヒントをいくつか示しています。

△機械翻訳、参考のみ

それで、研究チームはどのようにしてこれらの効果を達成したのでしょうか?

マルチビュー画像ノイズの「ブレンド」

まず、著者が錯視画像を生成する主な原理を見てみましょう。

異なる視点での異なるプロンプトワードに応じて画像に異なる視覚効果を表現させるために、著者は意図的に「ノイズ平均化」手法を採用し、2 つの視点の画像をさらに融合させました。

簡単に言えば、拡散モデル (DDPM) の核となるのは、トレーニングモデルを通じて画像を「分解して再構築」し、「ノイズマップ」に基づいて新しい画像を生成することです。

したがって、変換前と変換後の異なるプロンプトワードに基づいて異なる画像を生成する場合は、拡散モデルのノイズ除去プロセスを変更する必要があります。

簡単に言えば、元の画像と変換された画像は拡散モデルを使用して「分割」され、「ノイズマップ」が作成され、処理された結果が平均化されて新しい「ノイズマップ」が計算されます。

その後、この新しい「ノイズマップ」に基づいて生成された画像は、変換後に目的の視覚効果を表現できます。

もちろん、この変換の画像処理プロセスは直交変換である必要があり、これは表示効果で見られる回転、変形、断片化、再編成、または色反転操作です。

拡散モデルの選択にも特定の要件があります。

具体的には、この論文では、 DeepFloyd IFを使用して視覚錯覚画像の生成を実現します。

DeepFloyd IF はピクセルベースの拡散モデルです。他の拡散モデルと比較すると、潜在空間やその他の中間表現ではなく、ピクセル空間で直接操作できます。

これにより、画像のローカル情報をより適切に処理できるようになり、特に低解像度の画像を生成するのに役立ちます。

こうすることで、最終的に画像に錯覚効果が現れるようになります。

この方法の有効性を評価するために、著者らは GPT-3.5 に基づいて 50 個の画像変換ペアの独自のデータセットを作成しました。

具体的には、GPT-3.5 に画像スタイル (油絵スタイル、ストリートアートスタイルなど) をランダムに生成させ、次にプロンプトワード (老人と雪山) の 2 セットをランダムに生成し、それをモデルに渡して変換された絵画を生成しました。

以下にランダムな変換をいくつか示します。

次に、CIFAR-10 を使用して、異なるモデル間の画像生成をテストしました。

次に CLIP で評価したところ、変換後の品質は変換前と同じくらい良好であることが示されました。

著者らはまた、この AI が「分解と再構成」に耐えられる画像ブロックの数もテストしました。

分解して再構成した画像は、8×8 から 64×64 までかなり見栄えが良いことがわかりました。

一部のネットユーザーは、この一連の画像変換、特に男性が女性に変わるものに対して深い印象を表明した。

10回くらい観ました。

ネットユーザーの中には、これを芸術作品にして壁に掛けたり、電子インクスクリーンを使ったりすることをすでに考えている人もいる。

しかし、プロの写真家の中には、現段階で AI によって生成された画像はまだ十分ではないと考える人もいる。

よく見てみると、細部が精査に耐えられないことがわかります。鋭い目があれば常に悪いところを見つけることができますが、大衆は気にしません。

さて、AI によって生成されたこの一連の錯視画像についてどう思いますか?他にどこで使用できますか?

<<: AIが材料科学に革命を起こす！ Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

>>: GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63％でした。

旅行業界における人工知能の未来

ブログ

CLIP と LLM を使用したマルチモーダル RAG システムの構築

ブログ

AI ソフトウェアは教育分野にどのように役立つのでしょうか?

ブログ

150億のパラメータと60％以上の初回合格率を持つHuaweiの大規模モデルが登場、コーディング能力はGPT3.5を超える

ブログ

携帯電話がなくてもデジタル人民元が使えます！これらのブラックテクノロジーは

ブログ

研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

ブログ

サイバーセキュリティの専門家が知っておくべきAI用語

ブログ

AIビジュアルクロスワードパズルが大ヒット！モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者：最近最もクールな拡散モデル

Colabを使って直接試すことができます

△機械翻訳、参考のみ

マルチビュー画像ノイズの「ブレンド」

旅行業界における人工知能の未来

CLIP と LLM を使用したマルチモーダル RAG システムの構築

AI ソフトウェアは教育分野にどのように役立つのでしょうか?

150億のパラメータと60％以上の初回合格率を持つHuaweiの大規模モデルが登場、コーディング能力はGPT3.5を超える

携帯電話がなくてもデジタル人民元が使えます！これらのブラックテクノロジーは

研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

サイバーセキュリティの専門家が知っておくべきAI用語

推薦する

検出器がミスを犯し、英語を母国語としない人が書いた英語の記事の半分以上がAIによって書かれたと判定された。

Salesforce が AI 人材を見つけ、スキルを向上させる方法

この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

一時停止トークンを使用して大規模モデルを再トレーニングすると、AIは行動する前によく考えることを学ぶ

ディープラーニングを使用してコンピュータービジョンのすべての作業を完了するにはどうすればよいですか?

90%が赤字、中国の人工知能企業は破産の波に直面する可能性

5歳の子供がAIを圧倒、「遊ぶ」だけで十分か？

農業革命: 世界市場における作物収穫ロボットの台頭

初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

機械学習とは何ですか?機械はどんどん賢くなっていて、もはやSFの世界ではない

マスク氏のChatGPTバージョンが急成長中！ Pythonなしで11人が2か月間懸命に働いた

ジャック・マー、孫丑樹、劉強東、周紅一はいかにして「スマート時代」に突入したのか？

バーチャルシンガー、AIの背後にある見えざる手が音楽の未来を握っているのか？

機械にプライバシーを学習させることはできるでしょうか?