AIビジュアルクロスワードパズルが大ヒット!モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者:最近最もクールな拡散モデル

AIビジュアルクロスワードパズルが大ヒット!モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者:最近最もクールな拡散モデル

AIが描いたマリリン・モンローが180°回転してアインシュタインに? !

これは、最近ソーシャル メディアで話題になっている拡散モデルの錯視絵画です。AI に 2 つの異なるプロンプト セットを与えるだけで、AI が絵を描いてくれます。

まったく異なるオブジェクトも使用できます。たとえば、色を反転すると男性が魔法のように女性に変身できます。

単語を反転させて新しい効果を作成することもできます。1 回の回転で、ハッピーやホリデーなどの効果を作成できます。

これはミシガン大学による新しい「視覚パズル」研究であることが判明しました。論文が発表されるとすぐに、Hacker News で人気となり、人気は 800 近くにまで急上昇しました。

NVIDIA のシニア AI 科学者 Jim Fan 氏は次のように賞賛しています。

これは最近見た中で最もクールな拡散モデルです!

一部のネットユーザーは嘆いた。

これは、フラクタル圧縮に取り組んだときの私の経験を思い出させます。私はいつもそれを純粋な芸術だと考えていました。

ご存知のように、回転、色の反転、変形を経て新しいテーマを表現する絵画を作成するには、画家が色、形、空間について一定の理解を持っている必要があります。

今ではAIでもこのような効果を実現できるようになりました。どのように実現するのでしょうか?実際効果はそんなに良いのでしょうか?

私たちはそれを試し、その背後にある原理も探求しました。

Colabを使って直接試すことができます

このモデルを使用して、正面から見ると山のように見え、背面から見ると都市のスカイラインのように見えるローポリスタイルの絵画のセットを描きました。

同時に、ChatGPT(DALL・E-3)に描画を試みてもらいましたが、結果は明瞭度が増す以外に利点はないように見えました。

作者自身が表現する効果はより豊かで刺激的です。

雪山を90度回転させると馬になり、ダイニングテーブルを角度を変えると滝になります...

最も興味深いのは下の写真です。上下左右の 4 つの角度から見ると、各方向の内容が異なります。

(読者の皆さんにテストです:この 4 匹の動物が何であるかわかりますか?)

ウサギを初期状態として、反時計回りに 90 度回転するたびに、鳥、キリン、テディベアが順番に表示されます。

以下の 2 つの図では、4 つの方向のそれぞれに「新しいコンテンツ」はありませんが、それでも 3 つの異なる方向が作成されます。

回転に加えて、画像をパズルのピースに切り分けて新しいコンテンツに再構成したり、ピクセルレベルまで直接分解したりすることもできます。

画風も多彩で、水彩画、油絵、水墨画、線画など、あらゆるものが揃っています。

では、このモデルはどこでプレイできるのでしょうか?

より多くのネットユーザーがこの新しいおもちゃを体験できるように、著者はColabノートブックを用意しました。

ただし、Colab の T4 の無料版はあまり有能ではなく、V100 ではメモリ制限を超えることがあるため、安定して動作させるには A100 が必要です。

作者自身も、無料版が開発を促進できると感じた人はすぐに知らせてほしいと述べています。

話題に戻ると、コードの最初の行が実行された後、Hugging Face トークンを入力して取得アドレスを指定するように求められます。

同時に、次の手順に進む前に、DeepFloyd プロジェクト ページにアクセスしてユーザー契約に同意する必要があります。

準備が完了したら、3 つのコード部分を順番に実行して、環境の展開を完了します。

著者はまだモデルのグラフィカル インターフェイスを設計していないことに注意してください。効果の選択とプロンプト ワードの変更には、手動でコードを調整する必要があります。

著者は注釈に 3 つの効果を記載しています。必要な効果を使用する場合は、コメントを解除し (その行の前の # 記号を削除)、使用していない効果を削除またはコメント アウトします (# 記号を追加)。

ここでリストされている 3 つのエフェクトは完全ではありません。他のエフェクトを使用する場合は、コードを手動で置き換えることができます。サポートされている具体的なエフェクトは次のとおりです。

変更後、このコード行を実行すると、プロンプトの単語は同じになります。

変更して実行した後は、生成フェーズに入ることができ、そこで推論ステップ数やガイダンスの強度を変更することもできます。

最初に image_64 関数を実行して小さなイメージを生成し、その後に続くイメージを使用してそれを大きなイメージに変換する必要があることに注意してください。そうしないと、エラーが報告されます。

要約すると、私たちの経験では、このモデルはプロンプト単語に対して比較的高い要件を持っていることがわかりました。

著者もこれを認識し、プロンプトワードに関するヒントをいくつか示しています。

△機械翻訳、参考のみ

それで、研究チームはどのようにしてこれらの効果を達成したのでしょうか?

マルチビュー画像ノイズの「ブレンド」

まず、著者が錯視画像を生成する主な原理を見てみましょう。

異なる視点での異なるプロンプトワードに応じて画像に異なる視覚効果を表現させるために、著者は意図的に「ノイズ平均化」手法を採用し、2 つの視点の画像をさらに融合させました。

簡単に言えば、拡散モデル (DDPM) の核となるのは、トレーニング モデルを通じて画像を「分解して再構築」し、「ノイズ マップ」に基づいて新しい画像を生成することです。

したがって、変換前と変換後の異なるプロンプトワードに基づいて異なる画像を生成する場合は、拡散モデルのノイズ除去プロセスを変更する必要があります。

簡単に言えば、元の画像と変換された画像は拡散モデルを使用して「分割」され、「ノイズ マップ」が作成され、処理された結果が平均化されて新しい「ノイズ マップ」が計算されます。

その後、この新しい「ノイズ マップ」に基づいて生成された画像は、変換後に目的の視覚効果を表現できます。

もちろん、この変換の画像処理プロセスは直交変換である必要があり、これは表示効果で見られる回転、変形、断片化、再編成、または色反転操作です。

拡散モデルの選択にも特定の要件があります。

具体的には、この論文では、 DeepFloyd IFを使用して視覚錯覚画像の生成を実現します。

DeepFloyd IF はピクセルベースの拡散モデルです。他の拡散モデルと比較すると、潜在空間やその他の中間表現ではなく、ピクセル空間で直接操作できます。

これにより、画像のローカル情報をより適切に処理できるようになり、特に低解像度の画像を生成するのに役立ちます。

こうすることで、最終的に画像に錯覚効果が現れるようになります。

この方法の有効性を評価するために、著者らは GPT-3.5 に基づいて 50 個の画像変換ペアの独自のデータセットを作成しました。

具体的には、GPT-3.5 に画像スタイル (油絵スタイル、ストリート アート スタイルなど) をランダムに生成させ、次にプロンプ​​ト ワード (老人と雪山) の 2 セットをランダムに生成し、それをモデルに渡して変換された絵画を生成しました。

以下にランダムな変換をいくつか示します。

次に、CIFAR-10 を使用して、異なるモデル間の画像生成をテストしました。

次に CLIP で評価したところ、変換後の品質は変換前と同じくらい良好であることが示されました。

著者らはまた、この AI が「分解と再構成」に耐えられる画像ブロックの数もテストしました。

分解して再構成した画像は、8×8 から 64×64 までかなり見栄えが良いことがわかりました。

一部のネットユーザーは、この一連の画像変換、特に男性が女性に変わるものに対して深い印象を表明した。

10回くらい観ました。

ネットユーザーの中には、これを芸術作品にして壁に掛けたり、電子インクスクリーンを使ったりすることをすでに考えている人もいる。

しかし、プロの写真家の中には、現段階で AI によって生成された画像はまだ十分ではないと考える人もいる。

よく見てみると、細部が精査に耐えられないことがわかります。鋭い目があれば常に悪いところを見つけることができますが、大衆は気にしません。

さて、AI によって生成されたこの一連の錯視画像についてどう思いますか?他にどこで使用できますか?

<<:  AIが材料科学に革命を起こす! Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

>>:  GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63%でした。

ブログ    
ブログ    

推薦する

...

AI ワークロード向けにデータセンターを最適化する 4 つの方法

AI は、データセンターの雇用市場の変化や、データセンターの監視およびインシデント対応業務の改善など...

形状精度の高い 3D 認識画像合成のためのシェーディング ガイド付き生成暗黙モデル

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

並列コンピューティングの量子化モデルとディープラーニングエンジンへの応用

この世で唯一負けない武術はスピードだ。ディープラーニング モデルをより速くトレーニングする方法は、常...

Facebook が ICCV 2021 で 2 つの 3D モデルを公開。自己監督が究極の答えか?

長い間、CV トレーニングは 2 次元データに限定されてきました。3 次元データのラベル付けにはコス...

言語学からディープラーニングNLPまで、自然言語処理の概要

この記事は、2 つの論文から始まり、自然言語処理の基本的な分類と基本概念を簡単に紹介し、次にディープ...

機械の魂: 未来の工場における AI の応用について

未来の工場はどのようなものになるでしょうか? AI を主要な原動力として、工場はより機敏かつカスタマ...

AIGC教育産業パノラマレポート:AIティーチングアシスタントと家庭教師が現実のものとなり、学習マシンが新たな機会をもたらす

1 年間の急速な反復を経て、業界ではすでに、生成 AI が最初にどの業界に実装されるかについての答え...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT を企業の神経系と考えてください。これは、生産工場のあらゆる場所から貴重な情報を収集し...

幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

[[189965]]ディープラーニングはコンピュータービジョンを変革しました。現在、ほとんどの問題...

RNN の効率は Transformer に匹敵し、Google は 2 つの新しいアーキテクチャをリリース: 同じ規模では Mamba よりも強力

今回、Google DeepMindは基本モデルに新たな動きを見せた。リカレント ニューラル ネット...

...

メーデー休暇中の安全確保のため5G警察ロボットが配備される

[[397258]] 2021年5月1日、「労働節連休」初日、浙江省舟山市公安局普陀区支局東港派出所...

バックトラッキングアルゴリズム: 組み合わせ問題を解決しましょう!

[[379493]]バックトラッキングアルゴリズムをほとんど忘れてしまいましたか?組み合わせ問題を...