AIビジュアルクロスワードパズルが大ヒット!モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者:最近最もクールな拡散モデル

AIビジュアルクロスワードパズルが大ヒット!モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者:最近最もクールな拡散モデル

AIが描いたマリリン・モンローが180°回転してアインシュタインに? !

これは、最近ソーシャル メディアで話題になっている拡散モデルの錯視絵画です。AI に 2 つの異なるプロンプト セットを与えるだけで、AI が絵を描いてくれます。

まったく異なるオブジェクトも使用できます。たとえば、色を反転すると男性が魔法のように女性に変身できます。

単語を反転させて新しい効果を作成することもできます。1 回の回転で、ハッピーやホリデーなどの効果を作成できます。

これはミシガン大学による新しい「視覚パズル」研究であることが判明しました。論文が発表されるとすぐに、Hacker News で人気となり、人気は 800 近くにまで急上昇しました。

NVIDIA のシニア AI 科学者 Jim Fan 氏は次のように賞賛しています。

これは最近見た中で最もクールな拡散モデルです!

一部のネットユーザーは嘆いた。

これは、フラクタル圧縮に取り組んだときの私の経験を思い出させます。私はいつもそれを純粋な芸術だと考えていました。

ご存知のように、回転、色の反転、変形を経て新しいテーマを表現する絵画を作成するには、画家が色、形、空間について一定の理解を持っている必要があります。

今ではAIでもこのような効果を実現できるようになりました。どのように実現するのでしょうか?実際効果はそんなに良いのでしょうか?

私たちはそれを試し、その背後にある原理も探求しました。

Colabを使って直接試すことができます

このモデルを使用して、正面から見ると山のように見え、背面から見ると都市のスカイラインのように見えるローポリスタイルの絵画のセットを描きました。

同時に、ChatGPT(DALL・E-3)に描画を試みてもらいましたが、結果は明瞭度が増す以外に利点はないように見えました。

作者自身が表現する効果はより豊かで刺激的です。

雪山を90度回転させると馬になり、ダイニングテーブルを角度を変えると滝になります...

最も興味深いのは下の写真です。上下左右の 4 つの角度から見ると、各方向の内容が異なります。

(読者の皆さんにテストです:この 4 匹の動物が何であるかわかりますか?)

ウサギを初期状態として、反時計回りに 90 度回転するたびに、鳥、キリン、テディベアが順番に表示されます。

以下の 2 つの図では、4 つの方向のそれぞれに「新しいコンテンツ」はありませんが、それでも 3 つの異なる方向が作成されます。

回転に加えて、画像をパズルのピースに切り分けて新しいコンテンツに再構成したり、ピクセルレベルまで直接分解したりすることもできます。

画風も多彩で、水彩画、油絵、水墨画、線画など、あらゆるものが揃っています。

では、このモデルはどこでプレイできるのでしょうか?

より多くのネットユーザーがこの新しいおもちゃを体験できるように、著者はColabノートブックを用意しました。

ただし、Colab の T4 の無料版はあまり有能ではなく、V100 ではメモリ制限を超えることがあるため、安定して動作させるには A100 が必要です。

作者自身も、無料版が開発を促進できると感じた人はすぐに知らせてほしいと述べています。

話題に戻ると、コードの最初の行が実行された後、Hugging Face トークンを入力して取得アドレスを指定するように求められます。

同時に、次の手順に進む前に、DeepFloyd プロジェクト ページにアクセスしてユーザー契約に同意する必要があります。

準備が完了したら、3 つのコード部分を順番に実行して、環境の展開を完了します。

著者はまだモデルのグラフィカル インターフェイスを設計していないことに注意してください。効果の選択とプロンプト ワードの変更には、手動でコードを調整する必要があります。

著者は注釈に 3 つの効果を記載しています。必要な効果を使用する場合は、コメントを解除し (その行の前の # 記号を削除)、使用していない効果を削除またはコメント アウトします (# 記号を追加)。

ここでリストされている 3 つのエフェクトは完全ではありません。他のエフェクトを使用する場合は、コードを手動で置き換えることができます。サポートされている具体的なエフェクトは次のとおりです。

変更後、このコード行を実行すると、プロンプトの単語は同じになります。

変更して実行した後は、生成フェーズに入ることができ、そこで推論ステップ数やガイダンスの強度を変更することもできます。

最初に image_64 関数を実行して小さなイメージを生成し、その後に続くイメージを使用してそれを大きなイメージに変換する必要があることに注意してください。そうしないと、エラーが報告されます。

要約すると、私たちの経験では、このモデルはプロンプト単語に対して比較的高い要件を持っていることがわかりました。

著者もこれを認識し、プロンプトワードに関するヒントをいくつか示しています。

△機械翻訳、参考のみ

それで、研究チームはどのようにしてこれらの効果を達成したのでしょうか?

マルチビュー画像ノイズの「ブレンド」

まず、著者が錯視画像を生成する主な原理を見てみましょう。

異なる視点での異なるプロンプトワードに応じて画像に異なる視覚効果を表現させるために、著者は意図的に「ノイズ平均化」手法を採用し、2 つの視点の画像をさらに融合させました。

簡単に言えば、拡散モデル (DDPM) の核となるのは、トレーニング モデルを通じて画像を「分解して再構築」し、「ノイズ マップ」に基づいて新しい画像を生成することです。

したがって、変換前と変換後の異なるプロンプトワードに基づいて異なる画像を生成する場合は、拡散モデルのノイズ除去プロセスを変更する必要があります。

簡単に言えば、元の画像と変換された画像は拡散モデルを使用して「分割」され、「ノイズ マップ」が作成され、処理された結果が平均化されて新しい「ノイズ マップ」が計算されます。

その後、この新しい「ノイズ マップ」に基づいて生成された画像は、変換後に目的の視覚効果を表現できます。

もちろん、この変換の画像処理プロセスは直交変換である必要があり、これは表示効果で見られる回転、変形、断片化、再編成、または色反転操作です。

拡散モデルの選択にも特定の要件があります。

具体的には、この論文では、 DeepFloyd IFを使用して視覚錯覚画像の生成を実現します。

DeepFloyd IF はピクセルベースの拡散モデルです。他の拡散モデルと比較すると、潜在空間やその他の中間表現ではなく、ピクセル空間で直接操作できます。

これにより、画像のローカル情報をより適切に処理できるようになり、特に低解像度の画像を生成するのに役立ちます。

こうすることで、最終的に画像に錯覚効果が現れるようになります。

この方法の有効性を評価するために、著者らは GPT-3.5 に基づいて 50 個の画像変換ペアの独自のデータセットを作成しました。

具体的には、GPT-3.5 に画像スタイル (油絵スタイル、ストリート アート スタイルなど) をランダムに生成させ、次にプロンプ​​ト ワード (老人と雪山) の 2 セットをランダムに生成し、それをモデルに渡して変換された絵画を生成しました。

以下にランダムな変換をいくつか示します。

次に、CIFAR-10 を使用して、異なるモデル間の画像生成をテストしました。

次に CLIP で評価したところ、変換後の品質は変換前と同じくらい良好であることが示されました。

著者らはまた、この AI が「分解と再構成」に耐えられる画像ブロックの数もテストしました。

分解して再構成した画像は、8×8 から 64×64 までかなり見栄えが良いことがわかりました。

一部のネットユーザーは、この一連の画像変換、特に男性が女性に変わるものに対して深い印象を表明した。

10回くらい観ました。

ネットユーザーの中には、これを芸術作品にして壁に掛けたり、電子インクスクリーンを使ったりすることをすでに考えている人もいる。

しかし、プロの写真家の中には、現段階で AI によって生成された画像はまだ十分ではないと考える人もいる。

よく見てみると、細部が精査に耐えられないことがわかります。鋭い目があれば常に悪いところを見つけることができますが、大衆は気にしません。

さて、AI によって生成されたこの一連の錯視画像についてどう思いますか?他にどこで使用できますか?

<<:  AIが材料科学に革命を起こす! Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

>>:  GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63%でした。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

エッジ AI とエッジ コンピューティングとは何ですか?

[51CTO.com クイック翻訳] エッジ AI は、人工知能の分野で注目を集めている新しい分野...

人工知能技術の発展の概要

人工知能は、コンピュータサイエンス業界のトップテクノロジーの一つとして、1956年にダートマス会議で...

ハーバード大学とMITが協力し、新型コロナウイルスに遭遇すると自動的に光るスマートマスクを開発

[[326611]] 「新型コロナウイルスにさらされると、マスクが自動的に点灯し、検査員に警告を発し...

開発者にとって必須の 5 つの AI ツール、お見逃しなく!

今日のペースが速く、競争が激しい時代では、作業効率と製品品質の向上が特に重要になっています。ソフトウ...

このデータ サイエンスの間違いに注意し、30 時間以上の無駄な作業を回避しましょう...

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

...

デジタル産業を支援し、インテリジェントな未来をつなぐ――西安航空基地企業「ファーウェイ参入」デジタル変革社長クラス

[51CTO.comからのオリジナル記事]現在、疫病と政治環境の影響により、多くの不確定要素が重なり...

20B大型モデルの性能はLlama2-70Bに匹敵します!完全にオープンソースで、ベースからツールまですべてが明確に整理されています

たった今、国産オープンソースモデルのパラメータ数の記録がまた更新されました! 9月20日、上海人工知...

ベンチャー投資における機械学習の活用方法

過去 20 年間にわたり、Veronica Wu は多くの大きな技術的変化の始まりを目撃してきました...

ディープラーニング + OpenCV、Python でリアルタイムのビデオ オブジェクト検出を実現

OpenCV と Python を使用してライブ ビデオ ストリームでディープラーニング オブジェク...

...

テキストマイニングの詳細: ツール、タスク、問題、解決策

[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており...