AIビジュアルクロスワードパズルが大ヒット!モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者:最近最もクールな拡散モデル

AIビジュアルクロスワードパズルが大ヒット!モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者:最近最もクールな拡散モデル

AIが描いたマリリン・モンローが180°回転してアインシュタインに? !

これは、最近ソーシャル メディアで話題になっている拡散モデルの錯視絵画です。AI に 2 つの異なるプロンプト セットを与えるだけで、AI が絵を描いてくれます。

まったく異なるオブジェクトも使用できます。たとえば、色を反転すると男性が魔法のように女性に変身できます。

単語を反転させて新しい効果を作成することもできます。1 回の回転で、ハッピーやホリデーなどの効果を作成できます。

これはミシガン大学による新しい「視覚パズル」研究であることが判明しました。論文が発表されるとすぐに、Hacker News で人気となり、人気は 800 近くにまで急上昇しました。

NVIDIA のシニア AI 科学者 Jim Fan 氏は次のように賞賛しています。

これは最近見た中で最もクールな拡散モデルです!

一部のネットユーザーは嘆いた。

これは、フラクタル圧縮に取り組んだときの私の経験を思い出させます。私はいつもそれを純粋な芸術だと考えていました。

ご存知のように、回転、色の反転、変形を経て新しいテーマを表現する絵画を作成するには、画家が色、形、空間について一定の理解を持っている必要があります。

今ではAIでもこのような効果を実現できるようになりました。どのように実現するのでしょうか?実際効果はそんなに良いのでしょうか?

私たちはそれを試し、その背後にある原理も探求しました。

Colabを使って直接試すことができます

このモデルを使用して、正面から見ると山のように見え、背面から見ると都市のスカイラインのように見えるローポリスタイルの絵画のセットを描きました。

同時に、ChatGPT(DALL・E-3)に描画を試みてもらいましたが、結果は明瞭度が増す以外に利点はないように見えました。

作者自身が表現する効果はより豊かで刺激的です。

雪山を90度回転させると馬になり、ダイニングテーブルを角度を変えると滝になります...

最も興味深いのは下の写真です。上下左右の 4 つの角度から見ると、各方向の内容が異なります。

(読者の皆さんにテストです:この 4 匹の動物が何であるかわかりますか?)

ウサギを初期状態として、反時計回りに 90 度回転するたびに、鳥、キリン、テディベアが順番に表示されます。

以下の 2 つの図では、4 つの方向のそれぞれに「新しいコンテンツ」はありませんが、それでも 3 つの異なる方向が作成されます。

回転に加えて、画像をパズルのピースに切り分けて新しいコンテンツに再構成したり、ピクセルレベルまで直接分解したりすることもできます。

画風も多彩で、水彩画、油絵、水墨画、線画など、あらゆるものが揃っています。

では、このモデルはどこでプレイできるのでしょうか?

より多くのネットユーザーがこの新しいおもちゃを体験できるように、著者はColabノートブックを用意しました。

ただし、Colab の T4 の無料版はあまり有能ではなく、V100 ではメモリ制限を超えることがあるため、安定して動作させるには A100 が必要です。

作者自身も、無料版が開発を促進できると感じた人はすぐに知らせてほしいと述べています。

話題に戻ると、コードの最初の行が実行された後、Hugging Face トークンを入力して取得アドレスを指定するように求められます。

同時に、次の手順に進む前に、DeepFloyd プロジェクト ページにアクセスしてユーザー契約に同意する必要があります。

準備が完了したら、3 つのコード部分を順番に実行して、環境の展開を完了します。

著者はまだモデルのグラフィカル インターフェイスを設計していないことに注意してください。効果の選択とプロンプト ワードの変更には、手動でコードを調整する必要があります。

著者は注釈に 3 つの効果を記載しています。必要な効果を使用する場合は、コメントを解除し (その行の前の # 記号を削除)、使用していない効果を削除またはコメント アウトします (# 記号を追加)。

ここでリストされている 3 つのエフェクトは完全ではありません。他のエフェクトを使用する場合は、コードを手動で置き換えることができます。サポートされている具体的なエフェクトは次のとおりです。

変更後、このコード行を実行すると、プロンプトの単語は同じになります。

変更して実行した後は、生成フェーズに入ることができ、そこで推論ステップ数やガイダンスの強度を変更することもできます。

最初に image_64 関数を実行して小さなイメージを生成し、その後に続くイメージを使用してそれを大きなイメージに変換する必要があることに注意してください。そうしないと、エラーが報告されます。

要約すると、私たちの経験では、このモデルはプロンプト単語に対して比較的高い要件を持っていることがわかりました。

著者もこれを認識し、プロンプトワードに関するヒントをいくつか示しています。

△機械翻訳、参考のみ

それで、研究チームはどのようにしてこれらの効果を達成したのでしょうか?

マルチビュー画像ノイズの「ブレンド」

まず、著者が錯視画像を生成する主な原理を見てみましょう。

異なる視点での異なるプロンプトワードに応じて画像に異なる視覚効果を表現させるために、著者は意図的に「ノイズ平均化」手法を採用し、2 つの視点の画像をさらに融合させました。

簡単に言えば、拡散モデル (DDPM) の核となるのは、トレーニング モデルを通じて画像を「分解して再構築」し、「ノイズ マップ」に基づいて新しい画像を生成することです。

したがって、変換前と変換後の異なるプロンプトワードに基づいて異なる画像を生成する場合は、拡散モデルのノイズ除去プロセスを変更する必要があります。

簡単に言えば、元の画像と変換された画像は拡散モデルを使用して「分割」され、「ノイズ マップ」が作成され、処理された結果が平均化されて新しい「ノイズ マップ」が計算されます。

その後、この新しい「ノイズ マップ」に基づいて生成された画像は、変換後に目的の視覚効果を表現できます。

もちろん、この変換の画像処理プロセスは直交変換である必要があり、これは表示効果で見られる回転、変形、断片化、再編成、または色反転操作です。

拡散モデルの選択にも特定の要件があります。

具体的には、この論文では、 DeepFloyd IFを使用して視覚錯覚画像の生成を実現します。

DeepFloyd IF はピクセルベースの拡散モデルです。他の拡散モデルと比較すると、潜在空間やその他の中間表現ではなく、ピクセル空間で直接操作できます。

これにより、画像のローカル情報をより適切に処理できるようになり、特に低解像度の画像を生成するのに役立ちます。

こうすることで、最終的に画像に錯覚効果が現れるようになります。

この方法の有効性を評価するために、著者らは GPT-3.5 に基づいて 50 個の画像変換ペアの独自のデータセットを作成しました。

具体的には、GPT-3.5 に画像スタイル (油絵スタイル、ストリート アート スタイルなど) をランダムに生成させ、次にプロンプ​​ト ワード (老人と雪山) の 2 セットをランダムに生成し、それをモデルに渡して変換された絵画を生成しました。

以下にランダムな変換をいくつか示します。

次に、CIFAR-10 を使用して、異なるモデル間の画像生成をテストしました。

次に CLIP で評価したところ、変換後の品質は変換前と同じくらい良好であることが示されました。

著者らはまた、この AI が「分解と再構成」に耐えられる画像ブロックの数もテストしました。

分解して再構成した画像は、8×8 から 64×64 までかなり見栄えが良いことがわかりました。

一部のネットユーザーは、この一連の画像変換、特に男性が女性に変わるものに対して深い印象を表明した。

10回くらい観ました。

ネットユーザーの中には、これを芸術作品にして壁に掛けたり、電子インクスクリーンを使ったりすることをすでに考えている人もいる。

しかし、プロの写真家の中には、現段階で AI によって生成された画像はまだ十分ではないと考える人もいる。

よく見てみると、細部が精査に耐えられないことがわかります。鋭い目があれば常に悪いところを見つけることができますが、大衆は気にしません。

さて、AI によって生成されたこの一連の錯視画像についてどう思いますか?他にどこで使用できますか?

<<:  AIが材料科学に革命を起こす! Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

>>:  GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63%でした。

ブログ    
ブログ    
ブログ    

推薦する

...

検出器がミスを犯し、英語を母国語としない人が書いた英語の記事の半分以上がAIによって書かれたと判定された。

7月13日、スタンフォード大学の研究者らは、英語を母国語としない人が英語の語彙力を十分持っていない...

Salesforce が AI 人材を見つけ、スキルを向上させる方法

[[415289]] AI、機械学習、データサイエンスに関連するスキルの需要は依然として高く、企業は...

この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

ディープラーニングは人工知能(AI)分野の継続的な発展を促進し、多くの技術的進歩を達成しました。同時...

一時停止トークンを使用して大規模モデルを再トレーニングすると、AIは行動する前によく考えることを学ぶ

ChatGPT に回答を出す前に手順について考えてもらうことで、精度を向上させることができます。では...

ディープラーニングを使用してコンピュータービジョンのすべての作業を完了するにはどうすればよいですか?

コンピュータービジョンをやってみたいですか?最近では、ディープラーニングが主流となっています。大規模...

90%が赤字、中国の人工知能企業は破産の波に直面する可能性

2017年に人工知能が国家戦略目標となって以来、関連産業は急速な発展の機会を迎え、世界で最も収益性の...

5歳の子供がAIを圧倒、「遊ぶ」だけで十分か?

この能力がアルゴリズムによって習得された後、AlphaGo は人間のチェスの名人を破り、OpenAI...

農業革命: 世界市場における作物収穫ロボットの台頭

農業の世界は、世界の市場に革命を起こすであろう驚異的な技術である作物収穫ロボットの登場により、パラダ...

初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

自然言語処理は AI の最高峰であり、コーパス前処理は自然言語処理の基礎です。 [[336067]]...

機械学習とは何ですか?機械はどんどん賢くなっていて、もはやSFの世界ではない

[[351468]]機械学習 (ML) は、一連のデータに基づいて予測を行うようにコンピューター シ...

マスク氏のChatGPTバージョンが急成長中! Pythonなしで11人が2か月間懸命に働いた

マスク氏は突如行動を起こし、OpenAI開発者会議の前に大型モデルGrokをリリースした。他の Ch...

ジャック・マー、孫丑樹、劉強東、周紅一はいかにして「スマート時代」に突入したのか?

近年、人工知能は大手企業の重要な研究分野となり、「政府活動報告」にも記載されるようになりました。これ...

バーチャルシンガー、AIの背後にある見えざる手が音楽の未来を握っているのか?

19 世紀以前、人々が集まるときには、人生の物語を語り、感情や考えを伝えるために、常に最も原始的な...

機械にプライバシーを学習させることはできるでしょうか?

機械学習では、モデルをトレーニングするために大量のデータが必要であり、通常、このトレーニング データ...