第2世代GANネットワークの台頭? DALL·E Miniのグラフィックが恐ろしく、外国人も大興奮!

第2世代GANネットワークの台頭? DALL·E Miniのグラフィックが恐ろしく、外国人も大興奮!

現在、GoogleやOpenAIなどの大手企業が開発したテキストから画像へのモデルは、興味深いニュース記者にとっての糧であり、ミーム愛好家にとっては待望の救いとなっている。 単語を一行入力するだけで、美しいものから面白いものまで、さまざまな画像を生成することができます。手間をかけずに人々の注目を集めることができます。 したがって、DALL·E シリーズと Imagen は、長い干ばつの後の救いとなる、また一家の大黒柱となるために必要な特性を備えています。ただし、その利用可能性は限られており、いつでも無制限に配布できる特典ではありません。 2022年6月中旬、Hugging Faceは、DALL·Eインターフェースの使いやすくシンプルなバージョンであるDALL·E Miniを、ネットワーク全体のすべてのユーザーに無料でリリースしました。当然のことながら、さまざまなソーシャルメディアサイトで創作の波が巻き起こりました。

 

DALL·E ミニ創作ブーム:面白い、怖い

現在、さまざまなSNSで「DALL·E Miniで遊んでいて楽しい、遊んでいると面白くてやめられない」という声が上がっています。どうすればいいでしょうか? まるで「スケートボードにウンチ」のように、擦って擦って、悪魔のペースのようです。

種の境界を破った「シマウマのコーギー版」など、「より普通の作品」を創作することを好む人もいます。

もし古代の官僚たちがこれらの資料を持っていたら、アフリカのキリンを神話上の獣である麒麟に作り変えるのにそれほど苦労する必要はなかっただろう。 GitHub のプログラマーたちは自分の仕事に忠実で、公式 Twitter アカウントに「コンピューターでプログラミングするリス」の生成された作品を投稿しました。

 

『ゴジラの法廷場面スケッチ』は、英語圏の新聞の非公開の裁判報道のスケッチ風によく似ています。

 

「ケアベアがコンビニを強盗する。」なぜ漫画のアイドルはここまで堕落してしまったのか?クマの本質が歪んだせいか、それとも道徳心が失われたせいか?

 

さらに、DALL・E Miniは、「野生の道を歩く神獣を捉えた」画像の生成においても優れた成果を上げました。 これは「野生の小道を歩く小さな恐竜をカメラが捉えた」ものです。

 

これは「トレードマークのロゴをつけて野生の小道を歩く Duolingo のオウムをカメラが撮影したもの」です。

  

DALL·E Mini によって生成されたこれらの歩く神話上の獣の絵は、すべて孤独で荒涼とした背中を持っています。ただし、これは AI がシミュレートした低照度撮影効果である可能性があります。 編集部のみんなも真似して「草泥馬が道を散歩している」と、とても明るく楽しい雰囲気になりました。

 

DALL·E Mini が制作した神や人間の絵は、神や獣の絵よりも劣っていません。 たとえば、この「イエスの激しいブレイクダンス」の写真では、イエスがこんなにも体の柔軟性に優れているとは知りませんでした。さまざまなフィットネス ウェブサイトの「主と一緒にストレッチ体操」の広告は、何かに基づいているようです。

  

また、教会のアイコンの窓ガラスと印象派の絵画のスタイルを本当に組み合わせた「ステンドグラスの上のラッパー・ドッグ」の写真もあります。

 

現在、映画やテレビ業界では、DALL·E Mini を使用して登場人物をパロディ化することが流行しています。 以下はスターウォーズの世界からの「R2D2の洗礼」です。おそらく、スターウォーズの世界の物理法則や化学法則は現実世界のそれとは異なっているため、ロボットは電気を漏らしたり、水で洗っても錆びたりしないのでしょう。

  

同じくスターウォーズの世界から、「チゼルアイスで釣りをするダースベイダー」。ダースベイダーは本当に哀れです。彼は主人に切り刻まれ、火山浴をするために溶岩に投げ込まれました。身体障害者になった後、彼は自分の息子に追われて殺されました。身体障害者は人工呼吸器で力を習得した後、地面に落ちてエスキモーと商売を競いました...

  

「ウォルター・ホワイトが誤ってどうぶつの森の世界に入り込んだ」というこの写真もあり、ハゲで孤独で絶望的な麻薬王が突然かわいくなりました。 任天堂が2000年代に「どうぶつの森」を実際に発売しなかったのは残念です。そうでなければ、ウォルター・ホワイトは、家族を養うために物理的な青い氷のような製品を作るために一生懸命働くよりも、「どうぶつの森」での仮想取引を通じてお金を稼ぐ方がはるかに簡単で手間がかからないことに気付いたでしょう。 「ポルノを拒否、麻薬を拒否、ポルノとギャンブルと麻薬を拒否~」と大声で歌いましょう。

 

「スーパーマーケットで母親を探しているサノス」というこの写真は、まさにキャラクターの核心にぴったりで、ドラマの分野における非常にプロフェッショナルな解釈です。 不幸なときは大量虐殺を犯し、何かに同意できないときは宇宙を破壊します。これは、母親が見つからないと泣きわめき、癇癪を起こす巨大な赤ちゃんの性格です。

  

しかし、これらの作品はどれも味付けが薄く、クトゥルフ愛好家の味付けが濃い作品に比べると単純に味気ない。 たとえば、この「口裂けジョーカーに扮するイーロン・マスク」の写真はちょっと怖いです。

 

「悪魔がバスケットボールをする」。この写真を見た後、編集者は番組「ストレンジャー・シングス」を追い続ける勇気が本当になくなった。

  

この作品には、ジェイソン・マスクがブリトーを食べている写真など、さまざまなホラー映画の主人公たちも登場する。

  

「エルム街の悪夢」の殺人鬼がパスタを食べている写真もあります。この写真は、編集者がDVD時代にこれらのホラー映画を見て死ぬほど怖がっていた若い頃を思い出すほど怖いです。

 

しかし、ゴヤの「サターンが息子を食べる」に登場するカエルのカーミットを描いたこの絵画のように、人々を怖がらせるという点では、現代の大衆文学や芸術は古典芸術にやや劣っています。 AI は現代の漫画と 19 世紀の表現主義の油絵を組み合わせており、初めて見る人は本当に怖がって冷や汗をかくかもしれません。

 

「マクドナルドにチェックインする死神」の写真もあります。これを見た後、あなたは今後、仕事や学校に遅刻する勇気がありますか?

  

デモにはたった 60 行のコードしかありません。

もちろん、DALL·E シリーズの開発を注意深く追っている読者は、DALL·E Mini で生成された画像と以前の大型 DALL·E モデルで生成された画像の間に明らかな違いがあることに気付くでしょう。DALL·E Mini で生成されたポートレートの顔は、オリジナルの DALL·E モデルで生成されたものよりもぼやけています。 DALL·E Mini プロジェクトのメイン開発者である Boris Dayma 氏は、開発ノートで次のように説明しています。「これは、人間に優しい、構成を簡素化したバージョンです。デモには 60 行のコードしかないので、機能が少ないのは当然です。」

以下は、Boris Dayma 氏がメモに書いたプロジェクトの説明です。 プロジェクトの具体的な実装を見てみましょう。テキストに基づいて対応する画像が生成されます。

シンプルな文章の後に、空間で点滅するアボカドのアームチェアが続きます。モデルは 3 つのデータ セットを使用します。

1. 300 万の画像とキャプションのペアを含む「概念キャプション データセット」

2. 「YFCC100M」の Open AI サブセットには約 1,500 万枚の画像が含まれていますが、保存スペースを考慮して、著者はさらに 200 万枚の画像をダウンサンプリングしました。タイトルとテキストの説明の両方をラベルとして使用し、対応する HTML タグ、改行、余分なスペースを削除します。

3. 「Conceptual 12M」には、1,200 万の画像とタイトルのペアが含まれています。

トレーニングフェーズ中:

1. まず、画像は VQGAN エンコーダーによってエンコードされ、トークン シーケンスに変換されます。

2. 画像に対応するテキスト記述は BART エンコーダによってエンコードされます。

3. BART エンコーダーの出力と VQGAN エンコーダーによってエンコードされたシーケンス トークンは、次のトークン シーケンスを予測することを目的とした自己回帰モデルである BART デコーダーに送られます。

4. 損失関数はクロスエントロピー損失であり、モデルによって予測された画像エンコード結果と VQGAN の実際の画像エンコード間の損失値を計算するために使用されます。

推論段階では、著者は短いラベルのみを使用して、対応する画像を生成しようとしました。具体的なプロセスは次のとおりです。

1. タグは BART エンコーダによってエンコードされます。

2. <BOS> 特別なシーケンス マーカーである開始マーカーが BART デコーダーに送信されます。

3. BARTデコーダーが次のトークンで予測した分布に基づいて、画像トークンが順番にサンプリングされます。

4. 画像トークンのシーケンスはデコードのために VQGAN デコーダーに送られます。

5. 最後に、「CLIP」が最適な生成結果を選択します。

次に、VQGAN 画像エンコーダーとデコーダーがどのように動作するかを見てみましょう。トランスフォーマーモデルは皆さんもよくご存知だと思います。誕生以来、NLP 分野だけでなく、CV 分野の畳み込み CNN ネットワークでも主流となっています。 著者は VQGAN を使用して、画像を Transformer モデルで直接使用できる個別のトークン シーケンスにエンコードします。 ピクセル値のシーケンスを使用するため、離散値の埋め込みスペースが大きすぎて、最終的にはモデルをトレーニングして自己注意層のメモリ要件を満たすことが困難になります。

VQGAN は、GAN の知覚損失と識別損失を組み合わせて、ピクセルの「コードブック」を学習します。エンコーダーは、「コードブック」に対応するインデックス値を出力します。 画像がトークンのシーケンスにエンコードされると、任意の Transformer モデルで使用できるようになります。 このモデルでは、著者らは圧縮係数 f=16 (幅と高さの 4 つのブロックをそれぞれ 2 で割った値) を使用して、サイズ 16,384 の語彙から画像を 16x16=256 の個別のトークンにエンコードします。デコードされた画像は 256x256 (各辺 16x16) です。 VQGAN の詳細については、「高解像度画像合成のためのトランスフォーマーの使用」を参照してください。

Seq2Seq モデルは、トークン シーケンスを別のトークン シーケンスに変換し、通常は NLP で翻訳、要約、対話モデリングなどのタスクに使用されます。 画像が個別のトークンにエンコードされている場合、同じ考え方を CV ドメインに転送できます。 このモデルは BART を使用しており、作成者は元のアーキテクチャを微調整しただけです。

エンコーダーとデコーダー用に個別の埋め込みレイヤーが作成されます (通常、入力と出力のタイプが同じ場合は共有できます)。

2. デコーダーの入力と出力の形状を、VQGAN のサイズと一致するように調整します (この手順では中間埋め込みレイヤーは必要ありません)。

3. 必須生成シーケンスには 256 個のトークンが含まれます (シーケンスの開始マーカーと終了マーカーである <BOS> と <EOS> は含まれません)。

CLIP は、画像とテキストの関係を確立するために使用され、画像とテキストのペアの埋め込み間の積 (コサイン類似度、つまり正のサンプル) を最大化し、無関係なペア間の積 (つまり負のサンプル) を最小化する対照学習を使用してトレーニングされます。 画像を生成する際、著者らはモデルのロジット分布に基づいて画像ラベルをランダムにサンプリングしますが、その結果、サンプルが異なり、生成された画像の品質に一貫性がなくなります。 CLIP を使用すると、生成された画像を入力の説明に対してスコア付けし、最適な生成サンプルを選択できます。推論段階では、OpenAI の事前トレーニング済みバージョンが直接使用されます。

では、CLIP は OpenAI DAL E とどう違うのでしょうか? DAL に関するすべての詳細は公表されていませんが、著者らが考える主な違いは次のとおりです。

1. DALL E は、GPT-3 の 120 億パラメータ バージョンを使用します。比較すると、著者らのモデルは 27 倍大きく、約 4 億個のパラメータを持ちます。

2. 著者らは事前トレーニング済みのモデル(VQGAN、BART エンコーダー、CLIP)を広範に使用しましたが、OpenAI はすべてのモデルをゼロからトレーニングする必要がありました。モデル アーキテクチャでは、利用可能な事前トレーニング済みモデルとその効率を考慮に入れます。

3. DALL·E は、より少ない語彙 (8,192 対 16,384) からより多くのトークン (1,024 対 256) を使用して画像をエンコードします。

4. DALLE は VQVAE を使用しますが、著者は VQGAN を使用します。 DALL·E は、著者が Seq2Seq エンコーダーとデコーダーに分割すると、テキストと画像を単一のデータ ストリームとして読み取ります。これにより、テキストと画像に別々の語彙を使用することもできます。

5. DALL E は自己回帰モデルを通じてテキストを読み取りますが、著者らは双方向エンコーダーを使用します。

6. DALLE は 2 億 5000 万組の画像とテキストでトレーニングしましたが、著者らは 1500 万組しか使用しませんでした。の。

7. DALL·E は、テキストをエンコードするために、より少ないトークン (最大 256 対 1024) とより小さい語彙 (16384 対 50264) を使用します。 VQGAN のトレーニングでは、まず圧縮係数 f=16、語彙サイズ 16,384 で ImageNet で事前トレーニングされたチェックポイントから始めました。 事前トレーニング済みのチェックポイントは、幅広い範囲の画像をエンコードするのに非常に効率的ですが、人物や顔のエンコードには適していません (ImageNet では珍しいため)。そのため、著者は 2 x RTX A6000 クラウド インスタンスで約 20 時間かけて微調整することにしました。 明らかに、顔に生成された画像の品質はあまり改善されていませんが、これは「モデルの崩壊」が原因である可能性があります。 モデルのトレーニングが完了したら、次のステージのために Pytorch モデルを JAX に変換します。

トレーニング DALL·E Mini: このモデルは JAX を使用してプログラムされており、TPU を最大限に活用します。 著者らは、データの読み込みを高速化するために、画像エンコーダーを使用してすべての画像を事前にエンコードしました。 トレーニング中に、著者らは実現可能性の高いいくつかのパラメータをすぐに決定しました。

1. 各ステップで、各 TPU のバッチ サイズは 56 であり、これは各 TPU で使用可能な最大メモリです。

2. 勾配累積: 有効なバッチ サイズは、更新ごとに 56 × 8 TPU チップ × 8 ステップ = 3,584 枚の画像です。

3. オプティマイザ Adafactor のメモリ効率により、より大きなバッチ サイズを使用できます。

4. 2000 ステップの「ウォームアップ」と線形に減少する学習率。 著者は、ハイパーパラメータ検索を開始してモデルの適切な学習率を見つけるのにほぼ半日かかりました。 すべての NB モデルの背後には、ハイパーパラメータを見つけるための骨の折れるプロセスがあると考えられます。 著者による最初の調査の後、長い期間にわたっていくつかの異なる学習率が試され、最終的に 0.005 に落ち着きました。

<<:  コインの端を歩くこともできます!陸上最小のカニ型ロボットが開発され、将来的には低侵襲手術に利用できるようになる。

>>:  画像セグメンテーションのためのディープラーニング: ネットワークアーキテクチャ設計の概要

ブログ    
ブログ    
ブログ    

推薦する

中国の顔認識技術が世界を震撼させている! (顔認証調査報告書を添付します)

顔認識は皆さんもよくご存知だと思います。過去2年間、顔認識技術の急速な発展に伴い、「顔スキャン」は徐...

ほとんどの企業はユーザーの同意を得ずに顔認識機能を使用している

顔認証機能の利用にあたり、利用者の同意を得ていない企業が半数近くあるというデータもある。ビッグデータ...

XiaomiのFALSRアルゴリズムが正式にオープンソース化され、画像超解像エンジニアリングアプリケーションに大きな進歩をもたらしました。

本日、Xiaomi は、弾性探索 (マクロ + ミクロ) に基づく超解像で驚くべき結果を達成した新し...

...

このマウスはFPSゲームのプレイ方法を自ら学習し、トレーニングの精度はプロのプレイヤーと同等です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人気の4D Radarオープンソースデータの概要

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Pytorch の最も重要な 9 つの操作! ! !

今日は、pytorch についてお話します。今日は、9 つ​​の最も重要な pytorch 操作をま...

顔スキャンの時代、顔認識起業家の進むべき道

[[205201]] 9月26日、北京市内の中学校で、顔認証システムで本人確認がされた受験者が模擬試...

Java プログラミング スキル - データ構造とアルゴリズム「マージ ソート」

[[393503]]基本的な紹介マージソートは、マージの考え方を使用するソート方法です。このアルゴ...

統計分析と人工知能の9つの有名な大惨事

2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言しました...

...

...

無料の Python 機械学習コース パート 2: 多重線形回帰

Python で任意の数の変数に対する多重線形回帰をゼロから開発する方法を学びます。線形回帰はおそら...

ネットワーク人工知能とは何ですか?

今日、ますます多くの企業が人工知能 (AI) とネットワークの相乗効果を活用しています。ユーザーデバ...

...