Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ？」

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

GoogleとOpenAIは、AIによる創造を許可するかどうかという問題で真っ向から対立している。

ネットワーク全体に衝撃を与えた DALL·E 2 がリリースされてからわずか 1 か月後、Google はImagenという競合企業を競合に送り込みました。

上の写真を比較してください。左側は Google Imagen の参加者が見た「人間の像につまずく猫」で、右側は DALL·E 2 の参加者が同じテーマで作ったものです。

どちらの出場者の作品がテーマにもっと合っていると思いますか?

ネットユーザーが「DALL・E 2は時代遅れ？」と叫ぶのは、この正面からのPKの興奮だけではない。

こういう写真を見ると、AIで生成されたと言わないまでも、二足歩行動物のポージング技術がどんどん進化しているなあとまずため息が出ませんか？

「折り紙：雪の森の中のキツネとユニコーン」と入力すると、Imagen は次のようなものを作成します。

テキストを長くしてみることもできます。

キッチンで生地を作るシェフに扮した、とても幸せそうなふわふわのパンダのこのハイコントラストなポートレートのように、後ろの壁には花の絵が描かれています…（ああ、息を整えさせてください）

Imagen も、すべての要素を備えて簡単に勝利しました。

これを見た機械学習界のネットユーザーは次のように反応した。

まさか、まだ1ヶ月しか経っていないのに、もう更新されているんですか？

ショックを与えるのはやめてください。

この件が有名になると、すぐに広まりました。

見物人たちもすぐに同じことを思いました。

将来的には写真ギャラリーのウェブサイトは必要なくなるかもしれません。

では、Google のこの新しい AI にはどのような独自のスキルがあるのでしょうか?

具体的な詳細については読み進めてください。

「生成」を最適化するよりも「理解」を向上させることが重要

これまでにもテキストから画像への生成を多数紹介してきましたが、基本的には同じルーチンです。

CLIP は、テキスト機能から画像機能へのマッピングを担当し、その後、GAN または拡散モデルをガイドして画像を生成します。

しかし今回、Google Imagen は破壊的な変化を起こした――

純粋な言語モデルを使用すると、テキスト機能のエンコードのみが担当され、テキストを画像に変換する作業は画像生成モデルに任されます。

言語モデル部分はGoogle独自のT5-XXLを使用し、テキストエンコーダーはトレーニング後にフリーズされます。

画像生成部分は一連の拡散モデルであり、最初に低解像度の画像を生成し、次に段階的にスーパーサンプリングします。

これを実行する最大の利点は、高品質の画像やテキストデータよりも純粋なテキストトレーニングデータを取得する方がはるかに簡単になることです。

T5-XXL の C4 トレーニングセットには800 GBのプレーンテキストコーパスが含まれており、そのテキスト理解能力は、限られた画像とテキストのペアでトレーニングされた CLIP よりも強力です。

これは実験データによっても裏付けられています。人間による評価では、T5-XXL は忠実度と意味的整合の点で CLIP よりも優れたパフォーマンスを発揮します。

Google は実験の中で、画像生成モデルを拡大するよりも言語モデルのサイズを拡大する方が最終的な効果に大きな影響を与えることも発見しました。

これを見て、一部のネットユーザーは、Googleが最終的に採用したT5-XXLのパラメータ規模は、最新のPaLM言語モデルの5400億パラメータの1％未満であると指摘しました。PaLMを使用した場合はどうなるのでしょうか？

言語モデルの発見に加えて、Google は Imagen 研究を通じてスケーリングモデルに数多くの最適化を施しました。

まず、分類器を使用しないガイダンスの重みを増やすと、画像とテキストの配置は改善されますが、画像の忠実度は低下します。

解決策は、過飽和を防ぐために各サンプリングステップで動的しきい値を使用することです。

第二に、低解像度の画像にノイズを追加しながら高いガイダンス重みを使用すると、拡散モデルの多様性の欠如を改善できます。

3 つ目は、拡散モデルの従来の構造である U-Net が改良されたことです。新しいEfficient U-Net では、メモリの使用効率、収束速度、推論時間が向上しています。

言語理解と画像生成の両方が改善されたため、Imagen モデル全体の評価も良好でした。

たとえば、トレーニングに COCO データセットを使用せずに、 COCO ベンチマークで新しい SOTA を達成しました。

Imagen の欠点は、COCO テストの人間評価部分でも見つかりました。それは、人間の画像を生成するのが得意ではないということです。

具体的には、人間が写っていない画像は、リアリティの点で人間に高く評価されます。

同時に、Google は、COCO よりも難易度が高く、さまざまなトリッキーなプロンプトを含むテストベンチマークであるDrawBench をリリースしました。

実験の結果、DALL·E 2 では 2 つの色要件が同時に現れる状況を正確に理解することが難しいのに対し、Imagen では問題がないことがわかりました。

「宇宙飛行士に乗る馬」のような直感に反する状況では、どちらもパフォーマンスが悪く、描くことができるのは「馬に乗る宇宙飛行士」だけです。

しかし、イマジェン氏の「ラテアートを作るパンダ」の理解はより正確で、間違えたのは一度だけだった。 DALL·E 2はラテアートの柄すべてにパンダが描かれています。

△「宇宙飛行士が馬に乗る」というのはちょっと直感に反するかもしれない（犬の頭）

画像内にテキストを表示する必要がある場合には、Imagen の方が適しています。

テキストを正しく書くという基本に加えて、テキストに花火の効果を正しく追加することもできます。

AIペインティングはますます人気が高まっている

そういえば、AIペインティングはGoogle発祥です。

2015年、Googleはテキストに基づいて画像を生成するAIの先駆者となったDeepDreamをリリースしました。

△DeepDream作品

しかし、関連技術の真のブレークスルーについて言えば、画期的な出来事は2021年のOpenAIのDALL·Eの登場でしょう。

当時、Andrew Ng氏やKerasの生みの親など多くの大物が推進し、好評を博し、DALL·Eは2021年最初のエキサイティングなAI技術のブレークスルーとさえ呼ばれました。

その後、長年にわたる言語理解モデルと画像生成モデルの技術進歩が「AI絵画」の分野で爆発的に広がり、CLIP+GANやCLIP+拡散モデルの一連の研究と応用がインターネット上で頻繁に流行を巻き起こしました。

それ以来、物事は止められなくなり、技術の更新と反復はますます速くなりました。

DALL·E 2 が初めてリリースされたとき、一部のネットユーザーが新しい SOTA が登場するまでにどれくらいの時間がかかるかを尋ねるアンケートを開始しました。

当時は、数か月から1年以上を選択する人がほとんどでした。

しかし今、Imagen はわずか6 週間で登場しました。

AI ペイント効果がますます強力になるにつれて、その視聴者も拡大し、技術界を突破して世間の注目を集めています。

少し前に、AI ペイントアプリが Apple App Store のグラフィックとデザインのランキングでトップになりました。

最近の最新トレンドとしては、あらゆる分野のデザイナーがMidjourneyやTiamatなどの市販製品の内部テストに応募するために列をなしており、それがソーシャルネットワークに溢れている。

これにより、OpenAIやGoogleなどの大企業にも大きなプレッシャーがかかっています。

AI の倫理と公平性を考慮し、DALL·E 2 も Imagen も直接オープンソースではなく、オープン API も備えていません。

彼らはそれぞれ、論文の中でリスクの内容と社会的影響についてもかなりのスペースを割いていました。

OpenAIは内部テストモードを選択しましたが、Googleはさらなる研究と規制を続けており、AIが悪用されないことを確認した後でのみリリースを公開する予定です。

今すぐ Imagen を体験したい場合は、オンラインデモがあります。

与えられたいくつかのプロンプトワードから、さまざまなシーンを自由に組み合わせることができます。

ぜひお試しください〜

デモアドレス:
https://gweb-research-imagen.appspot.com

論文の宛先:
https://gweb-research-imagen.appspot.com/paper.pdf

<<: DeepMindがMuJoCoをオープンソース化！メタは「スケルトンハンド」にクルミをプレイさせるために使用されます

>>: インテリジェント運転の「人材不足」は大学の科目ゲームに閉じ込められている

論文をレビューするための新しい Python プログラム。手動レビューをなくし、arXiv 論文のスコアを自動的に付けます。

ブログ

アプリケーションの利点はたくさんあります！チャットボットは経済の活性化に貢献する

ブログ

Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ？」

「生成」を最適化するよりも「理解」を向上させることが重要

AIペインティングはますます人気が高まっている

論文をレビューするための新しい Python プログラム。手動レビューをなくし、arXiv 論文のスコアを自動的に付けます。

アプリケーションの利点はたくさんあります！チャットボットは経済の活性化に貢献する

AI搭載マシンビジョンの台頭は企業のデータ管理に影響を与える

ストーリーを伝えれば、動画が編集されます。AI による動画編集の自動化により、パンダの目を持つ編集者が解放されます。

Android Things と TensorFlow を使用して IoT に機械学習を適用する方法

初心者が機械学習をすぐに始められるように、Colabリソースの完全なリストはこちらです。

AI時代の企業の変革とイノベーション

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

推薦する

2020 年の人工知能の機会と課題について考える: 誰が勝つでしょうか?

ジャック・マーの未来の3大技術、AI、IoT、ブロックチェーンを理解する

ソラ爆発的人気の裏側｜世界のモデルとは何かを語ろう！

なぜ機械学習モデルの90%が実稼働に至らないのか

機械学習におけるデータ駆動型アルゴリズムの応用

自動運転のスケールアップ問題

データサイエンスが音楽業界に革命を起こす

ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

人工知能は止められない。アドバンテックのWISE-PaaS 3.0がイノベーションを推進

ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

人工知能を活用して社会問題を解決する方法