Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ?」

Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ?」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

GoogleとOpenAIは、AIによる創造を許可するかどうかという問題で真っ向から対立している。

ネットワーク全体に衝撃を与えた DALL·E 2 がリリースされてからわずか 1 か月後、Google はImagenという競合企業を競合に送り込みました。

上の写真を比較してください。左側は Google Imagen の参加者が見た「人間の像につまずく猫」で、右側は DALL·E 2 の参加者が同じテーマで作ったものです。

どちらの出場者の作品がテーマにもっと合っていると思いますか?

ネットユーザーが「DALL・E 2は時代遅れ?」と叫ぶのは、この正面からのPKの興奮だけではない。

こういう写真を見ると、AIで生成されたと言わないまでも、二足歩行動物のポージング技術がどんどん進化しているなあとまずため息が出ませんか?

「折り紙:雪の森の中のキツネとユニコーン」と入力すると、Imagen は次のようなものを作成します。

テキストを長くしてみることもできます。

キッチンで生地を作るシェフに扮した、とても幸せそうなふわふわのパンダのこのハイコントラストなポートレートのように、後ろの壁には花の絵が描かれています…(ああ、息を整えさせてください)

Imagen も、すべての要素を備えて簡単に勝利しました。

これを見た機械学習界のネットユーザーは次のように反応した。

まさか、まだ1ヶ月しか経っていないのに、もう更新されているんですか?

ショックを与えるのはやめてください。

この件が有名になると、すぐに広まりました。

見物人たちもすぐに同じことを思いました。

将来的には写真ギャラリーのウェブサイトは必要なくなるかもしれません。

では、Google のこの新しい AI にはどのような独自のスキルがあるのでしょうか?

具体的な詳細については読み進めてください。

「生成」を最適化するよりも「理解」を向上させることが重要

これまでにもテキストから画像への生成を多数紹介してきましたが、基本的には同じルーチンです。

CLIP は、テキスト機能から画像機能へのマッピングを担当し、その後、GAN または拡散モデルをガイドして画像を生成します。

しかし今回、Google Imagen は破壊的な変化を起こした――

純粋な言語モデルを使用すると、テキスト機能のエンコードのみが担当され、テキストを画像に変換する作業は画像生成モデルに任されます。

言語モデル部分はGoogle独自のT5-XXLを使用し、テキストエンコーダーはトレーニング後にフリーズされます。

画像生成部分は一連の拡散モデルであり、最初に低解像度の画像を生成し、次に段階的にスーパーサンプリングします。

これを実行する最大の利点は、高品質の画像やテキスト データよりも純粋なテキスト トレーニング データを取得する方がはるかに簡単になることです。

T5-XXL の C4 トレーニング セットには800 GBのプレーン テキスト コーパスが含まれており、そのテキスト理解能力は、限られた画像とテキストのペアでトレーニングされた CLIP よりも強力です。

これは実験データによっても裏付けられています。人間による評価では、T5-XXL は忠実度と意味的整合の点で CLIP よりも優れたパフォーマンスを発揮します。

Google は実験の中で、画像生成モデルを拡大するよりも言語モデルのサイズを拡大する方が最終的な効果に大きな影響を与えることも発見しました。

これを見て、一部のネットユーザーは、Googleが最終的に採用したT5-XXLのパラメータ規模は、最新のPaLM言語モデルの5400億パラメータの1%未満であると指摘しました。PaLMを使用した場合はどうなるのでしょうか?

言語モデルの発見に加えて、Google は Imagen 研究を通じてスケーリング モデルに数多くの最適化を施しました。

まず、分類器を使用しないガイダンスの重みを増やすと、画像とテキストの配置は改善されますが、画像の忠実度は低下します。

解決策は、過飽和を防ぐために各サンプリング ステップで動的しきい値を使用することです。

第二に、低解像度の画像にノイズを追加しながら高いガイダンス重みを使用すると、拡散モデルの多様性の欠如を改善できます。

3 つ目は、拡散モデルの従来の構造である U-Net が改良されたことです。新しいEfficient U-Net では、メモリの使用効率、収束速度、推論時間が向上しています。

言語理解と画像生成の両方が改善されたため、Imagen モデル全体の評価も良好でした。

たとえば、トレーニングに COCO データセットを使用せずに、 COCO ベンチマークで新しい SOTA を達成しました。

Imagen の欠点は、COCO テストの人間評価部分でも見つかりました。それは、人間の画像を生成するのが得意ではないということです。

具体的には、人間が写っていない画像は、リアリティの点で人間に高く評価されます。

同時に、Google は、COCO よりも難易度が高く、さまざまなトリッキーなプロンプトを含むテストベンチマークであるDrawBench をリリースしました。

実験の結果、DALL·E 2 では 2 つの色要件が同時に現れる状況を正確に理解することが難しいのに対し、Imagen では問題がないことがわかりました。

「宇宙飛行士に乗る馬」のような直感に反する状況では、どちらもパフォーマンスが悪く、描くことができるのは「馬に乗る宇宙飛行士」だけです。

しかし、イマジェン氏の「ラテアートを作るパンダ」の理解はより正確で、間違えたのは一度だけだった。 DALL·E 2はラテアートの柄すべてにパンダが描かれています。

△「宇宙飛行士が馬に乗る」というのはちょっと直感に反するかもしれない(犬の頭)

画像内にテキストを表示する必要がある場合には、Imagen の方が適しています。

テキストを正しく書くという基本に加えて、テキストに花火の効果を正しく追加することもできます。

AIペインティングはますます人気が高まっている

そういえば、AIペインティングはGoogle発祥です。

2015年、Googleはテキストに基づいて画像を生成するAIの先駆者となったDeepDreamをリリースしました。

△DeepDream作品

しかし、関連技術の真のブレークスルーについて言えば、画期的な出来事は2021年のOpenAIのDALL·Eの登場でしょう。

当時、Andrew Ng氏やKerasの生みの親など多くの大物が推進し、好評を博し、DALL·Eは2021年最初のエキサイティングなAI技術のブレークスルーとさえ呼ばれました。

その後、長年にわたる言語理解モデルと画像生成モデルの技術進歩が「AI絵画」の分野で爆発的に広がり、CLIP+GANやCLIP+拡散モデルの一連の研究と応用がインターネット上で頻繁に流行を巻き起こしました。

それ以来、物事は止められなくなり、技術の更新と反復はますます速くなりました。

DALL·E 2 が初めてリリースされたとき、一部のネットユーザーが新しい SOTA が登場するまでにどれくらいの時間がかかるかを尋ねるアンケートを開始しました。

当時は、数か月から1年以上を選択する人がほとんどでした。

しかし今、Imagen はわずか6 週間で登場しました。

AI ペイント効果がますます強力になるにつれて、その視聴者も拡大し、技術界を突破して世間の注目を集めています。

少し前に、AI ペイント アプリが Apple App Store のグラフィックとデザインのランキングでトップになりました。

最近の最新トレンドとしては、あらゆる分野のデザイナーがMidjourneyやTiamatなどの市販製品の内部テストに応募するために列をなしており、それがソーシャルネットワークに溢れている。

これにより、OpenAIやGoogleなどの大企業にも大きなプレッシャーがかかっています。

AI の倫理と公平性を考慮し、DALL·E 2 も Imagen も直接オープンソースではなく、オープン API も備えていません。

彼らはそれぞれ、論文の中でリスクの内容と社会的影響についてもかなりのスペースを割いていました。

OpenAIは内部テストモードを選択しましたが、Googleはさらなる研究と規制を続けており、AIが悪用されないことを確認した後でのみリリースを公開する予定です。

今すぐ Imagen を体験したい場合は、オンライン デモがあります。

与えられたいくつかのプロンプトワードから、さまざまなシーンを自由に組み合わせることができます。

ぜひお試しください〜

デモアドレス:
https://gweb-research-imagen.appspot.com

論文の宛先:
https://gweb-research-imagen.appspot.com/paper.pdf

<<:  DeepMindがMuJoCoをオープンソース化!メタは「スケルトンハンド」にクルミをプレイさせるために使用されます

>>:  インテリジェント運転の「人材不足」は大学の科目ゲームに閉じ込められている

ブログ    
ブログ    

推薦する

...

2020 年の人工知能の機会と課題について考える: 誰が勝つでしょうか?

近年、テクノロジーとビジネスニーズのギャップにより、人工知能は産業実装の過程で一連の課題に直面してい...

ジャック・マーの未来の3大技術、AI、IoT、ブロックチェーンを理解する

ジャック・マー氏は今年の中国科学技術協会年次総会の開会式で、今後10年から20年の間に社会全体に大き...

ソラ爆発的人気の裏側|世界のモデルとは何かを語ろう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

なぜ機械学習モデルの90%が実稼働に至らないのか

会社は厳しい時期を迎えている。私はパンデミックや株式市場の変動について話しているのではない。時代は不...

機械学習におけるデータ駆動型アルゴリズムの応用

機械学習の概念分析機械学習の概念は、アルゴリズムとニューラル ネットワーク モデルを使用して学習し、...

自動運転のスケールアップ問題

[[280016]]最近のニュースによると、Google傘下の自動運転企業Waymoがユーザーにメー...

データサイエンスが音楽業界に革命を起こす

デジタル時代において、データは音楽業界が音楽を制作し、配信し、聴衆とつながる方法において強力な指揮者...

ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

今年のアリババ世界数学コンテストでは、特別優秀賞受賞者が決定しました。 ALSを患う20歳の少年、ル...

...

人工知能は止められない。アドバンテックのWISE-PaaS 3.0がイノベーションを推進

アドバンテックは、2018年11月1日~2日に開催されたアドバンテックIoT共創サミットにおいて、プ...

...

ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

ビッグデータダイジェスト制作親愛なる友人たち、人工知能(AI)がチェス、囲碁、Dotaを征服した後、...

人工知能を活用して社会問題を解決する方法

人工知能はデータに命を吹き込み、過去のさまざまな目録や調査から収集された膨大なデータから再利用の機会...

...