Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ?」

Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ?」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

GoogleとOpenAIは、AIによる創造を許可するかどうかという問題で真っ向から対立している。

ネットワーク全体に衝撃を与えた DALL·E 2 がリリースされてからわずか 1 か月後、Google はImagenという競合企業を競合に送り込みました。

上の写真を比較してください。左側は Google Imagen の参加者が見た「人間の像につまずく猫」で、右側は DALL·E 2 の参加者が同じテーマで作ったものです。

どちらの出場者の作品がテーマにもっと合っていると思いますか?

ネットユーザーが「DALL・E 2は時代遅れ?」と叫ぶのは、この正面からのPKの興奮だけではない。

こういう写真を見ると、AIで生成されたと言わないまでも、二足歩行動物のポージング技術がどんどん進化しているなあとまずため息が出ませんか?

「折り紙:雪の森の中のキツネとユニコーン」と入力すると、Imagen は次のようなものを作成します。

テキストを長くしてみることもできます。

キッチンで生地を作るシェフに扮した、とても幸せそうなふわふわのパンダのこのハイコントラストなポートレートのように、後ろの壁には花の絵が描かれています…(ああ、息を整えさせてください)

Imagen も、すべての要素を備えて簡単に勝利しました。

これを見た機械学習界のネットユーザーは次のように反応した。

まさか、まだ1ヶ月しか経っていないのに、もう更新されているんですか?

ショックを与えるのはやめてください。

この件が有名になると、すぐに広まりました。

見物人たちもすぐに同じことを思いました。

将来的には写真ギャラリーのウェブサイトは必要なくなるかもしれません。

では、Google のこの新しい AI にはどのような独自のスキルがあるのでしょうか?

具体的な詳細については読み進めてください。

「生成」を最適化するよりも「理解」を向上させることが重要

これまでにもテキストから画像への生成を多数紹介してきましたが、基本的には同じルーチンです。

CLIP は、テキスト機能から画像機能へのマッピングを担当し、その後、GAN または拡散モデルをガイドして画像を生成します。

しかし今回、Google Imagen は破壊的な変化を起こした――

純粋な言語モデルを使用すると、テキスト機能のエンコードのみが担当され、テキストを画像に変換する作業は画像生成モデルに任されます。

言語モデル部分はGoogle独自のT5-XXLを使用し、テキストエンコーダーはトレーニング後にフリーズされます。

画像生成部分は一連の拡散モデルであり、最初に低解像度の画像を生成し、次に段階的にスーパーサンプリングします。

これを実行する最大の利点は、高品質の画像やテキスト データよりも純粋なテキスト トレーニング データを取得する方がはるかに簡単になることです。

T5-XXL の C4 トレーニング セットには800 GBのプレーン テキスト コーパスが含まれており、そのテキスト理解能力は、限られた画像とテキストのペアでトレーニングされた CLIP よりも強力です。

これは実験データによっても裏付けられています。人間による評価では、T5-XXL は忠実度と意味的整合の点で CLIP よりも優れたパフォーマンスを発揮します。

Google は実験の中で、画像生成モデルを拡大するよりも言語モデルのサイズを拡大する方が最終的な効果に大きな影響を与えることも発見しました。

これを見て、一部のネットユーザーは、Googleが最終的に採用したT5-XXLのパラメータ規模は、最新のPaLM言語モデルの5400億パラメータの1%未満であると指摘しました。PaLMを使用した場合はどうなるのでしょうか?

言語モデルの発見に加えて、Google は Imagen 研究を通じてスケーリング モデルに数多くの最適化を施しました。

まず、分類器を使用しないガイダンスの重みを増やすと、画像とテキストの配置は改善されますが、画像の忠実度は低下します。

解決策は、過飽和を防ぐために各サンプリング ステップで動的しきい値を使用することです。

第二に、低解像度の画像にノイズを追加しながら高いガイダンス重みを使用すると、拡散モデルの多様性の欠如を改善できます。

3 つ目は、拡散モデルの従来の構造である U-Net が改良されたことです。新しいEfficient U-Net では、メモリの使用効率、収束速度、推論時間が向上しています。

言語理解と画像生成の両方が改善されたため、Imagen モデル全体の評価も良好でした。

たとえば、トレーニングに COCO データセットを使用せずに、 COCO ベンチマークで新しい SOTA を達成しました。

Imagen の欠点は、COCO テストの人間評価部分でも見つかりました。それは、人間の画像を生成するのが得意ではないということです。

具体的には、人間が写っていない画像は、リアリティの点で人間に高く評価されます。

同時に、Google は、COCO よりも難易度が高く、さまざまなトリッキーなプロンプトを含むテストベンチマークであるDrawBench をリリースしました。

実験の結果、DALL·E 2 では 2 つの色要件が同時に現れる状況を正確に理解することが難しいのに対し、Imagen では問題がないことがわかりました。

「宇宙飛行士に乗る馬」のような直感に反する状況では、どちらもパフォーマンスが悪く、描くことができるのは「馬に乗る宇宙飛行士」だけです。

しかし、イマジェン氏の「ラテアートを作るパンダ」の理解はより正確で、間違えたのは一度だけだった。 DALL·E 2はラテアートの柄すべてにパンダが描かれています。

△「宇宙飛行士が馬に乗る」というのはちょっと直感に反するかもしれない(犬の頭)

画像内にテキストを表示する必要がある場合には、Imagen の方が適しています。

テキストを正しく書くという基本に加えて、テキストに花火の効果を正しく追加することもできます。

AIペインティングはますます人気が高まっている

そういえば、AIペインティングはGoogle発祥です。

2015年、Googleはテキストに基づいて画像を生成するAIの先駆者となったDeepDreamをリリースしました。

△DeepDream作品

しかし、関連技術の真のブレークスルーについて言えば、画期的な出来事は2021年のOpenAIのDALL·Eの登場でしょう。

当時、Andrew Ng氏やKerasの生みの親など多くの大物が推進し、好評を博し、DALL·Eは2021年最初のエキサイティングなAI技術のブレークスルーとさえ呼ばれました。

その後、長年にわたる言語理解モデルと画像生成モデルの技術進歩が「AI絵画」の分野で爆発的に広がり、CLIP+GANやCLIP+拡散モデルの一連の研究と応用がインターネット上で頻繁に流行を巻き起こしました。

それ以来、物事は止められなくなり、技術の更新と反復はますます速くなりました。

DALL·E 2 が初めてリリースされたとき、一部のネットユーザーが新しい SOTA が登場するまでにどれくらいの時間がかかるかを尋ねるアンケートを開始しました。

当時は、数か月から1年以上を選択する人がほとんどでした。

しかし今、Imagen はわずか6 週間で登場しました。

AI ペイント効果がますます強力になるにつれて、その視聴者も拡大し、技術界を突破して世間の注目を集めています。

少し前に、AI ペイント アプリが Apple App Store のグラフィックとデザインのランキングでトップになりました。

最近の最新トレンドとしては、あらゆる分野のデザイナーがMidjourneyやTiamatなどの市販製品の内部テストに応募するために列をなしており、それがソーシャルネットワークに溢れている。

これにより、OpenAIやGoogleなどの大企業にも大きなプレッシャーがかかっています。

AI の倫理と公平性を考慮し、DALL·E 2 も Imagen も直接オープンソースではなく、オープン API も備えていません。

彼らはそれぞれ、論文の中でリスクの内容と社会的影響についてもかなりのスペースを割いていました。

OpenAIは内部テストモードを選択しましたが、Googleはさらなる研究と規制を続けており、AIが悪用されないことを確認した後でのみリリースを公開する予定です。

今すぐ Imagen を体験したい場合は、オンライン デモがあります。

与えられたいくつかのプロンプトワードから、さまざまなシーンを自由に組み合わせることができます。

ぜひお試しください〜

デモアドレス:
https://gweb-research-imagen.appspot.com

論文の宛先:
https://gweb-research-imagen.appspot.com/paper.pdf

<<:  DeepMindがMuJoCoをオープンソース化!メタは「スケルトンハンド」にクルミをプレイさせるために使用されます

>>:  インテリジェント運転の「人材不足」は大学の科目ゲームに閉じ込められている

ブログ    
ブログ    

推薦する

インテリジェントなクラウドネイティブアプリケーションの台頭

マーク・アンドリーセンはかつてウォール・ストリート・ジャーナルに「なぜソフトウェアが世界を席巻してい...

がん治療のブレークスルー:AIGCの医薬品開発における役割

AIGC には、がんの治療に役立つ可能性など、驚くべき用途を含め、多くの潜在的な用途があります。 M...

AI を活用した検索と推奨はどれほど強力でしょうか?

著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...

データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム(超詳細なコード付き)

古典的なデータマイニングアルゴリズムのトップ 10 は次のとおりです。導入C4.5 は決定木アルゴリ...

考えてみると恐ろしいですね!人工知能は、成功率70%で人間の行動を操作することを学習したと疑われている。

人工知能に関しては、多くの人が懸念を表明しています。例えば、人類開発の最前線にいるホーキング博士とマ...

機械学習の問題を解決する一般的な方法があります!これを読んでください

編集者注: この記事は、WeChat パブリック アカウント「Big Data Digest」(ID...

マスク着用時の顔認識成功率は80%以上。顔はどうやってあなたを裏切るのでしょうか?

[[388175]]今年の315では、物議を醸している顔認証が再び前面に押し出されました。自分の顔...

2019年の中国人工知能産業の競争環境の分析

近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...

体型の変化は千差万別! MIT が宇宙探査用人工物を開発 - モジュール式の自己再構成可能なマイクロロボット

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Google Bard が中国語をサポートするようになりました!レベル10をクリアして、ミームを理解し、無料で試してみましょう

数日前、ChatGPTの最も強力なライバルであるClaudeが第2世代にアップグレードされ、Goog...

鍾南山氏は人工知能カンファレンスでAI COVID-19画像認識などの技術について講演した。

現在、世界の健康は大きな課題に直面しています。2020年以降の新型コロナウイルスの蔓延は、世界的な公...

AIを活用して食材を分析し、より適切な栄養バランスを実現しましょう!

[[396039]]ビッグデータダイジェスト制作出典: Engadget編集:赤道のパンダ人工知能...

ザッカーバーグの最新VRプロトタイプが登場。仮想と現実を混同させるようなものだ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能によりデータセンターのコストと制御ニーズが増加

人工知能 (AI) はコンピューティングとデータ分析の世界を変えています。機械学習、自然言語処理、コ...