OpenAIがついにオープン：DALL-E 3の論文が発表され、ChatGPTが開始、著者の半数が中国人

最後に、「OpenAI は再びオープンになりました。」 OpenAIが発表したばかりのDALL・E 3関連の論文を見たネットユーザーが驚きの声を上げた。

DALL・E 3は、OpenAIが2023年9月にリリースしたテキストグラフモデルです。前世代モデルDALL・E 2との最大の違いは、ChatGPTを使用してプロンプトを生成し、そのプロンプトに基づいてモデルに画像を生成させることができる点です。プロンプトを書くのが苦手な一般人にとって、この改良により、DALL·E 3 の使用効率が大幅に向上します。

また、DALL・E 3 で生成される画像は、DALL・E 2 で生成される画像よりも高品質です。

DALL・E 2とDALL・E 3の生成効果の比較。同じプロンプト「爆発する星雲を伴ったバスケットボール選手のダンクシュートを描いた油絵」では、左の画像 DALL・E 2 は、詳細度、鮮明度、明るさの点で右の画像 DALL・E 3 よりも明らかに劣っています。

最も人気のあるグラフィックデザインアプリケーション Midjourney と比較しても、DALL・E 3 は Midjourney と同等かそれ以上です。さらに、Midjourney と比較すると、DALL·E 3 では、ユーザーが複雑なプロンプトライティングの知識を習得する必要がなく、使用のハードルが低くなっています。

DALL・E 3 vs. 旅の途中のヴィンセントのイメージエフェクト。プロンプト: このイラストは、荒れ狂う波の真ん中の台座の上に立っている半透明のガラスでできた人間の心臓を描いています。一筋の太陽の光が雲を突き抜け、心を照らし、その内側にある小さな宇宙を明らかにします。地平線には、「あなたの中に宇宙を見つけてください」という目を引く一行の言葉が刻まれています。

このモデルのリリースは大きな反響を呼び、OpenAI の技術リーダーとしてのイメージを再び確立しました。一瞬、誰もが非常に興味を持ちました。どのようにしてこのような爆発的な効果が達成されたのでしょうか?しかし残念なことに、OpenAI は GPT-4 をリリースしたときのように、当時は技術的な詳細を明らかにしませんでした。

しかし、1か月後、OpenAI は依然として皆にいくつかの驚きを与えました。 22 ページの論文では、DALL·E 3 に加えた改良点について説明しています。論文の主な内容は次のとおりです。

モデル機能の向上は主に詳細な画像キャプションによって実現されます。
彼らは、短くて詳細なテキストを生成する画像テキスト記述モデルをトレーニングしました。
彼らは T5 テキストエンコーダーを使用しました。
彼らは GPT-4 を使用して、ユーザーが書いた短いプロンプトを改良しました。
彼らは U-net デコーダーをトレーニングし、それを 2 つのノイズ除去ステップにまとめました。
テキストレンダリングはまだ信頼性が低く、モデルが単語トークンを画像内の文字にマッピングするのに問題があると考えられています。

論文に加えて、OpenAI は重要なニュースも発表しました。DALL・E 3 が ChatGPT で正式にリリースされ、Plus ユーザーと Enterprise ユーザーの両方が使用できるようになりました。以下はMachine Heartの試験結果です。

結果に満足できない場合は、元の画像に基づいて直接変更することもできます。

ただし、会話の長さが長くなるにつれて、生成結果は多少不安定になります。

テキスト生成に関しては、DALL・E 3 では大きな改善が行われました。

しかし、中国語を相手にするとパフォーマンスは依然として低い。

OpenAIは、DALL・E 3の出力コンテンツのセキュリティとコンプライアンスを確保するために、モデルの出力コンテンツがチェックされ、存命のアーティストの著作権を侵害していないことを確認するための取り組みも行っています。

もちろん、DALL・E 3 の背後にある技術を理解するには、論文を詳しく読む必要があります。以下は論文の紹介です。

論文概要

OpenAIが発表したDALL・E 3関連の論文は全19ページで、著者はOpenAIとMicrosoftの15名で、その半数は中国人である。

論文アドレス: https://cdn.openai.com/papers/dall-e-3.pdf

この論文では、プロンプトフォローの問題を解決するための新しいアプローチとして、キャプションの改善を提案しています。この論文では、既存のテキスト画像モデルが直面している根本的な問題は、トレーニングデータセット内のテキスト画像ペアの品質が低いことであり、この問題は他の研究でも指摘されていると仮定しています。この論文では、データセット内の画像に対して改善されたテキスト記述を生成することでこの問題に対処することを提案しています。

この目標を達成するために、この研究ではまず、詳細かつ正確な画像の説明を生成できる堅牢な画像テキスト生成器を学習しました。このテキストジェネレーターはデータセットに適用され、より詳細なテキストが生成されます。最後に、改善されたデータセットでテキスト画像モデルをトレーニングします。

実際、合成データを使用したトレーニングは新しい概念ではありません。この論文の主な貢献は、研究者が新しい記述画像テキストシステムを構築し、合成テキストによるトレーニングによって生成されたモデルを評価したことです。この研究では、プロンプトのパフォーマンスを測定する一連の評価のための、繰り返し可能なベースラインパフォーマンスプロファイルも確立しました。

以下のセクションでは、セクション 2 で画像からテキストへのジェネレーターをトレーニングするための戦略の包括的な概要を示し、セクション 3 では元のテキストと生成されたテキストでトレーニングされたテキストから画像へのモデルを評価し、セクション 4 では DALL-E 3 を評価し、セクション 5 では制限とリスクについて説明します。

各章の具体的な内容を見てみましょう。

要約

OpenAI のテキストから画像へのモデルは、(t, i) ペアの大規模なデータセットでトレーニングされます。ここで、i は画像、t は画像を説明するテキストです。大規模なデータセットでは、t は通常、画像の背景の詳細や常識的な関係を無視して、主に画像内のオブジェクトの簡単な説明を提供する人間の著者から導き出されます。

さらに悪いことに、インターネット上で見つかる説明は、単に正確でなかったり、画像とあまり関係のない詳細を説明していることが多いです。 OpenAI は、これらの欠陥はすべて合成記述によって解決できると考えています。

画像キャプションジェネレータの構築

画像キャプションジェネレーターは、テキストを予測できる従来の言語モデルと非常によく似ています。そのため、OpenAI はまず言語モデルの簡単な説明を提供します。ここでは、トークナイザーを使用して文字列を個別のトークンに分解します。このように分解すると、コーパスのテキスト部分はシーケンス t = [t_1, t_2, . . . , t_n] として表されます。次に、次の尤度関数を最大化することによってテキスト言語モデルが構築されます。

次に、この言語モデルを記述ジェネレーターに変換するには、画像を調整するだけです。したがって、事前トレーニング済みのCLIP画像埋め込み関数F(i)が与えられた場合、OpenAIは言語モデルの目的を次のように強化します。

説明ジェネレータの微調整

OpenAI は、画像生成データセットの説明パフォーマンスを向上させるために、説明ジェネレータを使用して画像の説明を生成し、テキストから画像へのモデルの学習に役立てたいと考えています。

最初の試みでは、画像内の主要なオブジェクトのみを説明する小規模な説明データセットを構築し、その後、このデータセットで説明ジェネレーターをトレーニングしました。このプロセスにより、θ の更新が行われ、モデルは画像の主なオブジェクトを記述する方向に偏ります。 OpenAI は、これらの微調整された生成された説明を「短い合成説明」と呼んでいます。

OpenAI は 2 回目の試みとして、微調整データセット内の各画像の内容を説明する、より長くて説明的なテキストデータセットを作成しました。これらの説明には、画像の主なオブジェクトだけでなく、周囲のオブジェクト、背景、画像内のテキスト、スタイル、色も含まれます。

彼らはこのデータセットのベーステキストジェネレーターをさらに微調整し、このテキストジェネレーターによって生成されたテキストを「記述的合成記述」と呼びました。下の図 3 は、グラウンドトゥルース、短い合成、および記述的な合成の説明の例を示しています。

再キャプションされたデータセットの評価

OpenAI は、Re-Description Dataset を使用して、トレーニングモデルがテキスト合成に与える影響を評価し始めました。特に、彼らは次の 2 つの質問に答えようとしました。

各タイプの合成記述を使用した場合のパフォーマンスへの影響はどの程度か
合成記述と真の記述の最適な混合比はどれくらいでしょうか?

合成記述と真実記述の混合

テキストから画像への拡散モデルのような尤度モデルには、データセット内のパターンの分布に過剰適合するという望ましくない傾向があります。これは、総合的な説明のトレーニングを行う際に考慮すべき事項です。

OpenAI の説明生成モデルには、検出が難しいモーダル動作が多数ある可能性がありますが、モデルが説明に基づいてトレーニングされている場合、これらの動作はテキストから画像へのモデルにおけるバイアスになります。

この問題を解決する最善の方法は、入力を、人間が使用する可能性が高いスタイルと形式に近いテキスト分布に正規化することです。グラウンドトゥルース記述を使用する場合、それらは実際に人間のテキストの分布から抽出されるため、「無料で」取得できます。さらに、合成記述を使用する際に独自のモデルのトレーニングに正規化を導入するために、OpenAI は合成記述と実際の記述を混合することを選択しました。

混合操作は、OpenAI が真の値または合成記述を一定の割合でランダムに選択するデータサンプリング中に実行されます。

評価方法

評価時に、OpenAI は同じ画像データセットで同じ T5 条件付き画像拡散モデルをトレーニングしました。すべてのモデルは、10 億枚のトレーニング画像に相当する 2048 のバッチサイズで 500,000 ステップトレーニングされました。

トレーニング後、OpenAI は評価データセットの説明を使用して、各モデルに対して 50,000 枚の画像を生成しました。生成された画像は、Hessel et al. (2022) の CLIP-S 評価メトリックを使用して評価されます。彼らは、テキストと画像の類似性と強い相関関係がある CLIP スコアを指標として選択しました。

OpenAI は、まず公開されている CLIP ViT-B/32 画像エンコーダーを使用して画像埋め込み z_i を生成し、次にテキストエンコーダーを使用して画像説明 z_t のテキスト埋め込みを作成し、最後にコサイン距離 C として CLIP スコアを計算します。

次に、OpenAI は 50,000 個のテキスト/画像ペアすべてについて計算されたコサイン距離を平均し、それを 100 倍に再スケーリングしました。

CLIP スコアを計算する際には、どの説明を使用するかの選択が非常に重要です。 OpenAI のテストでは、グラウンドトゥルース記述または記述的合成記述のいずれかが使用されました。また、各評価にどの説明が使用されたかが記録されました。

タイプ結果の説明

OpenAI はまず、3 種類の説明でトレーニングされたモデル間のパフォーマンスの違いを分析しました。この目的のために、次の 3 つのモデルがトレーニングされました。

テキストから画像へのモデルは、グラウンドトゥルース記述のみでトレーニングされる
95% の短い合成説明でトレーニングされたテキストから画像へのモデル
95%の記述的合成記述で訓練されたテキストから画像へのモデル

OpenAI は、真の説明から計算された z_t を使用した評価と、記述的な合成説明から計算された z_t を使用した評価の 2 つを実行しました。ここで短い合成記述が選択されない理由は、この評価における実際のケースと非常に類似しているためです。

結果は下の図 4 に示されています。合成記述でトレーニングされたモデルは、グラウンドトゥルース記述で評価されたベースラインモデルよりもわずかに優れた CLIP スコアパフォーマンスを達成し、記述的な合成記述で評価された場合は大幅に優れたパフォーマンスを発揮します。これは、テキストから画像へのモデルをトレーニングするときに合成記述を使用することに欠点がないことを示しています。

混合比を説明する

記述混合比を評価するために、OpenAI は異なる混合比の記述合成記述を使用して 4 つの画像生成モデルをトレーニングしました。合成記述混合比として、それぞれ 65%、80%、90%、95% を選択しました。実験の途中で、65% ブレンドはあらゆる評価において他のブレンドより大幅に遅れていることがわかったため、このブレンドは廃止されました。

下の図 5 の結果は、合成記述の混合比率が高くなるほど CLIP スコアが高くなる傾向があり、両者は正の比例関係にあることを示しています。

DALL-E 3

大規模に合成テキストをテストするために、DALL-E 3 をトレーニングしました。トレーニング中は、95% の合成テキストと 5% の実際のテキストを混合して使用しました。比較モデルには、DALL-E 2 と Stable Diffusion XL 1.0 が含まれます。

CLIP スコア評価では、DALL-E 3 は DALL-E 2 および Stable Diffusion XL よりも優れた性能を発揮し、Drawbench ベンチマーク評価でも DALL-E 3 は DALL-E 2 および Stable Diffusion XL よりも優れた性能を発揮します。

この論文では、DALL-E 3 によって生成されたサンプルと他のモデルによって生成された結果も比較しています。研究者たちは、同じ説明から生成された 2 つの画像を人間の評価者に並べて見せ、プロンプトの追従性、スタイル、一貫性の 3 つの側面で採点しました。

迅速なフォローアップ: 評価者に完全な画像の説明を提供し、テキストの説明に最も一致する画像を選択するように評価者に依頼します。
スタイル: 評価者に、テキストから画像を生成するために何らかのツールを使用していると想像してもらいます。このツールを自分で使用している場合は、表示したい画像を選択します。
一貫性: 人物の体の部分、顔とポーズ、オブジェクトの位置など、どの画像に一貫性のあるオブジェクトが含まれているかを評価者に選択してもらいます。

結果は、DALL-E 3 がほとんどの場合、3 つの側面すべてにおいて、特にキューの追跡において、すべての競合製品よりも人間の評価者に好まれる画像を生成することを示しています。

制限とリスク

この記事の最後の章では、誰もがより懸念している制限とリスクの問題について取り上げます。 DALL-E 3 は迅速な追従性に優れていますが、空間認識などの面ではまだ苦労しています。たとえば、DALL-E 3 は、左、下、後ろなどの方向を示す単語をあまりうまく理解できません。

さらに、テキスト記述ジェネレータを構築する際、本論文では、元の画像と生成された記述に存在するいくつかの目立つ単語に焦点を当てています。したがって、DALL-E 3 はプロンプトに応じてテキストを生成できます。テスト中に、この機能は信頼できないことがわかりました。この論文では、これが T5 テキストエンコーダーの使用と関係があるのではないかと推測しています。モデルがプロンプト内のテキストに遭遇すると、実際には単語全体を表すトークンを認識し、それを画像内に表示されるテキストにマッピングします。今後の研究では、DALL-E 3 が直面しているこの制限を改善するために、文字レベルの言語モデルをさらに調査したいと考えています。

最後に、合成テキストによって、生成された画像に重要な詳細が幻覚として現れることもあることが分かりました。これは下流のタスクに何らかの影響を及ぼし、論文では、DALL-E 3 が特定の用語の画像を生成する際に信頼性が低いことも示されています。しかし、この研究では、画像のテキスト記述を改善することで、DALL-E 3 の生成結果がさらに向上する可能性があると考えています。

<<: RTX 4090が制限されている時代に、大規模モデルにRLHFを使用するより効率的な方法が登場

>>: MIT の Jia Haojun 博士と Duan Chenru 博士への独占インタビュー: AI4S 時代の化学物質の発見 - 「AI 錬金術」