DALL·E 3のベンチマーク!メタ最強の文豪エミュの技術レポートを公開

DALL·E 3のベンチマーク!メタ最強の文豪エミュの技術レポートを公開

数日前、OpenAIはDALL·E 3をリリースしたばかりで、ビジュアルイメージは再び新たな段階に上昇しました。一部のネットユーザーからは、Midjourneyはもうおしまいだ、という声も上がっています。

28日のMeta Connectカンファレンスで、ザッカーバーグ氏は独自の人工知能画像生成モデル「Emu(Expressive Media Universe)」も発表した。

Emuの最大の特徴は、シンプルなテキストのみを使用して5秒で画像を生成できることです。

たとえば、「虹の森の妖精猫」などです。

「ハイカーとホッキョクグマ」

「水中宇宙飛行士」。

「花の中の貴婦人」。

「もし恐竜が猫だったら。」

他のグラフィック モデルと比較して、Emu の最も興味深い点は、ワンクリックで絵文字を生成できることです。

誰かとチャットしているとき、適切な絵文字を見つけるために頭を悩ます必要はありません。

たとえば、友達とバックパッキング旅行に行く約束をした場合、旅行に行く準備をしている鮮明な絵文字を送信する必要があります。

「バイクに乗っている幸せなハリネズミ」

気に入ったものを選んで送信してください。

もちろん、いくつかの簡単な単語を入力するだけで、あらゆる種類の絵文字を生成することができます。

まもなく、Emu とセグメンテーション モデル SAM を活用して、誰でも Instagram で画像を編集し、スタイルや背景を変更できるようになります。

スタイルを再変更すると、記述したスタイルに従って想像上の出力イメージを再構築できます。

下図のように、「水彩」と入力すると、写真がすぐに水彩画になります。

あるいは、ザッカーバーグの子供時代の写真を「ロックパンク風」に変えてみるのもいいだろう。

あるいは、ゴールデン レトリバーに「長毛」を与えると、次のようになります。

写真の背景を変更することもできます。

芝生に横たわっている自分の写真を見つけて、「子犬に囲まれて」と入力すると、かわいい子犬の群れがあなたの周りに集まります。

また、家族写真では背景を自由に切り替えることもできます。

Emu はローンチカンファレンスで大ヒットしましたが、実はライブデモンストレーションの前日に、Meta が arXiv で Emu モデルの論文を更新していました。

論文アドレス: https://arxiv.org/abs/2309.15807

この論文では、Meta が Emu のトレーニング方法である品質チューニング (教師あり微調整) を紹介しています。

品質調整は、Web スケールの画像からテキストへの美的配置を使用してテキストから画像へのモデルをトレーニングするときに、非常に美的な画像を生成するという課題に対処します。

品質調整により、事前トレーニング済みモデルは、視覚概念の一般性を維持しながら、視覚的に非常に魅力的な画像を生成することに特化するように効果的に誘導できます。

研究者らは、この手法をピクセル拡散やマスク生成トランスフォーマーなどの他のモデルアーキテクチャにも一般化し、品質調整方法の汎用性を実証しました。

品質調整方法

生成モデルのトレーニングは、知識学習と品質学習の 2 つの段階で構成されます。

知識学習フェーズでは、テキストからほぼあらゆるコンテンツを生成する能力を獲得することが目標であり、通常、何億もの画像とテキストのペアの事前トレーニングが必要です。

品質学習フェーズでは、モデルは高品質で美しい画像を出力するように制限されます。

メタ研究者は、品質を向上させ、美的一貫性を促進するための微調整のプロセスを品質調整と呼んでいます。

品質を調整したEmu生成画像

しかし、品質調整には 3 つの鍵があります。

(1)微調整データセットは、数千枚の画像のみと驚くほど小さい。

(2)データセットの品質が非常に高いため、データの整理を完全に自動化することが難しく、手動での注釈付けが必要となる。

(3)微調整データセットが小さい場合でも、品質調整によって生成された画像の美観が大幅に向上するだけでなく、入力プロンプトへの忠実度によって一般性が測定されるため、一般性が犠牲になることはありません。

品質調整プロセス全体には、次の手順があります。

潜在的普及フレームワーク

研究者らは、1024 x 1024 解像度の画像を出力できる潜在拡散モデルを設計しました。標準的な潜在拡散アーキテクチャ設計に従い、モデルには、画像を潜在埋め込みにエンコードするオートエンコーダー (AE) と、ノイズ除去プロセスを学習する U-Net があります。

研究では、一般的に使用されている 4 チャンネル オートエンコーダ (AE-4) アーキテクチャでは、圧縮率が高いために、構築された画像の詳細が失われることが多いことがわかりました。

この問題は特に小さな物体で顕著になります。

再構成性能をさらに向上させるために、研究者らは敵対的損失を使用し、フーリエ特徴変換を使用して RGB 画像に対して学習不可能な前処理を実行し、入力チャネル次元を 3 (RGB) からより高い次元に増やして、微細構造をより適切に捉えられるようにしました。

さまざまなチャネル サイズに対するオートエンコーダの定性的な結果を下の図に示します。

さらに、研究者らは、モデル容量を向上させるために、チャネルサイズと各ステージのスタックされた残差ブロックの数を増やしました。

さらに、本研究ではテキスト条件としてCLIP ViT-LとT5-XXLのテキスト埋め込みを使用しました。

事前トレーニング

研究者らは、モデルをトレーニングするために 11 億枚の画像からなる大規模な社内事前トレーニング データセットをキュレートし、トレーニング プロセス中にモデルの解像度を徐々に高めていきました。

事前トレーニングの最後に、研究者らはノイズオフセット0.02も使用しました。これは高コントラスト画像の生成に役立ち、生成された画像の美しさを向上させます。

高品質なアライメントデータの構築

数十億枚の画像から始めて、一連の自動フィルターを使用してその数を数億枚にまで減らしました。

これらのフィルターには、不快なコンテンツの削除、美観スコア フィルター、光学式文字認識 (OCR) 単語数フィルター (テキストで覆われすぎている画像を削除する)、CLIP スコア フィルター (画像とテキストの位置がずれているサンプルを削除する) などが含まれますが、これらに限定されません。

次に、画像サイズとアスペクト比によって追加の自動フィルタリングが実行されます。

さらに、さまざまな分野やカテゴリーの画像のバランスをとるために、研究者は視覚概念分類を使用して、特定の分野(肖像画、食べ物、動物、風景、車など)の画像を取得しました。

最後に、独自のシグナル(いいねの数など)に基づく追加の品質フィルタリングにより、データがさらに 200K Human Filtering に削減されます。

次に、データセットは 2 段階で手動でフィルタリングされ、最も美しい画像だけが保持されました。

最初の段階では、一般的な注釈者が画像ライブラリを 20,000 枚の画像に削減するようにトレーニングされます。この段階の主な目的は、リコール率を最適化し、自動フィルタリングを通過する低品質および中品質の画像が除外されるようにすることです。

第 2 段階では、写真の原理に精通したプロの注釈者が雇われ、以下に示すように、美的品質の高い画像を選別しました。

この段階の焦点は、精度を最適化すること、つまり最良の画像のみを選択することです。このデータセットは、高品質写真の基本原則に従っており、一般的にさまざまなスタイルでより美的に満足のいく画像が得られ、人間による評価によって検証されます。

品質調整

視覚的に魅力的な画像は、いくつかの共通の統計を持つすべての画像のサブセットとして考えてください。

研究者らは、64 個のミニバッチ データセットを使用して事前トレーニング済みモデルを微調整しました。

この段階では 0.1 のノイズ オフセットが使用されました。ただし、小さなデータセットで長時間にわたって微調整を行うと、大幅な過剰適合が発生し、視覚概念の一般化可能性が低下する可能性があるため、できるだけ早く微調整を停止することが重要です。

ただし、微調整の反復回数は 5K を超えることはできず、この反復回数の合計は経験に基づいて決定されます。

実験結果

品質調整の効果

研究者らは、品質調整されたEmuモデルと事前トレーニング済みモデルを比較しました。

品質調整前後のランダム定性テストの結果を以下の図に示します。

非フォトリアリスティックな画像にも高い美的魅力があることがわかり、これは研究で提案された仮説を検証しています。つまり、品質調整データセットの特定の写真原則に従うことで、さまざまなスタイルの美的魅力を向上させることができるということです。

量に関して言えば、質を調整した後、Emu は視覚的な魅力とテキストの信頼性の両方で大きな優位性を持っています。

具体的には、Part-tiPrompts と OUl Prompts では、視覚的な魅力については Emu がそれぞれ 82.9% と 91.2%、テキストの忠実度については 36.7% と 47.9% 好まれました。

対照的に、視覚的な魅力については、事前トレーニング済みモデルがそれぞれ 15.4% と 7.9% の割合で好まれたのに対し、テキストの忠実度については、PartiPrompts と OUl Prompts がそれぞれ 21.0% と 18.5% の割合で好まれました。

残りの訴訟は同点となった。異なるドメインとカテゴリをカバーするこれら 2 つの広範な評価データ セットから、視覚概念の一般化可能性は低下しません。

代わりに、改善はさまざまなスタイルに広く適用されます。

SoTAの文脈における視覚的な魅力

Emu によって生成された画像の視覚的な魅力を現在の最先端技術と比較するために、研究者は Emu と SDXLV1.0 を比較しました。

ご覧のとおり、Emu は、様式化された (非フォトリアリスティックな) キューを含め、SDXLv1.0 よりも視覚的に魅力的です。

さらに、Meta は、品質チューニングによって、ピクセル拡散やマスク生成トランスフォーマーなどの他の一般的なアーキテクチャも改善できることを実証しています。

研究者らは、ピクセル拡散とマスク生成トランスフォーマーをゼロから再実装してトレーニングし、2,000 枚の画像で品質調整を行いました。

その後、研究者らは、ランダムにサンプリングされたPartiPromptsの3分の1で、品質調整された2つのモデルを評価しました。

下の図に示すように、品質調整後、両方のアーキテクチャで視覚的な魅力とテキストの忠実度の指標が大幅に向上します。

アブレーション研究

最後に、Meta は微調整データセットに対してアブレーション研究を実行し、視覚的な魅力に焦点を当て、主にデータセット サイズの影響を調査します。

次の表は、100、1000、2000 などのさまざまなサイズのランダムにサンプリングされたサブセットの品質の微調整の結果を示しています。

ご覧のとおり、わずか 100 枚の微調整画像でも、モデルは視覚的に魅力的な画像を生成するように誘導できます。

SDXLと比較すると、微調整後の勝率は24.8%から60%に跳ね上がりました。

<<:  ChatGPT マルチモーダル禁止が解除され、ネットユーザーは楽しんでいます!写真を撮ってコードを生成したり、古文書を一目で認識したり、6つ以上のチャートを要約したりできる

>>:  電荷ベースの原子シミュレーションのための事前学習済み汎用ニューラルネットワーク CHGNet

ブログ    
ブログ    

推薦する

...

...

...

原理から応用まで: ロジスティック回帰アルゴリズムの簡単な説明

ロジスティック回帰は、バイナリ分類タスクで最も一般的に使用される機械学習アルゴリズムの 1 つです。...

...

...

快手ドラゴンフライ戦略エンジンの設計と応用

1. 問題と課題1. 問題の背景2018年以来、Kuaishouの事業全体は急速に発展しており、チー...

MoEとMambaが協力し、状態空間モデルを数百億のパラメータに拡張

状態空間モデル (SSM) は、最近注目を集めている Transformer の代替手段です。その利...

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成...

AIがスマートフォンを制御するようになると、アプリ時代の終焉が近づいているかもしれない

Mobile World Congress 2024 で AI について言及しないわけにはいきません...

...

Unity Greater China プラットフォーム テクノロジー ディレクター Yang Dong: メタバースでのデジタル ヒューマンの旅の始まり

デジタルヒューマンは、メタバースコンテンツ構築の礎として、持続的に実装および開発できる最も初期の成熟...

...

「現時点で最高のヴィンセント動画AI」が登場!広告や映画に使っても問題ない。ネットユーザー:とてもスムーズ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...