あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づいて画像を自動的に作成できます。生成された画像はテキストの説明に準拠しているだけでなく、非常にリアルな効果も実現します。画像からテキストへの生成において、ERNIE-ViLG は画像を理解し、画像の内容を簡潔な言葉で説明し、画像内のシーンに基づいて関連する質問に答えることができます。

少し前に、百度の産業レベルの知識強化モデル「文心」が発表されました。最近、クロスモーダル生成モデルERNIE-ViLGが百度文心公式サイトで体験できるように公開され、論文も発表されました。

体験リンク: https://wenxin.baidu.com/wenxin/ernie-vilg

論文リンク: https://arxiv.org/pdf/2112.15283.pdf

報道によると、文心ERNIE-ViLGのパラメータ規模は100億に達し、これは現在までに世界最大の中国のクロスモーダル生成モデルである。このモデルは、自己回帰アルゴリズムを通じて画像生成とテキスト生成のモデリングを統一し、モデルのクロスモーダル意味整合機能を強化し、画像とテキスト生成効果を大幅に向上させた初めてのモデルである。

このエディターでは、Wenxin ERNIE-ViLG の「イメージ作成」機能を体験できます。

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づいて画像を自動的に作成できます。生成された画像はテキストの説明に準拠しているだけでなく、非常にリアルな効果も実現します。

知らせ!以下の画像はすべて新規に生成されたものであり、直接検索できるオリジナル画像ではありません。

Wenxin ERNIE-ViLG は、建物や動物などの単一のオブジェクトを作成できるだけではありません。

複数のオブジェクトを含む複雑なシーンを作成することも可能です。

ユーザーが入力したテキストに基づいてクリエイティブにすることもできます。

無限の想像力を持つ古代の詩に対して、Wenxin ERNIE-ViLG は適切な画像を生成し、さまざまな絵画スタイルに合わせて調整することもできます。

油絵風

中国の絵画スタイル

水彩画風

さらに、テキストプロンプトに従って絵を完成させることもできます。

画像からテキストへの生成に関しては、ERNIE-ViLG は画像を理解し、その内容を簡潔な言語で説明できます。

それだけでなく、ERNIE-ViLG は写真のシーンに基づいて関連する質問に答えることもできます。

現在、百度文心の公式サイトで体験できる文心ERNIE-ViLGのテキスト画像変換デモでは、古代の詩に基づいて絵画を作成し、詩の視覚的感覚を高めることができます。

これらの機能の背後には、どのような AI テクノロジーの秘密が隠されているのでしょうか?

クロスモーダル生成:AIにおける困難な問題

クロスモーダル生成とは、モダリティ間の意味の一貫性を維持しながら、あるモダリティ(テキスト、画像、音声)を別のモダリティに変換することを指します。

画像とテキストの生成は、クロスモーダル生成の課題の 1 つです。画像ベースのテキスト生成を例にとると、テキストの説明は高度に一般化されています。テキストに基づいて画像を生成するには、テキストではカバーされていない大量の詳細情報を考慮する必要があり、これは非常に困難です。例えば、「春の川の水が温かいと、鴨はまず知る」という句は、川の水と鴨という二つの対象と、春という季節についてのみ記述しており、鴨の色や川辺の桃の花、絵の中の対象の位置関係などについては具体的に記述していません。

春に川の水が温まると、アヒルは最初に知る

近年、生成的敵対ネットワーク(GAN)に基づく方法は、顔や風景などの限定された分野でのテキストから画像への生成タスクで優れた結果を達成しています。DALL-Eは、大規模な自己回帰生成モデルを使用して、画像フラグメント間の前方および後方依存関係を確立することで、多様な生成のモデリング機能を備えており、より多様性と難易度の高いオープンフィールドでのテキストから画像への生成で優れた結果を達成しています。

Baidu Wenxin ERNIE-ViLG モデルはさらに、統合されたクロスモーダル双方向生成モデルを提案しています。このモデルは、自己回帰生成モデルを通じて画像生成タスクとテキスト生成タスクを均一にモデル化し、モダリティ間の意味的整合関係をより適切に捉えることで、画像とテキストの双方向生成タスクの効果を同時に向上させます。テキスト生成画像の権威ある公開データセットである MS-COCO では、ERNIE-ViLG の画像品質評価指標 FID (Fréchet Inception Distance) が OpenAI の DALL-E などの類似モデルをはるかに上回り、複数の画像記述タスクで最高の結果を更新しました。さらに、ERNIE-ViLG は、強力なクロスモーダル理解機能により、生成型視覚質問応答タスクでも優れた結果を達成しました。

Wenxin ERNIE-ViLG 技術原理の解釈: 画像とテキストの双方向生成の統一モデリング

Baidu Wenxin ERNIE-ViLG は、エンコーダーとデコーダーのパラメーターを共有する Transformer を自己回帰生成のバックボーン ネットワークとして使用し、テキスト生成から画像生成、画像生成からテキスト生成という 2 つのタスクを同時に学習します。

ERNIE-ViLG は、画像ベクトル量子化技術に基づいて、画像を離散シーケンスとして表現し、テキストと画像に対して統一されたシーケンス自己回帰生成モデリングを実行します。テキストから画像を生成する場合、ERNIE-ViLG モデルの入力はテキスト トークン シーケンスであり、出力は画像トークン シーケンスです。画像からテキストを生成する場合、テキストの内容は入力画像シーケンスに基づいて予測されます。両方向の生成タスクには同じ Transformer モデルが使用されます。同じモデル パラメータで視覚モダリティと言語モダリティの両方に同じパターンを生成すると、モデルはより優れたクロスモーダル セマンティック アライメントを確立できるようになります。

Wenxin ERNIE-ViLG グラフィックスとテキストの双方向生成のための統合モデリング フレームワーク

離散画像表現に基づく既存のテキストから画像への生成モデルは、主に2段階のトレーニングを採用しています。テキストは視覚シーケンスを生成し、画像は視覚シーケンスに従って再構成されます。2つの段階は独立してトレーニングされます。Wenxin ERNIE-ViLGは、シーケンス生成プロセス中にTransformerモデルによって出力された潜在画像表現を画像復元の再構成モデ​​ルに接続し、再構成モデ​​ルに意味的に豊富な機能を提供するエンドツーエンドのトレーニング方法を提案しています。生成モデルは、独自の抽象監視信号と再構成モデ​​ルからの元の監視信号を同時に受信できるため、画像表現をより適切に学習できます。

Wenxin ERNIE-ViLG は、1 億 4,500 万件の高品質な中国語のテキストと画像のペアを含む大規模なクロスモーダル整合データセットを構築し、このデータセットに対して Baidu の PaddlePaddle ディープラーニング プラットフォームに基づく 100 億パラメータのモデルをトレーニングし、テキストから画像への生成や画像の説明などのクロスモーダル生成タスクにおけるモデルの有効性を評価しました。

テキストから画像への合成タスクの結果

ERNIE-ViLG がテ​​キストから画像を生成する能力は、オープンドメインのパブリックデータセット MS-COCO で検証されています。評価指標はFID(この指標の値が低いほど効果が高い)を採用した。ゼロショット法とファインチューニング法の両方において、Wenxin ERNIE-ViLGは最高の結果を達成し、OpenAIがリリースしたDALL-Eなどのモデルをはるかに上回った。

Wenxin ERNIE-ViLG が MS-COCO データセットに与える影響

画像キャプションタスクの結果

画像からテキストへの生成機能に関しては、ERNIE-ViLG は、公開されている 2 つの中国語画像キャプション生成データセット、COCO-CN と AIC-ICC で最高の結果を達成しました。

Wenxin ERNIE-ViLG が AIC-ICC データセットに与える影響

生成的 VQA タスクの結果

生成的ビジュアル質問応答の面でも、Wenxin ERNIE-ViLG はその優れた強さを示しました。生成型ビジュアル質問応答では、画像コンテンツとそれに対応する質問に基づいて回答を生成するモデルが必要です。モデルには、ビジュアル コンテンツの詳細な理解機能とクロスモーダルなセマンティック アライメント機能が必要であり、短い回答テキストを生成する必要がありますが、これは非常に困難です。 Wenxin ERNIE-ViLG は、FMIQA データセットで最高の結果を達成し、チューリング テスト合格率は 78.5% となり、現在の最良の方法よりも 14 パーセントポイント高くなりました。

Wenxin ERNIE-ViLG が FMIQA データセットに与える影響

結論

機械がクロスモーダル生成機能を持つようにすることは、人工知能の重要な目標の 1 つです。芸術創作、バーチャルリアリティ、画像編集、AI支援設計、バーチャルデジタルヒューマンなどの分野において、Wenxin ERNIE-ViLGなどのクロスモーダル大型モデルは幅広い応用展望があり、これらの分野の将来の発展に無限の創造性と可能性を提供します。百度の「文心」ビッグモデルパノラマの重要なメンバーとして、文心ERNIE-ViLGは、百度文心のクロスモーダルビッグモデル分野における確固たる一歩を象徴し、自主的な技術革新と産業応用の加速の側面から中国のAIの発展を継続的に推進しています。

<<:  MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

>>:  企業チームのスキルは AI 導入の障壁となるのでしょうか?

ブログ    
ブログ    

推薦する

これら10機関からの24の調査データはAIのトレンドを理解するのに役立ちます

[[256519]] 2019年1月現在の人工知能の現状は?最近の調査では、AI の人気、測定可能な...

セキュリティ業界の大手企業はどのようにドローンを配備するのでしょうか?

ドローンは警報装置、検出器、カメラなどを搭載し、多くの機能を実現でき、セキュリティ監視、スマートビル...

中間レビュー: 2021 年に最も注目される AI スタートアップ 10 社

[[407377]] 2021年はまだ半分しか経っていませんが、人工知能に注力する人気のスタートアッ...

ChatGPTヘルプ! 4歳の男の子は3年間で17人の専門医に治療を受けたが、効果はなかった。大型模型が病気の原因を正確に特定した

3年間「奇妙な病気」の治療を求めても効果がなかったのですが、ついにChatGPTによって診断に成功し...

XLNet の作者と AMiner のコア開発者が協力し、AI でエンタープライズ セールスを強化

[元記事は51CTO.comより] 近年、多くのインターネット企業がデータ、テクノロジー、AI、組織...

日本俳優連合がAI法案を提案、「声の肖像権」創設求める

俳優や声優(声優)の保護に取り組む日本俳優協会は6月14日、「生成型人工知能技術の活用に関する提言」...

Python で機械学習を簡単に

ナイーブ ベイズ分類器を使用して、現実世界の機械学習の問題を解決します。ナイーブベイズナイーブベイズ...

OpenAI取締役会の爆発的な活動が暴露される!投資家は訴訟の準備をしている、ネットユーザー:GPT-4はあなたよりも人を解雇するのが得意

OpenAIのドラマはまだ終わっておらず、多くのとんでもない行為が暴露されている。アルトマン氏を解雇...

人気のディープラーニングライブラリ23選のランキング

[[209139]] Data Incubator は最近、Github と Stack Overf...

ヒューマノイドロボットはマジックを披露することができます。春節祭のスタッフにその詳細をお伝えします。

一瞬のうちに、ロボットは魔法を使うことを覚えたのでしょうか?まず、テーブルの上の水のスプーンを手に取...

...

人工知能は世界をどう変えるのか:BBCがAIのAからZまでをまとめる

今日、人工知能はもはや漠然とした研究室の技術ではなく、私たちの生活のあらゆる側面に組み込まれています...

...

Jenkins 独自のユーザー データベース暗号化アルゴリズムの簡単な分析

Jenkins のアクセス制御は、セキュリティ ドメイン (認証) と承認戦略に分かれています。その...