Baiduのビジネスマルチモーダル理解とAIGCの革新的な実践

Baiduのビジネスマルチモーダル理解とAIGCの革新的な実践

1. リッチメディアのマルチモーダル理解

まず、マルチモーダル コンテンツに対する私たちの認識についてお話ししましょう。

1. マルチモーダル理解

コンテンツ理解機能を向上させ、セグメント化されたシナリオで広告システムがコンテンツをよりよく理解できるようにします。

コンテンツの理解を向上させる際には、多くの実際的な問題に遭遇するでしょう。

  • ビジネス シナリオや業界は数多くあります。独立したモデリングは冗長であり、過剰適合につながります。統合モデリングでは、シナリオ間の共通性と特殊性のバランスをどのように取ればよいでしょうか。
  • 商業用ビジュアル素材の周りのテキストが貧弱だと、イラストが悪くなる可能性が高くなります。
  • このシステムは意味のない ID のような特徴でいっぱいで、一般化が不十分です。
  • リッチ メディアの時代では、システム内でリッチ メディア コンテンツの認識を高めるために、視覚的なセマンティクスを効率的に活用し、コンテンツ機能、ビデオ機能、その他の機能をどのように統合するかという問題を解決する必要があります。

優れたマルチモーダル基本表現とは何か。

優れたマルチモーダル表現とは何でしょうか?

シーンのデータの微調整を確実にしながら、データの適用範囲を幅広く拡大し、視覚効果を深く強化する必要があります。

これまでの従来の考え方は、画像のモダリティを学習するモデルをトレーニングし、自己回帰タスクを実行してからテキストタスクを実行し、いくつかのデュアルタワーモデルを適用して 2 つの間のモダリティ関係を絞り込むというものでした。当時はテキストモデリングは比較的単純で、視覚をモデリングする方法の研究に重点が置かれていました。当初は CNN でしたが、その後、bbox 法など、視覚表現を改善するためにターゲット検出に基づくいくつかの方法が追加されました。ただし、この方法は検出機能が限られており、重すぎるため、大規模なデータのトレーニングには適していません。

2020年~2021年頃にはVIT方式が主流になってきました。ここで言及しなければならない有名なモデルは、OpenAIが20年前にリリースしたモデルであるCLIPであり、テキストとビジョンをそれぞれ表現するデュアルタワーアーキテクチャに基づいています。次に、コサインを使用して 2 つの間の距離を縮めます。このモデルは検索には非常に優れていますが、VQA タスクなどの論理的推論を必要とする一部のタスクでは機能が若干不足しています。

表現の学習:視覚に対する自然言語の基本的な認識能力の向上。

私たちの目標は、自然言語の基本的な視覚認識能力を強化することです。データに関して言えば、私たちの事業領域には数十億のデータがありますが、それでもまだ十分ではありません。さらに拡張し、事業領域から過去のデータを導入し、クリーンアップして整理する必要があります。数百億項目のトレーニング セットが構築されました。

VICAN-12Bマルチモーダル表現+生成モデルを構築し、生成タスクを使用して視覚を通じてテキストを復元し、テキストに対する視覚表現の融合効果をさらに確保し、自然言語の視覚に対する基本的な認識能力を向上させました。上の写真はモデルの全体構造を示したもので、ダブルタワー+シングルタワーの複合構造になっていることがわかります。最初に解決しなければならないのは、大規模な画像検索タスクだからです。左側のボックス内の部分は視覚パーセプトロンと呼ばれ、20億のパラメータ規模を持つViT構造です。右側は2つの層に分かれており、下層は検索用でテキストトランスフォーマーのスタックになっており、上層は生成用です。モデルは、生成タスク、分類タスク、画像比較タスクの 3 つのタスクに分かれています。この 3 つの異なる目標に基づいてモデルをトレーニングしているため、比較的良好な効果が得られていますが、さらに最適化していきます。

効率的で統合された転送可能なマルチシナリオのグローバル表現ソリューション。

ビジネス シナリオ データと組み合わせて、モデルの理解機能を向上させる LLM モデルが導入されました。 CV モデルはパーセプトロンであり、LLM モデルはコンプリヘンダーです。前述のように、表現はマルチモーダルであり、大規模なモデルはテキストベースであるため、私たちのアプローチは、それに応じて視覚的な特徴を転送することです。これを Wenxin LLM 大規模モデルに適応させる必要があるだけなので、対応する機能の融合を実行するには Combo attention メソッドを使用する必要があります。大規模モデルの論理的推論能力を維持する必要があるため、大規模モデルを変更せず、ビジネス シナリオのフィードバック データのみを追加して、大規模モデルへの視覚機能の統合を促進します。ミッションをサポートするために、いくつかのショットを使用できます。主なタスクは次のとおりです。

  • 画像の説明は、実際には単なる説明ではなく、Prompt のリバース エンジニアリングです。高品質の画像とテキスト データは、その後のテキスト生成画像にとってより優れたデータ ソースとして機能します。
  • 画像とテキストの関連性を制御します。ビジネスを構成し、画像情報を理解する必要があるため、広告画像の検索用語と画像セマンティクスを実際に制御する必要があります。もちろん、これは非常に一般的な方法であり、画像とプロンプトの関連性を判断するために使用できます。
  • 画像リスクとエクスペリエンス管理。画像のコンテンツについては比較的適切に説明できたため、リスク管理の小さなサンプルデータ移行を使用するだけで、何らかのリスク問題が含まれているかどうかを明確に把握できます。

次は、シナリオベースの微調整の共有に焦点を当てます。

2. シナリオベースの微調整

視覚検索シーン、グラウンド表現に基づくデュアルタワーによる微調整。

基本的な表現に基づき、テキストビッグモデルと組み合わせて、さまざまな商用シナリオの画像クリックフィードバック信号をラベラーとして使用し、さまざまなシナリオにおける画像とテキストの部分的な順序関係を細かく特徴付けます。 7 つの主要なデータ セットについて評価を実施し、そのすべてで SOTA 結果を達成しました。

テキストのセグメンテーションにヒントを得たソートのシナリオでは、マルチモーダル機能が意味的に定量化されます。

表現に加えて、ソートシナリオでの視覚効果をどのように向上させるかという問題もあります。まず、この分野の背景を見てみましょう。大規模離散DNN​​は、業界におけるソートモデルの主流の開発方向であり、離散特徴はソートモデルの最適化の中核でもあります。テキストはモデルに入力され、単語の分割に基づいてトークン化され、他の個別の機能と組み合わされて良好な結果が得られます。ビジョンに関しては、それをトークン化することも望んでいます。

ID 機能は実際には非常にパーソナライズされた機能ですが、一般化された機能がより普遍的になるにつれて、その特性の精度は低下する可能性があります。データとタスクを通じてこのバランスポイントを動的に調整する必要があります。つまり、データに最も関連性の高いスケールを見つけ、それに応じて機能を ID に「セグメント化」し、テキストなどのマルチモーダル機能をセグメント化したいと考えています。そこで、この問題を解決するために、マルチスケール、マルチレベルのコンテンツ定量化学習法を提案しました。

ソートシナリオ、マルチモーダル機能とモデルの融合 MmDict。

大きく分けて2つのステップに分かれており、最初のステップでは離散性を学び、2番目のステップでは積分性を学びます。

ステップ1: 離散を学ぶ

①スパース活性化を使用して、連続信号を複数の離散信号で表現します。つまり、スパース活性化を使用して密な特徴を分割し、対応するマルチモーダルコードブ​​ックのIDをアクティブ化します。ただし、ここではargmax操作のみであるため、微分不可能の問題が発生します。同時に、特徴空間の崩壊を防ぐために、アクティブ化されたニューロンと非アクティブ化されたニューロン間の情報相互作用が追加されます。

②STE戦略を導入してネットワークの非微分性の問題を解決し、元の特徴を再構築し、半順序関係が変化しないことを保証します。

エンコーダー-デコーダー方式により、高密度特徴が順番に量子化され、量子化された特徴が正しい方法で復元されます。復元前後で部分順序関係は不変に保たれなければならず、特定のタスクにおける特徴の定量的損失はほぼ1%未満に抑えることができます。このようなIDは、現在のデータ分布の個別化を備え、一般化特性も備えています。

ステップ2: 統合を学ぶ

①スパース層における大規模な離散化とソートモデルとの融合。

したがって、上記の隠しレイヤーの再利用を直接上に置くと、効果は平均的になります。これを ID 化して定量化し、スパース フィーチャ レイヤーで他のクラスのフィーチャと融合すると、より良い効果が得られます。

② 中心→残差の2レベルとSMLの3スケールで損失を削減します。

もちろん、残差とマルチスケール法もいくつか使用しました。 2020年から、定量的損失を徐々に減らし、昨年は1ポイント以下になりました。このように、大規模モデルから特徴を抽出した後、この学習可能で定量的な方法を使用して視覚コンテンツを特徴付けることができます。意味的に関連付けられたIDを持つ特徴は、推奨システム用のIDのこの探索的研究方法を含め、現在の商用システムに非常に適しています。

2. ステアリング

1.コマーシャルAIGCはマーケティングを深く融合し、コンテンツの生産性を向上させ、効率と効果の連携を最適化します。

Baidu Marketing AIGC Creative Platform は、インスピレーションから創造、そして配信まで、完璧な閉ループを形成します。分解、生成、フィードバックはすべて、AIGC の最適化に貢献しています。

  • インスピレーション: AI 理解 (コンテンツとユーザーの理解)。 AI はどのようなプロンプトが適切かを判断するのに役立ちますか?素材の洞察からクリエイティブなガイダンスまで。
  • 作成: テキスト生成、画像生成、デジタルヒューマン、ビデオ生成などの AIGC。
  • 提供: AI 最適化。経験的な試行錯誤から自動最適化へ。

2. マーケティングコピー生成 = ビジネスプロンプトシステム + 文心モデル

優れたビジネスプロンプトには、次の要素が含まれます。

  • ナレッジ グラフ: たとえば、車を販売する場合、車にはどのような商業的要素が含まれている必要がありますか? ブランドだけでは不十分です。広告主は完全なナレッジ システムを求めています。
  • 現在の「文学的な」プロモーション スタイルなどのスタイルは、実際には、それがどのようなマーケティング タイトルまたはマーケティング説明であるかを判断するのに役立ついくつかのラベルに抽象化する必要があります。
  • セールスポイント、セールスポイントは実際には製品属性の特徴であり、消費の最も強力な理由です。
  • ユーザー ポートレートは、ターゲットの行動観点の違いに基づいてさまざまなタイプに分割され、すばやくまとめられ、新しく導き出されたタイプが洗練されて、ユーザー ポートレートのタイプが形成されます。

3. マルチモーダルマーケティングデジタルヒューマンビデオ生成、3分でデジタルヒューマンを作成

ビデオ生成は現在、比較的成熟しています。しかし、まだいくつか問題があります:

  • 脚本執筆: 人々の知識と経験の限界により、高品質の脚本を維持することが難しく、深刻な均質性が生じます。
  • 素材の準備: プロのチーム、俳優、素材の備蓄などの高コストのツールによって強化され、「組み立てと合成」が主な焦点となります。
  • ポストプロダクション: ポストプロダクションは手作業による試行錯誤に依存しており、面倒です。

初期段階では、どのような種類のビデオを生成したいか、どのような人物を選びたいか、プロンプトを通じて何を言ってほしいかを入力します。その後、それらの要求に基づいて、大規模なモデルを正確に制御して、対応するスクリプトを生成します。

次に、デジタルヒューマンライブラリを通じて対応するデジタルヒューマンを呼び出すことができますが、AIテクノロジーを使用して、顔の置き換え、背景の置き換え、アクセントや声の置き換えなど、プロンプトに適応するデジタルヒューマンの多様性をさらに高めることができます。最後に、スクリプト、デジタルヒューマンの唇の形の置き換え、背景の置き換え、顔の置き換え、ビデオの圧縮を行った後、音声ビデオを取得できます。顧客はデジタルヒューマンを使用して、製品のマーケティングセールスポイントを紹介することができます。この方法では、わずか 3 分でデジタル パーソンを作成できるため、広告主のデジタル パーソン作成能力が大幅に向上します。

4. マーケティングポスター画像生成、マルチモーダル表現と組み合わせたマーケティング画像生成

大きなモデルは、企業がマーケティング ポスターを生成したり、製品の背景を置き換えたりするのにも役立ちます。すでに数百億のデータのマルチモーダル表現があります。中間層は学習した拡散層です。私たちは優れた動的表現に基づいてネットを学習します。ビッグデータでトレーニングした後でも、顧客は特にパーソナライズされたものを望んでいるため、微調整の方法も追加する必要があります。

当社では、お客様の微調整を支援するソリューション、業界でも一般的なソリューションである、小さなパラメータを大きなモデルに動的にロードするソリューションを提供しています。

まず、お客様に RAW 画像機能を提供します。これにより、お客様は編集やプロンプトを通じて画像の背景を変更できます。

<<:  ChatGPT を使ってデータを分析する 6 つの方法

>>:  企業が大型モデルに「参入」する場合、なぜ大手メーカーによる生産が推奨されるのでしょうか?

ブログ    
ブログ    

推薦する

独立サイトへのアクセス数が10万を超えました。YidiantianxiaのKreadoAIのサポートにより、海外のウィッグ市場でこのように活躍できることがわかりました。

近年、ウィッグ業界は海外進出のホットな分野として、国際市場で急速に台頭してきました。 Statist...

AIと機械学習が交通をどのように変えているのか

人工知能 (AI) と機械学習が現代生活を改善すると期待される多くの方法の中でも、公共交通機関に影響...

人工知能がデータセンターを変革

[[253094]]がんの早期発見から国境を越えた人間の言語理解、リアルタイムの高解像度ビデオでの顔...

AIが監督者になる。それでも仕事をサボれるのか?

「仕事でサボるのは楽しいが、いつもサボっているのも楽しい」ということわざがあります。 [[3583...

ディープラーニングのためのヘテロジニアス アクセラレーション テクノロジー (パート 2): カタツムリの殻の中に道場を構築する

1. 概要記事「ディープラーニング向けヘテロジニアスアクセラレーションテクノロジー(パート1)」で説...

Google、検索結果にAIベースの「要約」機能を追加

Googleは8月4日、今年のGoogle I/Oで「Search Generative Engin...

この記事では機械学習における3つの特徴選択手法を紹介します。

機械学習では特徴を選択する必要があり、人生でも同じではないでしょうか?特徴選択とは、利用可能な多数の...

...

サイバーセキュリティのための AI: セキュリティ戦略への AI の組み込み

人工知能は、生産性の向上、売上の増加、ユーザーエクスペリエンスの向上など、さまざまな状況で使用されて...

Java でアルゴリズムを実装する場合は、再帰に注意してください。

現象:再帰は、アルゴリズムの原理をうまく説明できる古典的なアルゴリズム実装です。再帰は、アルゴリズム...

...

水滴事件の裏側:スマート監視下では逃げ場はなく、カモフラージュやマスク着用も無意味!

[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...

人工知能は生産と生活の変革を加速させる

[[399011]]飛行機に搭乗するための「顔スキャン」、歩行者を積極的に識別して回避する自動運転車...

物流ロボットが急増中!今後の市場の成長は2つのエンジンによって支えられる

最近、イスラエルを拠点とするスマート物流ロボットのスタートアップであるCAJA Roboticsは、...