1. リッチメディアのマルチモーダル理解まず、マルチモーダル コンテンツに対する私たちの認識についてお話ししましょう。 1. マルチモーダル理解コンテンツ理解機能を向上させ、セグメント化されたシナリオで広告システムがコンテンツをよりよく理解できるようにします。 コンテンツの理解を向上させる際には、多くの実際的な問題に遭遇するでしょう。
優れたマルチモーダル基本表現とは何か。 優れたマルチモーダル表現とは何でしょうか? シーンのデータの微調整を確実にしながら、データの適用範囲を幅広く拡大し、視覚効果を深く強化する必要があります。 これまでの従来の考え方は、画像のモダリティを学習するモデルをトレーニングし、自己回帰タスクを実行してからテキストタスクを実行し、いくつかのデュアルタワーモデルを適用して 2 つの間のモダリティ関係を絞り込むというものでした。当時はテキストモデリングは比較的単純で、視覚をモデリングする方法の研究に重点が置かれていました。当初は CNN でしたが、その後、bbox 法など、視覚表現を改善するためにターゲット検出に基づくいくつかの方法が追加されました。ただし、この方法は検出機能が限られており、重すぎるため、大規模なデータのトレーニングには適していません。 2020年~2021年頃にはVIT方式が主流になってきました。ここで言及しなければならない有名なモデルは、OpenAIが20年前にリリースしたモデルであるCLIPであり、テキストとビジョンをそれぞれ表現するデュアルタワーアーキテクチャに基づいています。次に、コサインを使用して 2 つの間の距離を縮めます。このモデルは検索には非常に優れていますが、VQA タスクなどの論理的推論を必要とする一部のタスクでは機能が若干不足しています。 表現の学習:視覚に対する自然言語の基本的な認識能力の向上。 私たちの目標は、自然言語の基本的な視覚認識能力を強化することです。データに関して言えば、私たちの事業領域には数十億のデータがありますが、それでもまだ十分ではありません。さらに拡張し、事業領域から過去のデータを導入し、クリーンアップして整理する必要があります。数百億項目のトレーニング セットが構築されました。 VICAN-12Bマルチモーダル表現+生成モデルを構築し、生成タスクを使用して視覚を通じてテキストを復元し、テキストに対する視覚表現の融合効果をさらに確保し、自然言語の視覚に対する基本的な認識能力を向上させました。上の写真はモデルの全体構造を示したもので、ダブルタワー+シングルタワーの複合構造になっていることがわかります。最初に解決しなければならないのは、大規模な画像検索タスクだからです。左側のボックス内の部分は視覚パーセプトロンと呼ばれ、20億のパラメータ規模を持つViT構造です。右側は2つの層に分かれており、下層は検索用でテキストトランスフォーマーのスタックになっており、上層は生成用です。モデルは、生成タスク、分類タスク、画像比較タスクの 3 つのタスクに分かれています。この 3 つの異なる目標に基づいてモデルをトレーニングしているため、比較的良好な効果が得られていますが、さらに最適化していきます。 効率的で統合された転送可能なマルチシナリオのグローバル表現ソリューション。 ビジネス シナリオ データと組み合わせて、モデルの理解機能を向上させる LLM モデルが導入されました。 CV モデルはパーセプトロンであり、LLM モデルはコンプリヘンダーです。前述のように、表現はマルチモーダルであり、大規模なモデルはテキストベースであるため、私たちのアプローチは、それに応じて視覚的な特徴を転送することです。これを Wenxin LLM 大規模モデルに適応させる必要があるだけなので、対応する機能の融合を実行するには Combo attention メソッドを使用する必要があります。大規模モデルの論理的推論能力を維持する必要があるため、大規模モデルを変更せず、ビジネス シナリオのフィードバック データのみを追加して、大規模モデルへの視覚機能の統合を促進します。ミッションをサポートするために、いくつかのショットを使用できます。主なタスクは次のとおりです。
次は、シナリオベースの微調整の共有に焦点を当てます。 2. シナリオベースの微調整視覚検索シーン、グラウンド表現に基づくデュアルタワーによる微調整。 基本的な表現に基づき、テキストビッグモデルと組み合わせて、さまざまな商用シナリオの画像クリックフィードバック信号をラベラーとして使用し、さまざまなシナリオにおける画像とテキストの部分的な順序関係を細かく特徴付けます。 7 つの主要なデータ セットについて評価を実施し、そのすべてで SOTA 結果を達成しました。 テキストのセグメンテーションにヒントを得たソートのシナリオでは、マルチモーダル機能が意味的に定量化されます。 表現に加えて、ソートシナリオでの視覚効果をどのように向上させるかという問題もあります。まず、この分野の背景を見てみましょう。大規模離散DNNは、業界におけるソートモデルの主流の開発方向であり、離散特徴はソートモデルの最適化の中核でもあります。テキストはモデルに入力され、単語の分割に基づいてトークン化され、他の個別の機能と組み合わされて良好な結果が得られます。ビジョンに関しては、それをトークン化することも望んでいます。 ID 機能は実際には非常にパーソナライズされた機能ですが、一般化された機能がより普遍的になるにつれて、その特性の精度は低下する可能性があります。データとタスクを通じてこのバランスポイントを動的に調整する必要があります。つまり、データに最も関連性の高いスケールを見つけ、それに応じて機能を ID に「セグメント化」し、テキストなどのマルチモーダル機能をセグメント化したいと考えています。そこで、この問題を解決するために、マルチスケール、マルチレベルのコンテンツ定量化学習法を提案しました。 ソートシナリオ、マルチモーダル機能とモデルの融合 MmDict。 大きく分けて2つのステップに分かれており、最初のステップでは離散性を学び、2番目のステップでは積分性を学びます。 ステップ1: 離散を学ぶ①スパース活性化を使用して、連続信号を複数の離散信号で表現します。つまり、スパース活性化を使用して密な特徴を分割し、対応するマルチモーダルコードブックのIDをアクティブ化します。ただし、ここではargmax操作のみであるため、微分不可能の問題が発生します。同時に、特徴空間の崩壊を防ぐために、アクティブ化されたニューロンと非アクティブ化されたニューロン間の情報相互作用が追加されます。 ②STE戦略を導入してネットワークの非微分性の問題を解決し、元の特徴を再構築し、半順序関係が変化しないことを保証します。 エンコーダー-デコーダー方式により、高密度特徴が順番に量子化され、量子化された特徴が正しい方法で復元されます。復元前後で部分順序関係は不変に保たれなければならず、特定のタスクにおける特徴の定量的損失はほぼ1%未満に抑えることができます。このようなIDは、現在のデータ分布の個別化を備え、一般化特性も備えています。 ステップ2: 統合を学ぶ①スパース層における大規模な離散化とソートモデルとの融合。 したがって、上記の隠しレイヤーの再利用を直接上に置くと、効果は平均的になります。これを ID 化して定量化し、スパース フィーチャ レイヤーで他のクラスのフィーチャと融合すると、より良い効果が得られます。 ② 中心→残差の2レベルとSMLの3スケールで損失を削減します。 もちろん、残差とマルチスケール法もいくつか使用しました。 2020年から、定量的損失を徐々に減らし、昨年は1ポイント以下になりました。このように、大規模モデルから特徴を抽出した後、この学習可能で定量的な方法を使用して視覚コンテンツを特徴付けることができます。意味的に関連付けられたIDを持つ特徴は、推奨システム用のIDのこの探索的研究方法を含め、現在の商用システムに非常に適しています。 2. ステアリング1.コマーシャルAIGCはマーケティングを深く融合し、コンテンツの生産性を向上させ、効率と効果の連携を最適化します。Baidu Marketing AIGC Creative Platform は、インスピレーションから創造、そして配信まで、完璧な閉ループを形成します。分解、生成、フィードバックはすべて、AIGC の最適化に貢献しています。
2. マーケティングコピー生成 = ビジネスプロンプトシステム + 文心モデル優れたビジネスプロンプトには、次の要素が含まれます。
3. マルチモーダルマーケティングデジタルヒューマンビデオ生成、3分でデジタルヒューマンを作成ビデオ生成は現在、比較的成熟しています。しかし、まだいくつか問題があります:
初期段階では、どのような種類のビデオを生成したいか、どのような人物を選びたいか、プロンプトを通じて何を言ってほしいかを入力します。その後、それらの要求に基づいて、大規模なモデルを正確に制御して、対応するスクリプトを生成します。 次に、デジタルヒューマンライブラリを通じて対応するデジタルヒューマンを呼び出すことができますが、AIテクノロジーを使用して、顔の置き換え、背景の置き換え、アクセントや声の置き換えなど、プロンプトに適応するデジタルヒューマンの多様性をさらに高めることができます。最後に、スクリプト、デジタルヒューマンの唇の形の置き換え、背景の置き換え、顔の置き換え、ビデオの圧縮を行った後、音声ビデオを取得できます。顧客はデジタルヒューマンを使用して、製品のマーケティングセールスポイントを紹介することができます。この方法では、わずか 3 分でデジタル パーソンを作成できるため、広告主のデジタル パーソン作成能力が大幅に向上します。 4. マーケティングポスター画像生成、マルチモーダル表現と組み合わせたマーケティング画像生成大きなモデルは、企業がマーケティング ポスターを生成したり、製品の背景を置き換えたりするのにも役立ちます。すでに数百億のデータのマルチモーダル表現があります。中間層は学習した拡散層です。私たちは優れた動的表現に基づいてネットを学習します。ビッグデータでトレーニングした後でも、顧客は特にパーソナライズされたものを望んでいるため、微調整の方法も追加する必要があります。 当社では、お客様の微調整を支援するソリューション、業界でも一般的なソリューションである、小さなパラメータを大きなモデルに動的にロードするソリューションを提供しています。 まず、お客様に RAW 画像機能を提供します。これにより、お客様は編集やプロンプトを通じて画像の背景を変更できます。 |
<<: ChatGPT を使ってデータを分析する 6 つの方法
>>: 企業が大型モデルに「参入」する場合、なぜ大手メーカーによる生産が推奨されるのでしょうか?
近年、ウィッグ業界は海外進出のホットな分野として、国際市場で急速に台頭してきました。 Statist...
2023年10月11日、北京の黄金の秋に、第9回HAOMO AI DAYが予定通り開催されました。今...
人工知能 (AI) と機械学習が現代生活を改善すると期待される多くの方法の中でも、公共交通機関に影響...
[[253094]]がんの早期発見から国境を越えた人間の言語理解、リアルタイムの高解像度ビデオでの顔...
「仕事でサボるのは楽しいが、いつもサボっているのも楽しい」ということわざがあります。 [[3583...
1. 概要記事「ディープラーニング向けヘテロジニアスアクセラレーションテクノロジー(パート1)」で説...
Googleは8月4日、今年のGoogle I/Oで「Search Generative Engin...
機械学習では特徴を選択する必要があり、人生でも同じではないでしょうか?特徴選択とは、利用可能な多数の...
人工知能は、生産性の向上、売上の増加、ユーザーエクスペリエンスの向上など、さまざまな状況で使用されて...
現象:再帰は、アルゴリズムの原理をうまく説明できる古典的なアルゴリズム実装です。再帰は、アルゴリズム...
[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...
[[399011]]飛行機に搭乗するための「顔スキャン」、歩行者を積極的に識別して回避する自動運転車...
最近、イスラエルを拠点とするスマート物流ロボットのスタートアップであるCAJA Roboticsは、...