美団における短編動画コンテンツ理解・生成技術の革新的実践

美団における短編動画コンテンツ理解・生成技術の革新的実践

著者 |馬斌

映像データに関しては、コンピュータビジョン技術を通じて関連データを活用し、ユーザーや企業により良いサービスを提供することが重要な研究開発テーマです。この記事では、Meituan のビジネス シナリオにおけるショート ビデオ コンテンツの理解と生成技術の実際の応用について説明します。

1. 背景

Meituan は、幅広い地域生活サービス e コマース シナリオに関する豊富なビデオ データを蓄積してきました。

上記は、Meituan のビジネス シナリオにおける料理レビューの例を示しています。動画はテキストや画像よりも豊富な情報を提供できることがわかります。創作料理「氷と炎の歌」における炎、チョコレート、アイスクリームのダイナミックな相互作用は、短い動画を通じて生き生きと表現され、商店やユーザーに多様なコンテンツの表示と消費のガイダンスを提供します。

ビデオ産業の発展

撮影・取得機器の小型化、ビデオエンコード・デコード技術の進歩、ネットワーク通信技術の向上など、多くの技術分野で大きな進歩が遂げられたことにより、私たちは急速にビデオ爆発の時代を迎えることができました。近年、視覚 AI アルゴリズムは成熟を続けており、ビデオ シナリオで広く使用されるようになりました。この記事では、主にビジュアル AI テクノロジのサポートを通じてビデオ コンテンツの作成、制作、配信の効率を向上させる方法に焦点を当てます。美団AI——シナリオ主導型テクノロジー

美団といえば、まず思い浮かぶのはテイクアウトを注文するシーンです。しかし、テイクアウト以外にも、美団は200以上の事業を展開しており、「食べる」「暮らす」「旅行」「娯楽」などの生活サービスシーンや、「美団有線」や「団好火」などの小売電子商取引も展開しています。豊富なビジネス シナリオにより、多様なデータと多様な実用的なアプリケーションがもたらされ、それが基盤となるテクノロジの革新的な反復を促進します。同時に、基盤技術の蓄積により、さまざまなビジネスのデジタル化とインテリジェント化が促進され、相互に強化し合う好循環が形成されます。美団ビジネスシナリオショートビデオ

リッチコンテンツと表示形式(C 終了) この記事で紹介する技術的な実践事例のいくつかは、主に「食べること」に関するものです。美団はあらゆるシーンにコンテンツのレイアウトと表示形式を備えており、ショートビデオ技術は、Dianpingアプリを開いたときに誰もが目にするホームページフィードビデオカード、没入型ビデオ、ビデオノート、ユーザーコメント、検索結果ページなど、美団のCエンドでも広く使用されています。これらのビデオ コンテンツは、ユーザーに提示される前に、まず多くのアルゴリズム モデルによって理解され、処理される必要があります。

豊富なコンテンツと表示形式(B 側) マーチャント側(B 側)のビデオ コンテンツの表示形式には、観光スポットの紹介(消費者がより立体的なオンライン旅行体験をできるようにする)、ホテル アルバムのクイック ビュー(アルバム内の静止画像をビデオに合成してホテル情報を包括的に表示し、ユーザーがホテルの全体像をすばやく理解できるようにする)が含まれます(自動生成テクノロジについては、次のセクション 2.2.2 で紹介します)。

マーチャントブランド広告 - アルゴリズムは、インテリジェント編集などの機能を通じて、マーチャントがビデオを編集および作成するためのハードルを下げることができます。マーチャントビデオアルバム - マーチャントは自分でさまざまなビデオコンテンツをアップロードでき、アルゴリズムはビデオにラベルを付けて、マーチャントのビデオ管理を支援します。製品ビデオ/GIF - 前述のように、Meituan の事業範囲には小売電子商取引も含まれており、製品情報の表示に非常に有利です。例えば、カニやエビなどの生鮮品は静止画像では動きの情報を伝えることが難しいですが、アニメーション画像であればユーザーにより多くの商品参考情報を提供することができます。ショートビデオ技術の応用シナリオ

アプリケーションシナリオの観点から見ると、ショートビデオのオンラインアプリケーションには、主にコンテンツ運用管理、コンテンツの検索と推奨、広告マーケティング、クリエイティブ制作などが含まれます。基盤となるサポート技術は、主にコンテンツ理解とコンテンツ制作の 2 つのカテゴリに分けられます。コンテンツ理解は主に、ビデオのどの時点でどのようなコンテンツが表示されるかという質問に答えます。コンテンツ制作は通常、コンテンツの理解とビデオ素材の処理に基づいています。代表的なテクノロジーとしては、ビデオのスマートカバーやスマート編集などがあります。以下では、Meituan のシナリオにおけるこれら 2 種類のテクノロジーの実践をそれぞれ紹介します。

2. 短編動画コンテンツの理解と生成技術の実践

2.1 短い動画コンテンツを理解する

2.1.1 ビデオタグ

ビデオ コンテンツ理解の主な目的は、ビデオに登場する重要な概念を要約し、ビデオ コンテンツの「ブラック ボックス」を開き、ボックスの内容がマシンにわかるようにし、下流のアプリケーションがビデオをより適切に管理および配信できるように意味情報を提供することです。結果の形式に応じて、内容理解は明示的と暗黙的の2つに分けられます。

このうち、明示的とは、ビデオ分類関連の技術を使用して、人間が理解できるテキストラベルでビデオにラベルを付けることを意味します。暗黙的とは主に、ベクトルの形式で表現される埋め込み機能を指し、推奨や検索などのシナリオでモデルと組み合わせて、最終タスクを直接モデル化します。大まかに言えば、前者は主に人間向けであり、後者は主に機械学習アルゴリズム向けであると考えられます。明示的なビデオ コンテンツ ラベルは、多くのシナリオで必要です。たとえば、コンテンツ操作シナリオでは、オペレーターは需要と供給の分析を行い、ラベルに基づいて価値の高いコンテンツを選択する必要があります。

上の図は、コンテンツ理解に基づいて動画にラベルを付ける一般的なプロセスを示しています。ここでの各ラベルは、人間が理解できるキーワードです。通常、メンテナンスと使用を容易にするために、多数のタグが論理的な関係に基づいてタグ システムに編成されます。

2.1.2 ビデオタグのさまざまな次元と粒度

では、ビデオタグの適用シナリオは何でしょうか?その背後にある技術的な困難は何でしょうか? Meituan のシナリオにおけるより代表的な例は、コンテンツが非常に豊富な食品探索ビデオです。ラベル システムの設定は特に重要です。ビデオ コンテンツを説明するにはどのようなラベルが適切でしょうか。まず、ラベルの定義は、製品、操作、アルゴリズムなど複数の観点から決定する必要があります。この場合、ラベルには 3 つのレイヤーがあり、レイヤーごとに抽象度が増していきます。

その中で、トピックタグは、食べ物探索のテーマなど、ビデオの全体的な内容を要約する強力な機能を持っています。中間層はさらに分割され、店内外の環境など、撮影シーンに関連するコンテンツを説明します。最下層は細かいエンティティに分割され、カンバオチキンやトマト入りスクランブルエッグの粒度を理解します。異なるレベルのタグには異なる用途があります。最上位のビデオ トピック タグは、価値の高いコンテンツのスクリーニングと操作に使用できます。

主な難しさは、抽象度が高いことにあります。「食品探索」という用語は非常に一般的であり、ビデオを見た後に人々が理解することができます。ただし、視覚的特徴モデリングの観点から、食品探索と見なされるためにどのような特性が必要であるかは、モデルの学習能力に大きな課題をもたらします。

2.1.3 基本的な表現学習

このソリューションは、ラベルに依存しない一般的な基本表現の改善と、特定のラベルの分類パフォーマンスの向上という 2 つの側面に重点を置いています。初期モデルには、優れた基本表現機能が必要です。この部分は、最終的な下流タスク (たとえば、食品探索ビデオであるかどうかの識別) には関係しませんが、モデルの重みの事前トレーニングです。優れた基本表現により、下流のタスクのパフォーマンスが向上し、半分の労力で 2 倍の結果が得られます。ビデオ タグのラベル付けのコストは非常に高額であるため、技術的なソリューション レベルで考慮する必要があるのは、ビジネスが完全に監視するラベル付けされたデータをできるだけ少なくしながら、より優れた基本機能を学習する方法です。

まず、タスクに依存しない基本モデル表現レベルでは、Meituan のビデオ データに対して自己教師ありの事前トレーニング済み機能を使用しました。これは、公開データセットの事前トレーニング済みモデルよりもビジネス データの分布に沿ったものです。次に、意味情報の埋め込みレベル(上図参照)では、使用できるラベル付きデータのソースが複数あります。美団のビジネスシナリオには、特徴的な弱いラベル付けされたデータがあることは言及する価値があります。たとえば、ユーザーがレストランでレビューを投稿する場合、写真やビデオの抽象的なラベルは食べ物であり、コメントテキストにはレストランで食べた特定の料理の名前が記載されている可能性があります。これは、視覚テキスト関連性測定などの技術的な手段を通じてマイニングおよびクリーニングできる高品質の監督情報です。以下は、「バーベキュー」というラベルで自動的にマイニングされたビデオの例です。

ビデオサンプル

このデータ部分を事前トレーニングに使用することで、初期の教師モデルを取得し、ビジネス シナリオのラベルなしデータに疑似ラベルを追加できます。ここで重要な点は、予測結果が完全に正確ではないため、分類の信頼度やその他の情報に基づいて疑似ラベルのクリーニングを行い、その後、ビジネス シナリオでより優れた特徴表現を作成するために、教師モデルと連携して増分データを取得する必要があることです。学生モデルは、下流のタスクの基本表現モデルとして反復的なクリーニングを通じて取得されます。実際には、モデル構造の改善よりもデータの反復の方が大きなメリットが得られることがわかります。

2.1.4 モデルの反復

特定のラベルのパフォーマンスを向上させるために対処する必要がある主な問題は、基本的な表現モデルに基づいてターゲット カテゴリのサンプル データを効率的に反復して、ラベル分類モデルのパフォーマンスを向上させる方法です。サンプルの反復は、オフラインとオンラインの 2 つの部分に分かれています。食品探索ラベルを例にとると、まず少数の陽性サンプルをオフラインでラベル付けし、基本的な表現モデルを微調整して、初期分類モデルを取得する必要があります。この時点では、モデルの認識精度は通常低いですが、それでもサンプルのクリーニングと反復には非常に役立ちます。アノテーターが既存のサンプル プールを無目的にスクリーニングすると、数百または数千のビデオを視聴した後で対象カテゴリのサンプルを見つけるのが難しくなる可能性があります。ただし、事前スクリーニングに初期モデルを使用すると、いくつかのビデオを視聴した後に対象サンプルをスクリーニングできるため、ラベル付けの効率が大幅に向上します。 2 番目のステップは、ラベル分類モデルの精度を向上させるために、より多くのオンライン サンプルを継続的に反復する方法です。モデルのオンライン予測の結果を 2 つのリターン パスに分割します。オンライン モデルの予測結果が非常に信頼できる場合、または複数のモデルが同じ理解を持っている場合、モデル予測ラベルは自動的にモデル トレーニングにフィードバックされます。信頼性は高いが誤ったノイズ ラベルについては、信頼性学習などのモデル トレーニング プロセスにおけるいくつかのノイズ耐性テクノロジを通じて自動的に除去できます。さらに価値があるのは、モデルの信頼できないデータを手動で修正すると、モデルのパフォーマンスを向上させるための ROI が高くなることが実際にわかったことです。たとえば、3 つのモデルからの予測結果に大きな差があるサンプルは除外され、手動で確認されます。このアクティブラーニング手法により、多数の単純なサンプルにラベルを付ける際の人的資源の浪費を回避し、モデルのパフォーマンスを向上させるためにより価値のあるラベル付きデータを具体的に拡張できます。

2.1.5 ビデオトピックタグアプリケーション - 高価値コンテンツのスクリーニングと集約

上図は、レビュー推奨ビジネスにおけるビジュアルテーマタグの応用事例です。最も代表的な例は、価値の高いコンテンツの選択です。レビューアプリのホームページ情報フローの「専門家の店舗探索」タブでは、運営スタッフが「食品店舗探索」タグの付いた動画を選択して表示しています。ユーザーは没入型の体験を通じて店舗情報をより包括的に理解できるようになると同時に、店舗側が宣伝してトラフィックを引き付けるための優れた窓口も提供されます。

2.1.6 ビデオタグのさまざまな次元と粒度

上図は、異なる次元のラベルには異なる技術要件があることを示しています。細粒度のエンティティ理解には、それが具体的にどの料理であるかを識別する必要があります。これは、上位レベルの粗粒度のラベルの問題とは異なり、技術的な課題にどのように対処するかを検討する必要があります。まず、これはきめ細かい認識タスクであり、視覚的特徴のより洗練されたモデリングが必要です。次に、ビデオ内の料理を理解することは、単一の画像内の料理を識別することよりも困難であり、クロスドメインデータの問題に対処する必要があります。

2.1.7 食品画像認識機能のビデオへの移行

重要な問題を抽象化した後、一つずつ対処していきましょう。まず、きめ細かな認識という点では、料理の視覚的な類似性を測定する際の課題は、さまざまな食材の特徴や位置関係について標準化された定義がないことです。異なるシェフが同じ料理をまったく異なる方法で作ることもあります。これには、モデルがローカルのきめ細かい特徴に焦点を当て、判断のためにグローバル情報を統合できることが必要です。この問題を解決するために、私たちは、形状や質感の手がかりと食材の局所的な違いを同時に捉え、料理認識の効果を大幅に向上させるスタック型グローバル・ローカル・アテンション・ネットワークを提案しました。関連する結果は、ACM MM International Conference (ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention Network) で発表されました。

上の画像(右)はチャレンジの第 2 部を示しています。画像とビデオフレームでは、同じオブジェクトでも見た目が異なることがよくあります。たとえば、写真のカニは調理されて皿に置かれていることが多いのに対し、ビデオフレームでは調理中の生きたカニが映っていることがよくあります。視覚的には非常に異なります。私たちは主に、データ分布の観点からこれらのドメイン間の違いを扱います。

ビジネスシナリオには、ラベル付けされた食品画像が大量に蓄積されています。これらのサンプルの予測結果の識別性は通常良好です。ただし、データ分布の違いにより、ビデオフレーム内のカニを確実に予測することはできません。この目的のために、ビデオ フレーム シナリオにおける予測結果の識別可能性を向上したいと考えています。一方では、より良い予測分布を得るために核ノルムを最大化する方法が使用されます。一方、知識蒸留は、強力なモデルを通じて軽量ネットワークの予測を継続的に導くために使用されます。ビデオ フレーム データの半自動注釈と組み合わせることで、ビデオ シナリオでより優れたパフォーマンスを実現できます。

2.1.8 きめ細かな食品画像認識機能

以上の食シーンコンテンツ理解の蓄積を踏まえ、ICCV2021にて大規模微細食品分析コンペティションを開催しました。料理画像は Meituan の実際のビジネス シナリオから取得され、1,500 種類の中華料理が含まれています。コンテスト データセットは継続的に公開されています: https://foodai-workshop.meituan.com/foodai2021.html#index。誰でもダウンロードして使用し、困難なシナリオでの認識パフォーマンスを共同で向上させることができます。

2.1.9 料理のきめ細かなラベル付け - 表紙の検索

動画内の細かい料理名を識別するアプリケーションは何ですか?ここでは、レビュー検索ビジネス シナリオのアプリケーションであるカバーの検索について紹介します。達成される効果は、ユーザーが入力した検索キーワードに基づいて、同じビデオ コンテンツ セットに対して異なるカバーを表示することです。図のオフライン部分は、ビデオ クリップをセグメント化して最適化するプロセスを示しています。まず、キー フレーム抽出と基本的な品質フィルタリングを使用して、表示に適した画像を選択します。次に、きめ細かい料理ラベル認識を使用して、どの料理がいつ表示されるかを理解し、候補となるカバー マテリアルをデータベースに保存します。オンライン ユーザーが興味のあるコンテンツを検索すると、複数のビデオ カバー候補とユーザーの検索用語との関連性に基づいて、最も適切なカバーがユーザーに表示されるため、検索エクスペリエンスが向上します。

たとえば、「鍋」を検索すると、左の画像がデフォルトのカバーで、右の画像が「カバーを検索」した結果になります。左側の結果の一部には、人物を主題とした表紙が見られますが、これはユーザーが火鍋動画を検索する際に期待するものとは一致しておらず、直感的に無関係な Bad Case のように感じられます。表紙で検索すると、表示される結果はすべて鍋の写真なので、良い体験ができます。これは、Meituan シナリオにおけるビデオ クリップのきめ細かいラベルを理解する革新的なアプリケーションでもあります。

2.1.10 より豊富なビデオクリップタグのマイニング

上記はすべて料理動画を中心としたものですが、Meituan には他にも多くのビジネス シナリオがあります。手動での整理と定義に完全に依存するのではなく、タグ システム自体が自動的に拡張できるように、より豊富なビデオ タグを自動的にマイニングする方法は重要なトピックです。私たちは、Dianpingの豊富なユーザーレビューデータに基づいて関連作業を行っています。上の画像の例は、ユーザーのメモです。コンテンツには、ビデオと複数の写真、および長い説明が含まれていることがわかります。これらのモードは関連しており、共通の概念を持っています。いくつかの統計的学習方法と視覚的およびテキスト的モダリティ間の相互検証を使用することで、ビデオ クリップとラベル間の対応関係を発見できます。

2.1.11 ビデオセグメントセマンティックラベルマイニング結果の例

たとえば、アルゴリズムはビデオクリップとタグを自動的にマイニングします。左の図はタグの出現頻度を示しており、明らかなロングテール分布を示しています。しかし、この方法では、アルゴリズムが「スカーフの絵」など、より細かい粒度で意味のあるラベルを発見できることは注目に値します。このようにして、人間の関与を最小限に抑えながら、Meituan シナリオのより重要なタグを発見することができます。

2.2 短編動画コンテンツの生成

次に、コンテンツ理解に基づいたコンテンツの制作方法についてお話しします。コンテンツ制作は、短編動画 AI アプリケーション シナリオの非常に重要な部分です。次の共有は、ビデオ素材の分解と理解に関するものです。

動画コンテンツ制作のプロセスチェーン(上図参照)は、主にコンテンツ生成段階から成り、この段階では、元の動画がクラウドにアップロードされ、アルゴリズムを通じて素材として編集・処理され、コンテンツの潜在的な価値がより引き出されます。たとえば、広告のシナリオでは、アルゴリズムを使用して、ビジネス環境や食品の効果を紹介する元のビデオのハイライトを識別して編集し、情報の密度と品質を向上させます。また、動画コンテンツ制作は、申請形態に応じて以下の3つのカテゴリーに分けられます。

  1. 写真からビデオを生成します。一般的な形式には、アルバムからのクイックビュー ビデオの自動生成が含まれます。
  2. ビデオクリップのビデオ生成。典型的な例としては、長いビデオのハイライト部分を、二次配布用に簡潔な短いビデオに編集することが挙げられます。
  3. ビデオのピクセルレベルの編集では、主に特殊効果の洗練された編集が行われます。

以下では、3種類のアプリケーションについて説明します。

2.2.1 画像生成ビデオ:食事シーンにおける食品アニメーション生成

最初のカテゴリは、画像からビデオを生成することです。この部分は、画像素材を理解して処理することに重点を置いており、ユーザーは技術的な詳細にこだわることなく、ワンクリックでエンドツーエンドで理想的な素材を生成できます。上の写真に示すように、販売者は制作素材の画像アルバムを入力するだけで、すべてを AI アルゴリズムに任せることができます。まず、アルゴリズムは撮影品質が悪く、表示に適さない写真を自動的に削除し、次にコンテンツ認識と品質分析を実行します。コンテンツ認識にはコンテンツのラベル付けが含まれ、品質分析には明瞭度と美的スコアが含まれます。元の画像素材のサイズをターゲットブースに直接適応させることは難しいため、美的評価モデルに基づいて画像をインテリジェントにトリミングする必要があります。最後に、ケンバーンズやトランジションなどの特殊効果を重ね合わせてレンダリング結果を取得します。販売者は美しく編集された料理ビデオを入手できます。

2.2.2 画像生成ビデオ: ホテルシーンアルバムクイックビュービデオ生成

ホテルのシナリオでフォトアルバムのクイックビュービデオを生成する例もあります。アニメーション画像と比較すると、オーディオとトランジション効果の組み合わせが必要になります。同時に、動画では、どのようなコンテンツを最初に表示するかという要件が高くなります。ビジネス シナリオの特性と組み合わせ、アルゴリズムを使用して特定の種類の画像を自動的に選別し、デザイナーが開発したスクリプト テンプレートに従ってテンプレートの対応する位置に埋め込む必要があります。

2.2.3 ビデオ生成ビデオクリップ

2 番目のカテゴリは、ビデオ クリップのビデオ生成です。主なタスクは、長いビデオをセクションに分割し、ユーザーの期待に応えるより魅力的なコンテンツをいくつか選択して表示することです。アルゴリズム段階は、フラグメント生成とフラグメントのスクリーニングおよびソートに分かれています。セグメント生成部分では、時間セグメンテーションアルゴリズムを通じてショットセグメントとキーフレームが取得されます。セグメントのソート部分は、ビデオの優先順位を決定するため重要です。これも難しい部分であり、2 つの側面があります。

  1. 透明度、美しさなどを含む一般的な品質の次元。
  2. 意味的次元: たとえば、料理のビデオでは、完成した料理の展示や調理プロセスの方が、通常、より興味深いクリップになります。セマンティック次元の理解は、主に前述のコンテンツ理解モデルによってサポートされます。

2.2.3.1 スマートカバーとハイライト

オリジナルカバー

アルゴリズム編集ビデオ(10秒)

ビデオからビデオ クリップを生成し、2 つのアプリケーション シナリオを実現します。 1 つ目は、インテリジェント ダイナミック カバーです。これは、一般的な基本品質に基づいて、主に、より鮮明で、よりダイナミックな情報があり、ちらつきや遅延のないビデオ クリップをビデオのカバーとして選択します。効果は、デフォルトのクリップよりも優れています。

2.2.4 ビデオのピクセルレベルの編集と処理 - 食品ビデオの特殊効果

3 番目のカテゴリは、ビデオのピクセルレベルの編集です。例えば、ここではビデオオブジェクトセグメンテーション( VOS )テクノロジーに基づいたクリエイティブな料理特殊効果を紹介します。その背後にある重要なテクノロジーは、CVPR 2021(リアルタイムセマンティックセグメンテーションのためのBiSeNetの再考)で論文として発表された、Meituanが独自に開発した効率的なセマンティックセグメンテーション手法です。興味のある学生はそれについて学ぶことができます。

ピクセルレベルの編集で最も重要な技術の 1 つは、セマンティック セグメンテーションです。アプリケーション シナリオで直面する主な技術的課題は、解像度を確保し、高頻度の詳細情報を維持しながら、セグメンテーション モデルの適時性を確保することです。私たちは、従来の BiSeNet 方式をさらに改良し、詳細なガイダンスに基づいた効率的なセマンティック セグメンテーション方式を提案しました。

具体的なアプローチはネットワーク構造に示されています。左側の水色の部分はネットワークの推論フレームワークで、BiSeNet Context ブランチの設計に従っています。Context ブランチのバックボーンには、当社が独自に開発したバックボーン STDCNet が使用されています。 BiSeNet とは異なり、右側の薄緑色の部分に示すように、ステージ 3 で詳細ガイド付きトレーニングを実行し、ステージ 3 が詳細な機能を学習するようにガイドします。薄緑色の部分はトレーニングにのみ参加し、モデルの推論には参加しないため、追加の時間消費は発生しません。

まず、セグメント化された Ground Truth に対して、異なるステップ長のラプラシアン畳み込みを使用して、画像のエッジとコーナーの情報が豊富な詳細真理値を取得します。次に、詳細真理値と設計された詳細損失を使用して、ステージ 3 の浅い特徴をガイドし、詳細特徴を学習します。画像詳細の真値前後の背景分布が著しく不均衡であるため、DICE損失とBCE損失のジョイントトレーニング法を採用し、詳細誘導の有効性を検証するために、この実験を実施しました。特徴可視化の結果から、複数のスケールで得られた詳細の真値を使用したネットワークの詳細誘導が最良の結果を得ることができ、詳細情報の誘導によってモデルのパフォーマンスも向上することがわかります。

効果の面では、比較を通じて、私たちの方法はセグメンテーションの詳細の高頻度情報を保持する上で大きな利点があることがわかります。

3. まとめと展望

上記は、Meituan のビデオタグ、ビデオカバーと編集、およびピクセルレベルのきめ細かいビデオ編集技術に関する専門知識を共有しています。これらの技術をビジネスシナリオと組み合わせることで、販売者とユーザーに、よりインテリジェントな情報の表示と取得の方法を提供したいと考えています。将来的には、ショートビデオ技術の応用は、地域生活サービスや小売電子商取引など、美団の豊富なビジネスシナリオにおいて、より大きな潜在的役割を果たすことになるだろう。動画理解技術の面では、マルチモーダル自己教師あり学習は、ラベル付きデータへの依存を軽減し、複雑なビジネスシナリオにおけるモデルの一般化パフォーマンスを向上させる上で非常に価値があります。私たちもいくつかの試みと探求を行っています。

4. 著者

美団ビジュアルインテリジェンス部門のエンジニア、馬斌氏。

<<:  ディープラーニングの分野でよく使われるディープラーニングフレームワーク10選

>>:  ワイツマンとNVIDIAは、自然言語を使って写真を編集できるText2LIVEを共同でリリースした。

ブログ    

推薦する

マイクロソフトCEOナデラ氏がグーグルを批判、AIに対する大きな懸念を表明

マイクロソフトはAIを理論から現実のものにしてきたリーダーであり、2019年のブログ投稿で多かれ少な...

ザッカーバーグがAlpaca 2をベースにしたChatGPTのMetaバージョンを正式にリリース。Appleに先駆けて初のMRヘッドセットをリリース、価格は1/7以下

ChatGPT ネットワーキング モードが正式に復活しました。そして、この波は有料ユーザーだけでなく...

...

AIの次の目的地:リアルタイムサービス

リアルタイムサービスの波が徐々に私たちの日常生活に浸透するにつれ、コンピューティングインフラストラク...

AIに感情を与えることは本当に重要なのでしょうか?

「合成感情」は人工知能の発展を妨げるのか?私たちは他の人とコミュニケーションをとるとき、通常は直接...

バイナリ検索ツリーの検証: インターネット上の古典的なアルゴリズム

[[427951]]この記事はWeChatの公開アカウント「Programmer Bear」から転載...

インテル、IoTとエッジ向け第10世代プロセッサーを発表

Intel は最近、第 10 世代 Core プロセッサが、スループット、LGA ソケットのスケーラ...

01 コーヒーとsocket.ioで実装されたナップサックアルゴリズム

まず、なぜこれを書くのかお話しします。プログラマーになるのは本当に大変です。長い年月を経ても、レンガ...

...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT は、企業の神経系と考えることができます。つまり、生産工場のあらゆる場所から貴重な情報...

Stable Diffusion で 1 秒で写真を作成しましょう。清華大学マスターアクセラレーターはホットなトレンドで、いくつかの企業が参加している

AI画像生成は秒単位のスピードに達しました。描画を完了するには4ステップの推論しかかからず、最速では...

...

東京オリンピックでロボットが美しい風景になる

[[413763]]最近、4年に一度のオリンピックがついに東京で開催されました。フィールドでは、世界...

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし...