蘇寧電子商取引プラットフォームにおけるAI技術+短編動画の応用

蘇寧電子商取引プラットフォームにおけるAI技術+短編動画の応用

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開催されました。このサミットは、人工知能、ビッグデータ、モノのインターネット、ブロックチェーンなど12の核心的なホットトピックに焦点を当て、国内外から60人の第一線の専門家を集めています。これはハイエンドの技術の饗宴であり、トップクラスのIT技術者が学び、ネットワークを拡大するための見逃せないプラットフォームです。

5月18日午前、会場Bで開催された「人工知能技術探究」フォーラムで、PP CloudのシニアテクニカルアーキテクトであるGao Chao氏が「Suning.comの電子商取引プラットフォームにおけるAI技術+ショートビデオの応用実践」と題した基調講演を行った。

スピーチの冒頭で、高超氏はまずSuning Video Cloudの基本状況を紹介した。現在、Suning Video Cloud は主に、ライブ ブロードキャスト、オンデマンド、ショート ビデオ ウェブ ページ アクセラレーション、低遅延ビデオ通話の 5 つの主要ビジネスを実現しています。

  • ライブストリーミング: SDK、API、コンソール
  • オンデマンド: PP Video の 10 年にわたるメディア テクノロジーとサービスの経験に基づいて、この製品はアップロード、ストレージ、トランスコーディング、加速、管理、監視機能を統合しています。
  • ショートビデオ:撮影、編集、アップロード、トランスコード、管理、配信、再生を統合したフル機能の製品
  • Web ページ アクセラレーション: 自社開発 + 統合、グローバル インテリジェント スケジューリングをサポート
  • 低遅延ビデオ通話: 複数人でのビデオ通話とライブブロードキャストのバイパスをサポートするWebRTCベースのビデオ通話ソリューション

次に、高超氏は、主にショートビデオマシンレビュー、ショートビデオアクセラレーションインテリジェントスケジューリング、AIテクノロジーの展望と混乱など、Suning Video Cloudのコア技術の詳細を共有しました。

1. 短いビデオマシンレビュー

1. AI応用の起源

2016年以降、PPクラウドは急速な発展期に入り、企業がアップロードした動画を主な情報源として、ポルノビデオや著作権問題のあるビデオが大量に登場している。この期間中、編集レビューは遅く、運用上の苦情や法務部門からのフィードバックにより、技術チームは対応に時間を割かざるを得ませんでした。 PP Cloud の技術スタッフは、アカウントを手動で検証して禁止するために余分な時間を費やす必要があります。

経験の蓄積と対応策の調整期間を経て、ビデオレビューへの AI の適用の要求が議題に上がりました。

2. 機械監査要件の進化

以下は、PP Cloud が要求を提示した後、機械監査サービスを開始し、継続的に反復するプロセスです。

当初、私たちはビデオマシンレビューに特化した実現可能性分析を実施し、目標の実現可能性を実証しました。最終的に、人工知能を使用してこれを行うことを決定し、この点で畳み込みニューラルネットワークの適用を調査およびテストしました。実際のテストでは、ディープラーニングフレームワークも使用して効果を検証しました。

業務システム統合フェーズでは、機械レビューを分散サービスとして導入し、手動レビューサービスと並行して実行することでレビューエラーを回避します。修正された結果はトレーニングデータとして使用できます。

予測結果の評価は反復的で持続可能なプロセスです。実際のアプリケーションでは、さまざまなビジネス特性に応じて異なるモデルが使用されます。

3. 機械レビューワークフロー

ワークフローは 2 つの層に分かれており、上位層はビジネス プロセス、下位層は機械レビュー サービス プロセスです。

  • ビジネスプロセスの入力項目はビデオファイルであり、機械レビューサービスの入力項目としてフルビデオ画像に変換されます。
  • 機械レビューサービスでは、重複検出などの特徴処理を動画全体に対して実行し、それをトレーニングモデルに入力して結果予測を行います。結果予測は業務プロセスに出力され、手動レビューによって監督されます。
  • トレーニングされたモデルは、変化するビジネス ニーズに合わせて定期的に評価および調整されます。

4. 機械監査サービスの実践

テスト段階では、テストに関係するビデオの総数は数千万に達し、約 3PB のストレージを占有しました。

テストビデオは、主に電子商取引、スポーツ、文化、企業の多様性に関するビデオなど、豊富に分類されています。電子商取引ビデオには、Suning.com製品紹介ビデオ、製品評価ビデオ、コミュニティビデオなど、さまざまなシナリオのコンテンツタイプが含まれます。スポーツビデオには、ライブ録画ビデオ、イベント解説ビデオなどが含まれます。文化ビデオには、さまざまなエンターテイメントビデオ、情報ビデオ、PGCプロフェッショナルコンテンツビデオなどが含まれます。企業がアップロードしたビデオは、カテゴリ数が最も多く、シナリオが最も豊富な領域です。

上記の例は、固定間隔のスクリーンショットを使用する Suning.com のビデオ パノラマです。デフォルトの間隔は 6 秒です。機密性の高いコンテンツの場合は、1 秒に調整できます。サムネイルは 10 x 10 に配置され、合計 100 枚のパノラマがあります。余分な部分は新しいパノラマに配置されます。

PP Cloud は、テスト可能なデータ ソースを使用して、主流の AI フレームワークに関する調査とテストを実施しました。選択されたテストフレームワークには、Caffe、Keras、TensorFlow が含まれます。実際のニーズに基づいて、Caffe を機械監査の基本的な AI フレームワークとして使用することが決定されました。最初のテストフェーズのデータ​​ セットでは、検証のために ImageNet のいくつかのカテゴリを抽出し、準備されたビデオ データを使用してさらに精度をテストしました。

上の図は、入力層、隠れ層、出力層を持つ一般的なニューラル ネットワークの例です。実際のアプリケーションでは、層とリンクの数が調整されます。

これはAlexNetモデルで、2つのGPUの使用シナリオです。入力層は224x224x3の画像入力で、11x11の小さな画像に分割され、移動ステップは4であることがはっきりとわかります。長方形は3x3、5x5、深さなどの畳み込みカーネルです。上部は3つの完全接続層で、畳み込み層の真ん中にプーリング層があり、次元削減の役割を果たしてパラメータ入力を減らします。最終出力は100カテゴリです。カテゴリ数はPP Cloudを実際に使用したときに調整されました。

これはVGG16モデルです。PP Cloudのターゲット検出にはFaster RCNNが使用されています。VGG16は13の畳み込み層と3つの全結合層の合計16層で構成されています。実際のテストではAlexNetよりも精度が高いですが、速度が少し遅いため、既存の動画や適時性の要件が低い動画のレビューに使用されます。

図から、プーリング層(最大プーリング)パラメータの次元削減効果が明確にわかります。活性化関数はAlexNetと同じで、どちらもReLUを使用し、出力層のカテゴリも1000です。

下の図は、PP クラウド テストにおけるコンテンツ判定しきい値を決定するためのプロセス データを示しています。しきい値テストの範囲は 0.3 ~ 0.7、ステップ サイズは 0.05 であることがわかります。サンプル テストの後、実稼働環境の定数として 0.45 が選択されました。

以下は、映画分類のしきい値テストです。同じテスト データを使用して、計画どおりにバッチ テストを実行し、結果をまとめます。

テスト結果の90%を信頼区間として計算すると、推奨しきい値は0.473、推奨範囲は[0.31、0.53]になります。PP Cloudは、さまざまなビジネス要件に基づいて詳細な調整を行います。

現在、PP Cloud システムの平均精度は 99.2% を超えています。精度は、ビデオ全体のすべての写真を集計して得られる最終確率に基づいて計算されます。

PP Cloud で畳み込みニューラル ネットワークを使用する場合、結果の精度をデバッグする必要もあります。このとき、エラーがどのレイヤーから始まったのかをチェックして判断するために、デコンボリューション アルゴリズムが必要です。次の図は、VGG16 モデルの畳み込みプロセスとデコンボリューション プロセスを示しています。

下の図は、PP クラウド業務システム統合の例です。業務増分ビデオアップロードアクセスと履歴データのスキャンと処理の 2 つのモードがあります。業務システムはビデオをストレージ管理システムにアップロードし、ストレージ管理システムはレビュータスクを配布してレビュー結果を取得します。マシンは分散サービスサブスクリプションタスクキューをレビューし、タスク処理後に結果をストレージ管理システムにフィードバックします。プロセス全体はリアルタイム性が極めて高いです。

上記の監査背景は、結果を確認するために使用されます。インターフェース操作は、下の図に示すように、監査とラベル付けの両方です。ラベル付けされたデータは、トレーニング データとしてレビューのためにマシンにフィードバックできます。

次の図は、機械によるレビューと手動によるレビューの結果を同期し、業務で事前に定義された判断ロジックに従って最終決定を下す業務システムアプリケーションのシナリオです。

5. その他の監視の種類

PP Cloud は、機械によるレビューによるビデオの動的な監視に加えて、その他の運用および保守ツールも使用して、サービス アクセスの安定性を確保します。たとえば、Suning Cloud Trace は自社開発システムとして、障害分析や基本的なアラームのニーズを満たすことができ、ELK と TICK は補助ツールとして、より多くのビジネスタイプの監視とアラームをカスタマイズできます。

2. ショートビデオアクセラレーションインテリジェントスケジューリング

1. インテリジェントスケジューリングの進化を加速する

ビジネスが成長し、リソースが豊富になるにつれて、PP Cloud はさまざまなサービスに対して異なるレベルのセキュリティを提供する必要があり、インテリジェントなスケジューリングの必要性が高まります。機械監査と同様に、TensorFlow フレームワーク、さまざまな種類のデータ型、出力戦略を使用して、3 つの主要なプロセスが実行されました。

2. インテリジェントなスケジュールワークフローを加速

ワークフローは 2 つの層に分かれており、上位層はビジネス プロセス、下位層は予測サービス プロセスです。

PP Cloud のデータ入力境界は比較的明確で、事前設定された戦略は比較的柔軟です。モデルは履歴データと現在のデータを使用してスケジュール予測を行い、ビジネス担当者は手動で推奨事項を選択して適用します。

3. インテリジェントなスケジュール管理の実践

インテリジェント スケジューリングの目標の位置付けは、全体的なサービスの安定性と自動障害回復に分かれています。

スケジューリング予測を通じて、ローカルな安定性の推奨が行われ、システム全体の安定性指数が向上します。また、障害が発生した場合は、推奨リストに基づいて自動回復を試みることができます。

PP Cloud は、予測データのソースとして、完全なネットワーク監視データ、基本的なネットワーク データ、ビジネス プリセット戦略の 3 つのタイプに分かれています。ネットワーク全体の監視データは、自作 CDN ノードの詳細なデータ レコードから取得されます。商用統合 CDN では、ノード ログ データを使用できます。基本的なネットワーク データはより詳細になります。LastMile に基づいて、nslookup 結果、ping 結果、traceroute 結果、端末ダウンロード時間、ダウンロード速度、ビデオ バッファなどを取得できます。ビジネス プリセット境界戦略と組み合わせて、ビジネス用のスケジュール戦略を推奨できます。

3. AI技術の展望と課題

1. AIの将来の応用シナリオ

  • ユーザーの購入予測などの電子商取引アプリケーション
  • デジタルショッピングガイドなどの新しい小売アプリケーション
  • ビデオインテリジェント分類:蘇寧グループの内部システムにおけるビデオ分類とラベル付け
  • コンテンツインテリジェンス: スポーツライブ放送のゴールクリップとハイライトの予測とキャプチャ

2. AIの技術的な問題

手術現場のトレーニングビデオなど、新しい分類データの量は最初は少なく、モデル予測が不正確になりやすいです。モデルは、このようなデータに対して継続的に最適化する必要があります。この継続的な最適化プロセスでは、よく使用される分類ビデオの回収期間は明らかですが、新しい業界や人気のない業界のデータは、利益を生み出すために継続的に調整する必要があります。

[著者プロフィール] PP Cloud のシニア テクニカル アーキテクトである Gao Chao は、ビジネス R&D とアーキテクチャの分野で 7 年の経験を持ち、現在は PP Cloud ビデオ サービスの R&D とアーキテクチャを担当しています。

上記内容は、WOT2018グローバルソフトウェアおよび運用技術サミットでの高超氏の講演を基に51CTO記者がまとめたものです。WOTの詳細については、.comをフォローしてください。PPビデオクラウドの詳細については、PPクラウドビデオ公式アカウントをフォローしてください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  消費者のニーズとホテル業界の問題点を洞察し、ShowBaoトラベルフォンはニーズを満たすために生まれました

>>:  Cloudera は研究から実稼働までエンタープライズ機械学習を加速します

ブログ    
ブログ    

推薦する

人工知能の発展と未来

人工知能(AI)技術の継続的な発展により、さまざまなAI製品が徐々に私たちの生活に入り込んできました...

...

2020 年の AI トレンド トップ 10

デジタル労働力をサポートし維持するために職場で AI が普及することは、2020 年の明確なトレンド...

...

初心者向けガイド: 自然言語処理のためのニューラル ネットワーク

この記事を読むと、次のことがわかります。自然言語処理の分野に最も大きな影響を与えたニューラル ネット...

...

GPT-4Vはキーボードとマウスを使ってインターネットを閲覧することを学習し、人間は投稿したりゲームをしたりしているのを観察した。

ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。マウスとキーボー...

人工知能とモノのインターネット (AIoT) を組み合わせた場合の威力とは?

モノのインターネット (IoT) や人工知能 (AI) について聞いたことがあると思います。しかし、...

5G と AI のユースケース - 5G が人工知能の実装にどのように役立つか

マイケル・バクスター氏は、5Gは人工知能の可能性を解き放つだろうと語った。しかし、AI と 5G は...

アダプティブコンピューティングがAI製品化の課題にどのように対処するか

[[389356]]今日、人工知能技術は急速に発展しており、イノベーションのペースは加速しています。...

人工知能(AI)とスポーツスタジアムの融合

新型コロナウイルスCOVID-19の影響は今も続いており、世界中の多くのスポーツスタジアムが麻痺状態...

AIによる価格比較、本当にあなたに代わって価格を比較してくれるのでしょうか?

ダブルイレブンの割引を計算するために、昨年どれだけの髪の毛が抜けたか覚えていますか?昨年、天猫は総取...

本記事では、2019年の産業用ロボット開発業界の現状を解説します!

[[323393]]国際ロボット連盟(IFR)が新たに発表した「グローバルロボティクス2019 -...

AIのおかげで売上が24%増加しました。このようなAI人材はどこで見つけられるのでしょうか?

[[429444]]この記事はWeChatの公開アカウント「Computer World」から転載...

Wolfram言語の父: ChatGPT は何ができるのか?

写真ChatGPT は非常に人気が高まり、人間の働き方や考え方さえも変え始めています。それを十分に理...