iQIYI CTO 唐星氏:AIはビデオプロセス全体にわたって実行され、理解と意思決定を開発する必要がある

iQIYI CTO 唐星氏:AIはビデオプロセス全体にわたって実行され、理解と意思決定を開発する必要がある

[51CTO.com からのオリジナル記事] 歴史が示しているように、コンテンツの各形態は多数のインターネット企業を生み出します。長い熾烈な競争の末、やがて巨大企業が出現します。重要なコンテンツ形式の一つとして、ビデオは欠かせない情報源です。 iResearchの統計によると、2017年8月、iQiyiのユーザーは1か月間で76億8千万時間の動画を視聴しており、これは88万年に相当します。これは時間軸で見ると動画数の爆発的な増加です。空間的な次元から見ると、ビデオは情報、エンターテイメント、ソーシャルネットワーキング、セキュリティ、教育、交通、医療など、さまざまな業界に浸透しています。これらは、私たちがビデオ爆発の最前線にいることを証明するのに十分です。

最近、iQiyiのCTOである唐星氏は51CTOの独占インタビューに応じた。同氏は、中国最高技術責任者連盟と科学技術部現代サービス産業連盟が主催した「中国IT武術大会および2017年中国ITパーソン・オブ・ザ・イヤー表彰式」で、ビッグデータ、AIなどの技術の革新的な応用により「2017年中国ITパーソン・オブ・ザ・イヤー優秀CTO賞」を受賞したばかりであることがわかった。そのため、交流全体はビデオ分野における AI の応用実践を中心に展開され、主に応用実践、制約、技術的欠陥などについて議論されました。

[[219511]]

iQiyi の CTO、Tang Xing 氏

ビデオ業界で AI はどこまで進歩しましたか?

唐星氏は、ビデオ業界には解決すべき明らかな矛盾がいくつかあると述べた。

  • 増加する制作調達コストとコンテンツ収入の間の矛盾。
  • コンテンツの爆発的な増加とユーザーが見たいものを見つけられないことの間の矛盾。
  • 上昇するマーケティングコストと不十分なコンバージョン効果の間の矛盾。

現在、iQiyi と他の国内外の動画サイトは、実際に技術的な手段と AI 機能を活用してこれらの重要な問題を解決しようとしています。 AI技術は、ビデオの作成、制作、配信、再生、収益化の全プロセスで役割を果たし始めています。一部の分野では非常に目覚ましい進歩を遂げ、多くの実用的なAIアプリケーションを生み出し、運用効率の向上、ユーザーエクスペリエンスの向上、商品化能力の向上に重要な役割を果たしています。

国内プラットフォームと海外プラットフォームのアプリケーションには明らかな違いがある

国内外のアプリケーションやプラットフォーム間で明らかな違いがあるかと聞かれると?同氏は、プラットフォーム間の応用には依然として比較的大きな差があると述べた。例えば、海外の動画プラットフォームには、YouTubeのようにユーザー生成コンテンツ(UGC)を主とするプラットフォームもあれば、Netflixのように高品質な自作作品を主とするプラットフォームもある。国内の各プラットフォームにもそれぞれ特徴があります。iQiyi を例に挙げてみましょう。iQiyi のプロフェッショナルなコンテンツ制作 (PPC) は、業界と視聴者から満場一致で賞賛されています。

長編動画プラットフォームのほか、Huajiao、Qixiu、Kuaishou、Huoshan Video、iQiyi Toutiaoなど、ライブ放送プラットフォームや短編動画プラットフォームも多数あります。ビジネス モデルやユーザー プロファイルが異なると、アプリケーションの開発と運用に明らかな違いが生じます。特に AI の場合、さまざまなシナリオはさまざまなモデルで解決するのに適しており、さまざまなデータ セットでトレーニングされたモデル パラメーターも大きく異なります。

経験上、ビデオ業界には共通する多くの問題点があり、すべての関係者が AI を使用してそれらを解決しようとしています。

  • たとえば、コンテンツの制作、レビュー、推奨においては、毎日膨大な量の動画がネットワーク全体に追加されます。手作業ではこの膨大な制作需要を満たすことができず、AI の活用がほぼ必須となります。
  • YouTubeやFacebookなどの海外プラットフォーム、iQiyiなどの国内プラットフォームは、AIを活用して、インテリジェントな特殊効果、インテリジェントなカタログ作成(カバー画像、タイトル、概要、キーワードの自動生成)、パーソナライズされた推奨など、作成、制作、運用、収益化の効率を向上させています。

現時点では、各社の応用方向は比較的似通っており、違いは技術レベルと応用の深さにあります。

ビデオアプリケーションにおけるAIの理解と意思決定を開発する必要がある

周知のように、AIの知能レベルは浅いものから深いものまで多岐にわたり、「知覚、理解、意思決定」などが含まれます。現在、音声認識、顔認識、ビッグデータ分析、検索などの知覚面は比較的成熟していますが、ビデオ理解と意思決定については開発が必要です。

ビデオ理解は、AI ビデオ アプリケーションの基盤です。具体的なテクノロジには、画像認識、動作認識、意味分析など、より包括的かつ複雑な多くの側面が含まれます。 AI の現在のビデオ理解と人間のビデオ理解の間にはまだ一定のギャップがあり、機械はビデオビッグデータのトレーニングにおいて弱教師学習、強化学習、反復学習をより多く活用する必要があります。

同時に、創作、配信、マーケティングのリンクにおけるAI意思決定技術を強化する必要があります。将来的には、人間の創作を支援するAIだけでなく、コンテンツの調達、コンテンツの配信、マーケティングサービスにもAIが役立つことが期待されます。強化学習やGANなどの技術は、さらに研究開発が必要です。

AIとビデオサービスの統合は3つの点で少し欠けている

まず、ネットワーク全体には二次利用や多重利用を待っている動画コンテンツがまだ大量に存在します。動画コンテンツのライフサイクルを長くすることで、ユーザーが高品質な体験を逃すことを防ぐだけでなく、ロングテールの価値を生み出し、クリエイターがより多くの優れた作品を生み出すよう促すことができます。このプロセスでは、ビデオコンテンツの取引と流通を促進するために、より優れた著作権技術が必要です。

2つ目:電子商取引と広告事業の融合により、動画の価値はまだ十分に活用されていません。例えば、将来的には動画とビジネスをより効率的かつより良く組み合わせることができるようになります。この目標を達成するためには、動画理解、ユーザープロファイリング、インテリジェントインタラクション、インテリジェントレコメンデーションなどの技術をさらに向上させる必要があります。

3つ目:ビデオとハードウェア サービスの統合。VR/AR/MR 技術はまだ完全に成熟しておらず、超高精細ビデオのユーザー エクスペリエンスをさらに最適化する必要があります。これらの技術がさらに進歩し、ビデオと新技術がより適切に統合された後、ビデオは再び再定義されることになると考えています。

iQiyiのAI実践の詳細な説明

AI技術は、iQiyiのビデオ作成、制作、配信、再生、収益化、アフターサービスなど、ビデオプロセス全体に広く活用されています。

制作面では、コンテンツの制作サイクルが長く、初期投資が大きく、リスクも大きいです。 iQiyi は映画・テレビドラマのトラフィック予測システムを基盤として、映画・テレビドラマを正確に購入し、投資、広告、マーケティングを強力にサポートします。

制作面では、 AIのおかげで動画制作の効率が大幅に向上しました。 iQiyi の感情認識は、ACM Emotiw2016 および CCPR MEC2016 感情認識コンテストで 1 位を獲得しました。 iQIYI Brain に基づくビデオ理解アルゴリズムは、スマート ストリッピング、字幕認識、顔認識、感情認識、イベント検出などの複数のインテリジェント アルゴリズムを使用して、ビデオ ラベルをより正確にし、タイムラインをより豊かにします。 iQiyiの動画数は2014年から2017年にかけて約20倍に増加しましたが、制作に関わる従業員数は約2倍の増加にとどまりました。 AI技術によりハイライトクリップの編集効率が2.5倍に向上しました。動画レビューの量は60%増加しましたが、レビュー者の数は基本的に変わりませんでした。カバー画像の生成は AI テクノロジーによって完全に自動化されており、毎日数十万本の UGC 動画のカバー画像が自動的に生成されます。

配信面では、 AI によってインテリジェントな配信が実現され、ユーザー エクスペリエンスが最適化され、会員の収入が増加します。 iQIYI のフルネットワーク検索は、インターネット上の最も包括的なビデオコンテンツをカバーしており、インデックスされたビデオは 5 億を超えています。業界最大のフルネットワークビデオ検索エンジンです。現在、ピーク時の検索ボリュームは 3 億を超え、1 日の総トラフィックは 4 億を超えています。同時に、インテリジェントな推奨システムに基づいて、ユーザーに対して正確なコンテンツ配信が行われ、全体の平均日次トラフィックは6億に達し、高い成長の勢いを維持しており、これにはAIが不可欠な貢献を果たしています。

再生に関しては、 iQIYI は業界をリードする HCDN ハイブリッド コンテンツ配信ネットワークを構築し、あらゆる面で何億人ものユーザーにスムーズにサービスを提供しています。毎日、同一都市、同一事業者内で13Tb以上の無料ローカルピーク帯域幅を提供しており、インターネット業界でトップの座を占めています。インターネット動画などのビッグデータのフルネットワーク配信において、非常に重要な応用価値を実現しています。

収益化の面では、 iQiyiはフラッシュプランティング、インスタントショッピング、バンドエイド、オリジナルステッカー、キリン神酒セルフサービス広告など、さまざまな広告技術を適用し、動画内のアイテムのeコマース転用や広告埋め込み後のカスタマイズなどの機能を実現しています。ビッグデータ分析とユーザーの顔写真に基づいて、ユーザーの興味に基づいた正確な配信を実現し、広告のコンバージョン率を向上させることができます。

アフターサービス面では、 「Qi Xiaoyi」はiQiyiが独自に開発し、2016年12月25日に正式にリリースされたインテリジェントな顧客サービスアシスタントロボットです。 iQIYI のビッグデータ、NLP、機械学習における技術的蓄積を活用し、数万のビジネス知識ベースと興味深い挨拶コーパスに洗練されました。インテリジェントな顧客サービスの効率は 90% です。インテリジェントな顧客サービスだけで、会社は顧客サービス担当者を約 200 人節約できます。

オンデマンドで調整し、AIを使用して問題点を解決する

唐星氏は、技術アーキテクチャの面では、iQiyiはクラウド+ターミナルSOAサービスアーキテクチャモデルを採用していると述べた。大規模なデータストレージとビッグコンピューティングは主にクラウドにあり、プラットフォームとサービスを通じて実装されます。

需要調整に関しては、主要事業において迅速な反復を実施しています。クリエイティブ段階を例に挙げると、「映画を作るのはギャンブルのようなもの」という格言があります。映像投資制作と著作権調達にかかるコストは、エンターテインメント業界で最も大きなコストです。以前は約40%~50%でしたが、現在ではさらに高い割合を占めています。コンテンツへのこのような巨額の初期投資と結果のこのような高い不確実性は、この業界の大きな問題点です。

この問題点は、プロデューサーの映画撮影参加意欲に大きな影響を与え、業界全体の発展につながりません。プロデューサー、プラットフォーム、広告主、その他の参加者のいずれにとっても、リスクを軽減し、収益を増やすために、脚本、制作チーム、出演者を選択するためのより正確な市場予測ツールが緊急に必要とされています。

これに対応して、iQIYIはビッグデータ技術と特徴量エンジニアリング、機械学習などのAI関連技術をベースにした機械学習に基づくマルチタイムウィンドウのテレビ・映画トラフィック予測システムを開発し、アルゴリズムの改善を通じて継続的にパフォーマンスを向上させています。現在、このシステムは、180日先の映画興行収入予測において81%の精度を誇り、180日先と360日先のテレビドラマトラフィック予測において88%の精度を誇ります。予測結果は、著作権調達、自主制作ドラマプロジェクトの立ち上げ、広告協力など、さまざまな分野でうまく応用されています。

AI開発への道における3つの大きな課題

ビデオ分野におけるAIの活発な発展を制限する要因について、唐星氏は次のように答えた。「AIがどの業界でも発展するには、まず十分なデータが必要です。次に強力なハードウェアインフラストラクチャが必要です。3番目に高度なアルゴリズムが必要です。そして、無視できないもう1つのことは、実際のアプリケーションシナリオです。」これらの要素は、ビデオ業界での AI の実装にとって実際に非常に重要であり、どれも欠かすことはできません。

特にビデオ分野では、ビデオ分野における AI のさらなる発展を制限する 3 つの側面があります。

まず、ビデオは私たちの将来の生活でより重要な役割を果たし、ビデオを使用するシナリオがますます多くなるため、データの量を増やす必要があります。このような変化する需要の下でより正確なAIアプリケーションを開発するには、トレーニングのサポートとして、より大規模で高品質のデータが必要です。情報孤島の問題に直面して、データのオープン性とプラットフォーム間の共有も緊急に解決する必要がある課題です。

2つ目は、より高度な基礎アルゴリズムと技術です。業界では現在、AIが「錬金術」であるかどうかについても激しい議論が交わされています。GoogleのAlphaGo Zeroも、大量の実世界のデータ入力を必要とせずにAIが自己学習する能力を実証しました。そのため、ビデオ分野もこのような新しい変化を受け入れなければならないかもしれません。基盤技術のブレークスルーによってもたらされる想像の空間は膨大であり、前述のデータやインフラストラクチャを含む多くの問題を解決する機会を秘めています。

3つ目: その背後にある中核的な要因: 才能。上記の問題を解決するには、最終的には人次第です。 LinkedInの統計によると、世界には190万人のAI人材がいるが、中国には5万人しかいない。私の国では、AI 人材の不足が依然として大きく、これがビデオ分野における AI の発展を制限する最も重要な要因でもあります。大学、研修機関、企業などが共同で、より高度なAI技術・管理人材を育成することが急務となっています。

iQIYI の AI エンターテインメント ロードマップ

技術革新の面では、2018年に超高精細狭帯域ビデオ、強化学習、教師なし学習、GAN、小サンプル学習、マルチモーダル融合、ブロックチェーンなどの技術に重点を置き、短編ビデオ制作、ハイライト抽出、ユーザーインタラクション、検索推奨、著作権管理、インテリジェントマーケティングなどの応用シナリオに適用します。

ビジネス統合の面では、iQIYI は「コンテンツへの理解を深め、ユーザーへの理解を深め、パートナーへの理解を深める」ことに注力しています。同様に、テクノロジーの面では、AI をこれら 3 つのビジネス側面のニーズと具体的に組み合わせることで、戦略の実行を促進できることを期待しています。

内容をよりよく理解します。 PGCでは、映画やテレビドラマのトラフィック予測やキャスティングシステムなど、大規模な制作を支援するツールを開発し、動画認識やコンテンツ理解を通じて、動画制作やラベリングの効率を向上させています。 UGCに関しては、AIを活用して誰もが監督となり、ユーザーがより便利に動画コンテンツを作成し、より高品質なコンテンツを制作できるようにしたいと考えています。

ユーザーをより深く理解します。当社は、ビッグデータ分析やパーソナライズされた検索推奨、AIを活用してユーザーが最も必要とする適切な動画コンテンツを入手できるようにすることで、より良いユーザーエクスペリエンスを創出できるよう引き続き努力してまいります。

パートナーをより深く理解します。動画、広告、電子商取引事業をさらに統合し、高品質の動画視聴体験をベースに、より自然で状況に応じたマーケティングを実現します。これにより、ユーザーに迷惑をかけずに、動画エンターテインメントの商業化の境界を広げます。同時に、オープンプラットフォーム、オンライン教育、医療、インターネット金融などにもさらなる挑戦をしたいと考えています。

【インタビュー対象者プロフィール】

Tang Xing は、2002 年に中国科学技術大学で数学の博士号と経済学および経営学の学士号を取得しました。現在は iQiyi の CTO を務めており、2012 年 3 月からこの重要な役職に就いています。製品、テクノロジー、運用、チャネルという 4 つの主要セクションの管理を担当しています。彼はインテルとグーグルで働いたことがある。彼は以前、Google の上海 R&D センターのテクニカル ディレクターを務め、Google のビデオ検索事業を全面的に担当し、YouTube のビデオ検索サービスの開発に参加していました。

AIに関するその他のコンテンツについては、公式アカウント「AI Pusher」をフォローしてください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  従来のプログラマーはどのように AI を変革し、学習するのでしょうか?アリババは最前線のアルゴリズムチームが開発したコアAI技術をオープンソース化

>>:  集める! 2017 年の主要な AI イベントを総ざらい!(動画付き)

ブログ    
ブログ    
ブログ    

推薦する

研究機関が新しいレポートでAIの売り手側と買い手側の成功への道筋を定義

調査会社ストラテジー・アナリティクスは新たな報告書の中で、人工知能製品のベンダーとそのユーザーの両方...

...

「ブラックスワン」の翼の下で:情報戦場におけるAIの光と影

[51CTO.comからのオリジナル記事] 突然の流行に直面して、国民は情報の適時性、透明性、伝達効...

世界人工知能会議が終了しました。今後、AIは私たちの生活にどのように浸透していくのでしょうか?

過去 2 年間で最もホットな話題は何かと聞かれれば、人工知能は間違いなくそのリストに載るでしょう。金...

IoTロック商用化の新時代を切り開き、電池不要のnokelockパッシブロックX2が発売

これは電池不要のスマートドアロックです。 5月15日、北京で開催された「nokelock 2019グ...

...

...

...

ディープニューラルネットワークをデバッグするにはどのような方法を使用しますか? 4つの簡単な方法をご紹介します

データセットの構築、ニューラル ネットワークのコーディング、モデルのトレーニングに何週間も費やした後...

知っておくべき6つのAIバイアス

[[441742]]子どもは成長するにつれて、聴覚、視覚、触覚などの感覚を通して周囲の世界について学...

ゼロシューテクノロジーのCTO、ラン・チュンジア氏:ブロックチェーンと人工知能の交差点はデータにある

「ブロックチェーンが停滞期に入ることは必ずしも悪いことではありません。この期間中、私たちはゆっくりと...

1 つの記事で 26 個のニューラル ネットワーク活性化関数 (ReLU から Sinc まで) を紹介します

ニューラル ネットワークでは、活性化関数によって、指定された入力セットからノードの出力が決定されます...

2021年、AIの想像力を再構築する

2020年という章が静かに変わり、多くの人々が安堵のため息をつくことができました。しかし、この一年は...

ワールドカップはスコア予測にAIを使用。今回はスイスの銀行を信頼できるか?

ワールドカップが本格的に開幕し、大手データおよび人工知能技術組織もワールドカップの予想に参加している...