快手テクノロジーのマルチメディアコンテンツ理解部門のLi Yan氏:AI技術は快手製品に統合されています

快手テクノロジーのマルチメディアコンテンツ理解部門のLi Yan氏:AI技術は快手製品に統合されています

「AI技術はKuaishou製品ライン全体に浸透しています。AI技術による多次元のエンパワーメントにより、より多くの人々が世界に知られるようになり、より広い世界を見る機会が得られます。」5月25日、2019年世界人工知能技術カンファレンス(2019 GAITC)で、Kuaishou Technologyのマルチメディアコンテンツ理解部門の責任者であるLi Yan氏はそう語った。

会議は南京で開催され、李炎氏は「人工知能とメディア融合に関するフロンティアフォーラム」で講演した。快手テクノロジーの代表として、李燕氏は、快手がAIテクノロジーを活用して一般ユーザー全員に力を与え、全員の記録フォームをより豊かで、より面白く、より高品質にする方法について話しました。

[[266875]]

李燕氏は、快手がAI技術を深く研究した結果、短編動画を作成するハードルが下がり、ユーザーがプロの基準に可能な限り近づくことができるようになったと述べた。コンテンツとユーザーを理解することで、動画とユーザーの正確なマッチングを実現し、各ユーザーに広い表示スペースを提供し、より広い世界を見せることができます。

彼は、短い動画を録画することで、人々同士、そして世界とつながり、非常に有意義なことだと信じています。全体として、ネットユーザー間の信頼が高まります。

以下はスピーチの書き起こし(要約)です。

Kuaishouのようなショート動画コミュニティでAIがどのように応用され、どのような面白いAIアプリケーションが生み出されるのかを紹介する機会を頂けてとても嬉しく思います。

私のシェアは3つの部分に分かれています。最初の部分では、Kuaishou について簡単に紹介します。2 番目の部分では、AI テクノロジーがユーザーのビデオ作成の品質を向上させ、作成のハードルを下げる方法について紹介します。3 番目の部分では、AI テクノロジーがビデオを理解し、ユーザーを理解し、適切に配信する方法を紹介します。

快手とは何か

Kuaishou は、一般の人々が自分たちの生活を記録し、共有するためのコミュニティ製品として位置付けられています。短い動画、写真、ライブ放送を通じて人々が自分たちの生活を記録するのを支援し、誰もが世界に見られ、より広い世界を見る機会を得られるようにしています。

快手は2011年に設立され、今年で8周年を迎えます。現在のDAUは2億人に達しています。 2011年、GIF Kuaishouはアニメーション画像を作成するためのツールでした。2013年、モバイルインターネットの台頭により、ショートビデオの重要な影響と役割が明らかになりました。2013年7月、ツールベースの製品はショートビデオコミュニティに変わりました。短編動画コミュニティに変身した後、Kuaishouのデータは飛躍的に成長しました。2015年1月、Kuaishouの1日のアクティブユーザー数は1,000万人を超えました。現在、Kuaishouの1日のアクティブユーザー数は2億人に達しています。中国のインターネット市場では、1日あたり2億人のアクティブユーザーを抱えるアプリはほとんどありません。長年にわたる数億人のユーザーの蓄積により、現在、私たちのコミュニティには 100 億本以上の短編動画が記録されており、その数は 1 日あたり 1,500 万本の新しい短編動画のペースで増加しています。4 年前、この数はわずか数十万本でした。

快手では、ユーザーが世界のあらゆる側面を記録しています。ここでは、マスメディアでは見られない、さまざまなリアルで迫力のある生活を見ることができます。例えば、このビデオでは、鴨緑江のいかだ乗りたちが木材を運んでおり、水の流れに沿って山から下って木材を運んでいます。この古代の水上輸送方法はほとんど知られていませんが、快首では、このグループの人々は何百万人もの人々の注目を集めています。こんな動画もあります。都市の建設現場にいる「水鬼」たちです。この職業は非常にニッチですが、一級都市と二級都市の高層ビルには必ず必要です。高層ビルの基礎工事の際には、電動ドリルを使って数十メートルの深い穴を掘る必要があります。電動ドリルのヘッドが外れると、数十メートルの深さの濁った泥水に飛び込んで電動ドリルを元の位置に戻す必要があります。

一般ユーザーが記録した生活は、これまでのジャーナリストや専門家による記録や研究の範囲を超えた内容となっています。数億人が快手上で自分たちの生活を記録しています。ここでは、現代の職人の写真、世界各地の農村の風習、ユーザーが記録したさまざまな旅行生活、清華大学、人民大学などの大学の教授による知識の説明と普及などを見ることができます。これらの写真が一緒になって、私たちの現代の生活における清明節の河畔風景の絵を形成しています。

AIはユーザーがより低コストでより高品質のビデオを作成するのを助けます

次に、AI テクノロジーがこの短編ビデオ製品の成功にどのように役立つかに焦点を当てます。 AI技術が実はKuaishouの製品の中核に組み込まれており、動画制作、動画理解、ユーザー理解、動画推奨の全プロセスに適用されていることを、メディア関係者の皆さんに理解していただきたいと思っています。

ビデオ作成のプロセスでは、誰もが自分の人生の監督になり、携帯電話を使用して自分の人生を記録し、比較的高品質のビデオを生成できるようになることを願っています。誰もが自分自身の監督になれるようにするにはどうすればいいでしょうか? Kuaishou はビデオ制作プロセスに AI テクノロジーを広く採用し、テクノロジーを利用して一般ユーザーに力を与え、プロのビデオ制作レベルに可能な限り近づけています。

私たちは、AIを活用したコンテンツ制作を支援することで、ユーザーがより低コストでより高品質な動画を制作できるようにしたいと考えています。

例えば、Kuaishouは以前、「Kuaishou Time Machine」という魔法の絵文字をリリースしました。これを使用すると、ユーザーは数十秒以内に自分の外見が老化する過程を見ることができます。自分自身の動画を撮影するのはつまらないので、ユーザーには自分が年をとったときにどんな姿になるのかを体験してもらいたいと考えています。

たとえば、ユーザーがビデオを撮影するプロセスに AR 技術を適用すると、現実のシーンに仮想要素を追加できます。これが拡張現実であり、仮想世界と現実世界の間の相互作用が向上し、人々が自分の生活を記録する際に新しい体験をすることができます。

たとえば、レンズの汚れによるぼやけた動画、照明の問題による暗い画像、色かぶりの問題など、撮影中に問題が発生した動画をユーザーが修正できるように、画像関連のアルゴリズムを使用します。

これらのゲームプレイと機能の背後には、人間の姿勢推定、ジェスチャー認識、背景セグメンテーションなどの複数の技術モジュールを含む、Kuaishou の最先端 AI 技術の開発があります。これらはすべて、レコーディング形式をより面白くするためのKuaishouによる新しい試みです。

ここで課題があります。上記のテクノロジは、モバイル フォン上でローカルにリアルタイムで計算およびレンダリングされる必要があります。 Kuaishou には数億人のユーザーがおり、携帯電話のモデルは多種多様です。そのため、当社のアルゴリズムはすべてのモデルでスムーズに動作する必要があります。これにより、当社の AI 機能に非常に高い要求が課され、多くのコンピューティング リソースが消費されます。この問題を解決するために、Kuaishouは独自のYCNN深層推論学習エンジンを開発し、AI技術の動作がユーザーデバイスの計算能力によって制限されるという問題を解決しました。

オーディオに関しても多くの作業を行いました。たとえば、以前プロが動画を制作していたとき、字幕の編集は非常に骨の折れる作業でした。現在、音声認識技術により、ビデオ制作者が字幕を自動的に追加および編集できるように支援できるほか、さまざまな形式で字幕を表示することもできます。AI技術の助けにより、字幕生成のコストが大幅に削減されました。

短いビデオシーンでは音楽が非常に重要な役割を果たします。統計によると、Kuaishou の動画の 60%~80% は雰囲気作りのために BGM を使用しています。自分の気分を表現するのに適切な音楽を選ぶのは、実は簡単ではありません。音楽のリズムにできるだけ近い動きをすることが求められますが、音楽に対する強い感覚を持っている人は実際には非常に少ないのです。

動画作成時にユーザーが音楽を選ぶ際の敷居を下げるために、インテリジェントな音楽マッチングとAI音楽生成技術を開発しました。インテリジェント サウンドトラックは、ビデオ画面とユーザーのポートレートに基づいて、ビデオに適しており、ユーザーが好むバックグラウンド ミュージックを推奨し、ユーザーが選択できるようにします。 AIが生成した音楽は、AIの分析アルゴリズムを通じて動画内の人物の動きを感知し、生成された音楽のリズムを人物の動きに合わせることができます。これにより、ユーザーが動画を作成するときに音楽を選択する際の敷居が大幅に下がり、誰もが自分の動画を作成しやすくなります。

AIを活用して動画を理解し、ユーザーを理解し、適切に配信する

上記で共有したのは、AI テクノロジーによって短編動画を手動で作成するハードルが下がり、一般ユーザーが適切な品質の短編動画を作成できるようになるという点です。ユーザーがビデオを作成してコミュニティにアップロードした後、これらのビデオをより効果的に配信するにはどうすればよいでしょうか?

ビデオの理解は実は非常に複雑です。顔の寸法、シーンの種類、音楽の種類などの分析はすべて単一の観点からモデル化されています。実際、ビデオにはマルチモーダル分析が必要です。ユーザーがアップロードした動画がルールに準拠しているかどうか、動画の内容がオリジナルかどうかなどを機械が効率的に判断し、興味のあるユーザーに動画を正確にマッチングできるようにする必要があります。

アップロードされた膨大な動画の管理と動画の推奨は機械に任せています。ユーザーに推奨される動画は、ユーザーの興味を刺激できる動画です。これにはユーザー理解も含まれます。つまり、機械がユーザーを理解できるようにすることです。これには、ユーザーの社会学的特性や興味 (短期的な興味や趣味、中期および長期的な興味や趣味など) のほか、ユーザー特性を表すことができる多数の小さなベクトルの理解も含まれます。

動画配信に関して言えば、Kuaishouでは非常に興味深い現象が起きています。トップ動画コンテンツが過度に露出されることを望まないため、経済学のジニ係数を利用してプラットフォーム上のユーザー間の「貧富の差」を制御しています。インターネット上の注目リソースは非常に貴重なリソースです。この貴重なリソースが、スポットライトのように少数のトップユーザーに集中するのではなく、一般の人々にも行き渡ることを願っています。そこで私たちは、著名人と一般人の両方に同じであるKuaishouの推奨メカニズムを設計しました。快手は、制作者の利益とロングテール動画コンテンツの配信を重視しています。動画を制作するすべてのユーザーに注目リソースが太陽のように広がり、一般の人々がより多くの人に注目され、注目され認められる幸せを感じる機会が得られることを願っています。

短いビデオを通して記録することで、人々と世界、そして人々を結びつけます。このつながりを確立することは非常に有意義なことだと私たちは信じています。私たち一人ひとりは心の奥底では孤独であり、人脈を通じて注目や認知を得たり、友達を作ったりすることを望んでいます。したがって、Kuaishou ユーザー間の関係はより強固で安定したものになります。全体として、これはネットユーザー間の信頼を高めることができます。

今日お伝えしたいことは以上です。皆さんありがとうございました。

<<:  テクノロジーファイナンスからスマートファイナンスまで、民生銀行の革新的な人工知能の応用をご覧ください

>>:  人工知能がメンタルヘルスの改善に役立つ4つの方法

ブログ    
ブログ    
ブログ    

推薦する

機械学習に必須: TensorFlow を使用するための 11 のヒント

[[326623]] TensorFlow 2.x は、モデルの構築と全体的な使用において多くの利便...

10年後には自動運転車が普及するでしょうか?

私は知乎でこの質問を見ました: 自動運転車は10年後には当たり前になるでしょうか?そして、今でも運転...

人工知能は伝染病の予防と制御に役立ちます。正確にスクリーニングし、伝染病を推測し、ウイルスの発生源を追跡することができます。

感染予防・抑制の過程では、高リスクグループとスーパースプレッダーを迅速に特定し、感染の進行状況を正確...

[乾物] Tencent Cloud FPGA 上のディープラーニング アルゴリズム

テンセントクラウド基礎製品センターとテンセントアーキテクチャプラットフォーム部門で構成されたテンセン...

2020 年に注目すべき 6 つの機械学習のユースケース

2020 年には人工知能 (AI) が飛躍的に進歩し、機械学習はこのテクノロジーの最も成功し、広く普...

...

GPT-4が化学者になる! USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

「我々の実験は制御不能になった!これは我々の世界の終わりだ!」 - デイ・アフター・トゥモローSF映...

AIを活用して衛星画像を判別、世界初「全世界の船舶足跡マップ」を公開

1月4日、研究者のデイビッド・クルーズマ氏はナショナルジオグラフィックとブルームバーグ・フィランソロ...

Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

Safetensor とは何ですか? 【セーフテンソル】:https://huggingface....

BEV におけるレーダー・カメラ間データセット融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

パンデミックの中、大量のAIロボットが職務に就いている

2016年、著名な科学ライターでありシリコンバレーの投資家でもある呉軍氏は、大胆に次のように予測しま...

人工知能の発展方向と機会

[[358422]] 01 現段階における人工知能のボトルネック現在、人工知能、特にその応用分野では...

初心者に適した機械学習アルゴリズムの選び方

この記事の主な対象読者は、機械学習の愛好家やデータサイエンスの初心者、そして機械学習アルゴリズムを学...

モバイルロボットソフトウェアの自動テストの課題への対応

自動化されたモバイル ホーム ロボットの複雑さを探り、セットアップの特有の課題と制約の克服に焦点を当...