快手テクノロジーのマルチメディアコンテンツ理解部門のLi Yan氏：AI技術は快手製品に統合されています

「AI技術はKuaishou製品ライン全体に浸透しています。AI技術による多次元のエンパワーメントにより、より多くの人々が世界に知られるようになり、より広い世界を見る機会が得られます。」5月25日、2019年世界人工知能技術カンファレンス（2019 GAITC）で、Kuaishou Technologyのマルチメディアコンテンツ理解部門の責任者であるLi Yan氏はそう語った。

会議は南京で開催され、李炎氏は「人工知能とメディア融合に関するフロンティアフォーラム」で講演した。快手テクノロジーの代表として、李燕氏は、快手がAIテクノロジーを活用して一般ユーザー全員に力を与え、全員の記録フォームをより豊かで、より面白く、より高品質にする方法について話しました。

[[266875]]

李燕氏は、快手がAI技術を深く研究した結果、短編動画を作成するハードルが下がり、ユーザーがプロの基準に可能な限り近づくことができるようになったと述べた。コンテンツとユーザーを理解することで、動画とユーザーの正確なマッチングを実現し、各ユーザーに広い表示スペースを提供し、より広い世界を見せることができます。

彼は、短い動画を録画することで、人々同士、そして世界とつながり、非常に有意義なことだと信じています。全体として、ネットユーザー間の信頼が高まります。

以下はスピーチの書き起こし（要約）です。

Kuaishouのようなショート動画コミュニティでAIがどのように応用され、どのような面白いAIアプリケーションが生み出されるのかを紹介する機会を頂けてとても嬉しく思います。

私のシェアは3つの部分に分かれています。最初の部分では、Kuaishou について簡単に紹介します。2 番目の部分では、AI テクノロジーがユーザーのビデオ作成の品質を向上させ、作成のハードルを下げる方法について紹介します。3 番目の部分では、AI テクノロジーがビデオを理解し、ユーザーを理解し、適切に配信する方法を紹介します。

快手とは何か

Kuaishou は、一般の人々が自分たちの生活を記録し、共有するためのコミュニティ製品として位置付けられています。短い動画、写真、ライブ放送を通じて人々が自分たちの生活を記録するのを支援し、誰もが世界に見られ、より広い世界を見る機会を得られるようにしています。

快手は2011年に設立され、今年で8周年を迎えます。現在のDAUは2億人に達しています。 2011年、GIF Kuaishouはアニメーション画像を作成するためのツールでした。2013年、モバイルインターネットの台頭により、ショートビデオの重要な影響と役割が明らかになりました。2013年7月、ツールベースの製品はショートビデオコミュニティに変わりました。短編動画コミュニティに変身した後、Kuaishouのデータは飛躍的に成長しました。2015年1月、Kuaishouの1日のアクティブユーザー数は1,000万人を超えました。現在、Kuaishouの1日のアクティブユーザー数は2億人に達しています。中国のインターネット市場では、1日あたり2億人のアクティブユーザーを抱えるアプリはほとんどありません。長年にわたる数億人のユーザーの蓄積により、現在、私たちのコミュニティには 100 億本以上の短編動画が記録されており、その数は 1 日あたり 1,500 万本の新しい短編動画のペースで増加しています。4 年前、この数はわずか数十万本でした。

快手では、ユーザーが世界のあらゆる側面を記録しています。ここでは、マスメディアでは見られない、さまざまなリアルで迫力のある生活を見ることができます。例えば、このビデオでは、鴨緑江のいかだ乗りたちが木材を運んでおり、水の流れに沿って山から下って木材を運んでいます。この古代の水上輸送方法はほとんど知られていませんが、快首では、このグループの人々は何百万人もの人々の注目を集めています。こんな動画もあります。都市の建設現場にいる「水鬼」たちです。この職業は非常にニッチですが、一級都市と二級都市の高層ビルには必ず必要です。高層ビルの基礎工事の際には、電動ドリルを使って数十メートルの深い穴を掘る必要があります。電動ドリルのヘッドが外れると、数十メートルの深さの濁った泥水に飛び込んで電動ドリルを元の位置に戻す必要があります。

一般ユーザーが記録した生活は、これまでのジャーナリストや専門家による記録や研究の範囲を超えた内容となっています。数億人が快手上で自分たちの生活を記録しています。ここでは、現代の職人の写真、世界各地の農村の風習、ユーザーが記録したさまざまな旅行生活、清華大学、人民大学などの大学の教授による知識の説明と普及などを見ることができます。これらの写真が一緒になって、私たちの現代の生活における清明節の河畔風景の絵を形成しています。

AIはユーザーがより低コストでより高品質のビデオを作成するのを助けます

次に、AI テクノロジーがこの短編ビデオ製品の成功にどのように役立つかに焦点を当てます。 AI技術が実はKuaishouの製品の中核に組み込まれており、動画制作、動画理解、ユーザー理解、動画推奨の全プロセスに適用されていることを、メディア関係者の皆さんに理解していただきたいと思っています。

ビデオ作成のプロセスでは、誰もが自分の人生の監督になり、携帯電話を使用して自分の人生を記録し、比較的高品質のビデオを生成できるようになることを願っています。誰もが自分自身の監督になれるようにするにはどうすればいいでしょうか? Kuaishou はビデオ制作プロセスに AI テクノロジーを広く採用し、テクノロジーを利用して一般ユーザーに力を与え、プロのビデオ制作レベルに可能な限り近づけています。

私たちは、AIを活用したコンテンツ制作を支援することで、ユーザーがより低コストでより高品質な動画を制作できるようにしたいと考えています。

例えば、Kuaishouは以前、「Kuaishou Time Machine」という魔法の絵文字をリリースしました。これを使用すると、ユーザーは数十秒以内に自分の外見が老化する過程を見ることができます。自分自身の動画を撮影するのはつまらないので、ユーザーには自分が年をとったときにどんな姿になるのかを体験してもらいたいと考えています。

たとえば、ユーザーがビデオを撮影するプロセスに AR 技術を適用すると、現実のシーンに仮想要素を追加できます。これが拡張現実であり、仮想世界と現実世界の間の相互作用が向上し、人々が自分の生活を記録する際に新しい体験をすることができます。

たとえば、レンズの汚れによるぼやけた動画、照明の問題による暗い画像、色かぶりの問題など、撮影中に問題が発生した動画をユーザーが修正できるように、画像関連のアルゴリズムを使用します。

これらのゲームプレイと機能の背後には、人間の姿勢推定、ジェスチャー認識、背景セグメンテーションなどの複数の技術モジュールを含む、Kuaishou の最先端 AI 技術の開発があります。これらはすべて、レコーディング形式をより面白くするためのKuaishouによる新しい試みです。

ここで課題があります。上記のテクノロジは、モバイルフォン上でローカルにリアルタイムで計算およびレンダリングされる必要があります。 Kuaishou には数億人のユーザーがおり、携帯電話のモデルは多種多様です。そのため、当社のアルゴリズムはすべてのモデルでスムーズに動作する必要があります。これにより、当社の AI 機能に非常に高い要求が課され、多くのコンピューティングリソースが消費されます。この問題を解決するために、Kuaishouは独自のYCNN深層推論学習エンジンを開発し、AI技術の動作がユーザーデバイスの計算能力によって制限されるという問題を解決しました。

オーディオに関しても多くの作業を行いました。たとえば、以前プロが動画を制作していたとき、字幕の編集は非常に骨の折れる作業でした。現在、音声認識技術により、ビデオ制作者が字幕を自動的に追加および編集できるように支援できるほか、さまざまな形式で字幕を表示することもできます。AI技術の助けにより、字幕生成のコストが大幅に削減されました。

短いビデオシーンでは音楽が非常に重要な役割を果たします。統計によると、Kuaishou の動画の 60%～80% は雰囲気作りのために BGM を使用しています。自分の気分を表現するのに適切な音楽を選ぶのは、実は簡単ではありません。音楽のリズムにできるだけ近い動きをすることが求められますが、音楽に対する強い感覚を持っている人は実際には非常に少ないのです。

動画作成時にユーザーが音楽を選ぶ際の敷居を下げるために、インテリジェントな音楽マッチングとAI音楽生成技術を開発しました。インテリジェントサウンドトラックは、ビデオ画面とユーザーのポートレートに基づいて、ビデオに適しており、ユーザーが好むバックグラウンドミュージックを推奨し、ユーザーが選択できるようにします。 AIが生成した音楽は、AIの分析アルゴリズムを通じて動画内の人物の動きを感知し、生成された音楽のリズムを人物の動きに合わせることができます。これにより、ユーザーが動画を作成するときに音楽を選択する際の敷居が大幅に下がり、誰もが自分の動画を作成しやすくなります。

AIを活用して動画を理解し、ユーザーを理解し、適切に配信する

上記で共有したのは、AI テクノロジーによって短編動画を手動で作成するハードルが下がり、一般ユーザーが適切な品質の短編動画を作成できるようになるという点です。ユーザーがビデオを作成してコミュニティにアップロードした後、これらのビデオをより効果的に配信するにはどうすればよいでしょうか?

ビデオの理解は実は非常に複雑です。顔の寸法、シーンの種類、音楽の種類などの分析はすべて単一の観点からモデル化されています。実際、ビデオにはマルチモーダル分析が必要です。ユーザーがアップロードした動画がルールに準拠しているかどうか、動画の内容がオリジナルかどうかなどを機械が効率的に判断し、興味のあるユーザーに動画を正確にマッチングできるようにする必要があります。

アップロードされた膨大な動画の管理と動画の推奨は機械に任せています。ユーザーに推奨される動画は、ユーザーの興味を刺激できる動画です。これにはユーザー理解も含まれます。つまり、機械がユーザーを理解できるようにすることです。これには、ユーザーの社会学的特性や興味 (短期的な興味や趣味、中期および長期的な興味や趣味など) のほか、ユーザー特性を表すことができる多数の小さなベクトルの理解も含まれます。

動画配信に関して言えば、Kuaishouでは非常に興味深い現象が起きています。トップ動画コンテンツが過度に露出されることを望まないため、経済学のジニ係数を利用してプラットフォーム上のユーザー間の「貧富の差」を制御しています。インターネット上の注目リソースは非常に貴重なリソースです。この貴重なリソースが、スポットライトのように少数のトップユーザーに集中するのではなく、一般の人々にも行き渡ることを願っています。そこで私たちは、著名人と一般人の両方に同じであるKuaishouの推奨メカニズムを設計しました。快手は、制作者の利益とロングテール動画コンテンツの配信を重視しています。動画を制作するすべてのユーザーに注目リソースが太陽のように広がり、一般の人々がより多くの人に注目され、注目され認められる幸せを感じる機会が得られることを願っています。

短いビデオを通して記録することで、人々と世界、そして人々を結びつけます。このつながりを確立することは非常に有意義なことだと私たちは信じています。私たち一人ひとりは心の奥底では孤独であり、人脈を通じて注目や認知を得たり、友達を作ったりすることを望んでいます。したがって、Kuaishou ユーザー間の関係はより強固で安定したものになります。全体として、これはネットユーザー間の信頼を高めることができます。

今日お伝えしたいことは以上です。皆さんありがとうございました。

<<: テクノロジーファイナンスからスマートファイナンスまで、民生銀行の革新的な人工知能の応用をご覧ください

>>: 人工知能がメンタルヘルスの改善に役立つ4つの方法