AI基盤を強化し、業界の実践に注力する---WOTグローバル人工知能技術サミット機械学習実践フォーラムの記録

[51CTO.comよりオリジナル記事] 6月21日、51CTO主催のWOT2019グローバル人工知能技術サミットが北京セントラルJWマリオットホテルで予定通り開幕しました。 2019 年に世界中の技術者の間でオフライン交流が行われる有名なサミットとして、このカンファレンスは、一般技術、応用分野、企業のエンパワーメントという 3 つの主要な章を中心に展開されます。世界中から60名を超えるトップAI専門家が集まり、1,000名を超える参加者とともに、ディープラーニング、ニューラルネットワーク、ビジュアルテクノロジー、自動運転車、機械学習、アルゴリズムモデル、ナレッジグラフなどのトピックに関する技術コンテンツを共有しました。

6月21日午後、総合技術支部A会場で開催された機械学習実践フォーラムには、NetEase Cloud Musicの音楽推奨責任者であるXiao Qiang氏、VIPKIDの需給最適化技術責任者であるShen Liang氏、Meituan Dianpingの上級技術専門家であるWang Yongkang氏の3名の機械学習専門家が招待され、素晴らしい講演を行いました。会議後、51CTOは専門家のスピーチのエッセンスが皆様のお役に立てばと願い、スピーチをテキストにまとめました。

NetEase Cloud Music の音楽推薦責任者、Xiao Qiang 氏: 音楽推薦における AI アルゴリズムの実践

NetEase Cloud Musicの音楽推薦責任者であるXiao Qiang氏の講演は、3つの部分に分かれていました。第1に、NetEase Cloud Musicの紹介、第2に、音楽推薦におけるAIアルゴリズムの実践、第3に、音楽シナリオにおけるAIの考え方です。

NetEase Cloud Music は、2013 年 4 月に正式にリリースされて以来、UGC コミュニティ、UGC プレイリスト、正確な推奨事項という 3 つの特徴的な製品を備え、音楽愛好家が集まる場所となっています。

NetEase Cloud Music 推奨システムは、AI アルゴリズムを通じて各ユーザーにパーソナライズされた推奨を提供し、ユーザーに異なる音楽鑑賞体験をもたらすことに取り組んでいます。他の推奨事項と同様に、音楽の推奨事項はすべてユーザーエクスペリエンス指向であり、ユーザーがリソースをより迅速に取得するのに役立ちますが、音楽の推奨事項には異なる特性と難しさがあります。

まず、音楽自体の複雑さのため、システムは音楽をよりよく理解する必要があります。 NetEase Cloud Music は NLP システムを使用して、コミュニティ内のユーザーが自発的に生成したコンテンツを通じて音楽を説明するため、音楽を聴かなくても音楽の全体像を把握できます。新しい音楽は、ビデオと画像技術を使用して、音楽間の関連研究作業を実現します。

次に、繰り返し可能な消費を使用して CF 類似度を計算します。つまり、ユーザーの反復的な消費（曲を何度も聴くこと）に基づいて、空間的な位置の違いや空間的な方向の違いなど、ユーザーの嗜好や曲間の相関関係を表現することができます。

3 つ目は、音楽の推薦の消費コストが高く、強い関連性が重視されるため、ユーザーのニーズを表現するには適切なモデルが必要になることです。 LR モデルは解釈可能性は高いですが、表現力は限られています。ツリーモデル、および LR モデルとツリーモデルの組み合わせには、いくつかの非線形問題を解決できるという利点があります。大規模 FTRL の利点は、メモリのような機能を取得でき、強力な特性評価機能を備えていることです。欠点としては、特徴次元が大きく、多数のサンプルが必要であり、計算が複雑になることが挙げられます。さらに、時系列の特徴を学習できる強力な表現力を持つディープニューラルネットワークや、強力な特性評価および一般化機能を備えたディープ時系列ネットワークもあります。 NetEase Cloud Music は、線形モデルやツリーモデルから大規模 FTRL、ディープニューラルネットワーク、ディープタイムシリーズネットワークに至るまで、モデルの反復を通じてユーザーのニーズをより正確に表現します。

シャオ・チアン氏は、音楽消費においては、ユーザーのニーズが複雑であるため、単一の目標で音楽推奨システムを測定することは難しいと指摘した。CTRと消費時間が同期して改善しなかったり、同時に増加したり減少したりすることや、多目的問題に遭遇することがよくある。 NetEase Cloud Music は共同トレーニングを使用して多目的問題を解決します。共同トレーニングには主に 4 つの利点があります。まず、複数のターゲットタスクが浅いレベルで表現を共有し、タスク間にノイズデータが追加されることで、ネットワークの過剰適合が軽減され、一般化効果が向上します。第二に、多目的タスク学習における異なるタスクの局所最小値は異なる位置にあり、相互作用を通じて局所最小値からの脱出を助けることができます。 3 つ目は、複数の目的タスクの共同トレーニングです。モデルは、可能な限り複数のタスクに共通のソリューションを見つけようとします。 4番目は盗聴です。共同トレーニングを通じて、音楽の収集率と消費時間が大幅に向上しました。

音楽シナリオにおける AI の思考についての部分で、シャオ・チアンは、音楽の推奨では、数億人のユーザー * 数千万曲 * 数十万人のミュージシャン * n シナリオの 4 次元空間でのマッチング問題を解決する必要があると述べました。推奨システムの主な目標は、人工知能を使用してユーザーエクスペリエンスを向上させることです。これには、ユーザーの音楽の共有意欲、長時間の音楽の聴取、収集した音楽を繰り返して聴くこと、ユーザーが聴いた曲の数が増加していることなどが含まれます。 NetEase Cloud Music の AI 推奨システムは、ナレッジグラフ、統計学習、強化学習を組み合わせたもので、強力なロングテール発見機能と正確なマッチング機能を使用して、ユーザーがより優れた音楽を発見できるようにします。

VIPKIDの需給最適化技術責任者、シェン・リャン氏：オンライン教育業界におけるビデオ理解の応用

VIPKIDの需給最適化技術責任者であるShen Liang氏は冒頭、オンライン教育の分野では、1対1のライブビデオコンテンツが最も重要なデータの1つであると指摘した。したがって、特定の分野やシナリオにおけるビデオコンテンツ理解技術は、オンライン教育企業の中核的な競争力を高めることができるため、特に重要です。 VIPKID はオンライン教育会社であるだけでなく、ビデオコンテンツ会社でもあります。 VIPKID プラットフォームでは毎日 400 万分以上、30 TB 以上のビデオデータが生成され、最大 7 PB のビデオコンテンツが蓄積されます。データは価値です。シェン・リャン氏のその後の講演は主に、VIPKID のデータ価値のマイニング方法と、これらのデータを製品化するための試みを中心に展開されました。

ビデオコンテンツ理解の技術は、以下の理由により近年非常に人気が高まっています。まず、ビデオコンテンツの理解の一般的な傾向は、手動から機械への移行です。ライブストリーミングは2015年に人気となり、2017年と2018年には短編動画の増加に伴い、生成されるデータが飛躍的に増加しました。ライブストリーミングは PGC (プロが制作したコンテンツ) として理解でき、短い動画は UGC (ユーザーが作成したコンテンツ) として理解できます。 UGC のコンテンツ出力は PGC よりもはるかに大きいです。ビデオコンテンツを理解するための技術的な要求は、レビューや編集から、コンテンツ理解、ビデオコンテンツ作成などの分野に関する推奨製品へと徐々に浸透してきました。さらに、製品のユーザーエクスペリエンスや社内の運用効率などの実際の KPI 指標も、ビデオコンテンツ理解テクノロジーの開発を推進します。たとえば、ここ数年、動画のおすすめは基本的にユーザーの行動や動画のタグなどに基づいて行われていましたが、現在では基本的に動画そのものの分野に移行し、何とも言えない特徴や、検出可能なコンテンツのごく一部を生み出しています。

ディープラーニングの台頭は、ビデオコンテンツ理解技術の原動力となっています。従来の機械学習アルゴリズムによるコンピュータービジョン/音声処理では、R&D の手順が煩雑で、ドメイン知識に大きく依存し、機能処理の複雑さが非常に高くなります。モデルを繰り返しデバッグするには、ドメインエキスパートとアルゴリズムエキスパートが必要です。ディープラーニングの発展により、基本的なアルゴリズムモデルの効果が質的に向上し、例えば顔検出、顔認識、音声認識などの分野では人間のレベルを超えています。ビデオコンテンツの理解に関する基本的な技術サポートを提供します。そのため、ディープラーニングと製品ニーズの相互推進により、ビデオコンテンツ理解の分野が製品やユーザーのさまざまな側面に徐々に浸透してきたと言えます。

VIPKID には 1 日あたり約 300 万分のビデオデータが存在します。具体的には、毎日 400 万分の音声と 3 億枚の画像を処理する必要があります。音声分野では、音声認識、ノイズ認識、音声感情認識などを行う必要があります。画像分野では、顔認識/検出を行う必要があるため、課題は非常に大きいです。

VIPKIDは、独自の研究とサードパーティのテクノロジーベンダー（Alibaba Cloud、Tencent Cloud、Amazon Cloud、Face++、Chishengなど）との協力を通じて、部分的な顔認識、複数の特定のジェスチャー認識、AIクラスの表示などを含む完全なソリューションセットを確立しました。
機械によるレビュー、コースの品質評価、ハイライトなどのプロジェクトでは、主な誤認識は、教師と生徒の一部の顔の認識が不十分なことが原因です。VIPKID は、顔認識の補足として前面と背面の注釈と複数のモデル最適化を使用し、顔画像をさらに 10% 認識します。

さらに、VIPKID は複数のモデルを使用してさまざまな特定のジェスチャを検出し、ジェスチャの検出と分類を実現します。機械の見直しにより効率が100倍向上しました。

王永康、美団点評のシニア技術専門家: 美団テイクアウトの商業収益化の実践

Meituan Takeoutには現在、3億人以上のユーザーと360万以上の加盟店がいます。このような背景を踏まえ、美団外売も広告収益化を模索してきました。現在、情報フロー広告、検索広告、ディスプレイ広告などの商品形態と、CPT、GD、CPM、CPCなどの販売モデルが含まれています。このようなビジネスの背後には、それをサポートする比較的完全なビジネスロジックと技術的手段があります。

王永康氏はテイクアウトモデルの進化のプロセスを詳しく紹介しました。電子商取引のシナリオには、より連続的な統計機能とより強力な特性評価機能があるため、Meituan Waimai は当初 xgboost を使用していました。反復効果を高めるために、Meituan Waimai は xgboost から lgb に切り替え、トレーニング速度が 2 倍に向上しました。現在のモデルの反復では、通常、lightgbm を使用して以前の基本モデルを反復します。

もちろん、ツリーモデルには、配列情報の表現が比較的弱いことや、スパースで高次元の離散的な特徴など、いくつかの制限があるため、DNN に移行されることになります。

上の図は、テイクアウト広告予測モデルの進化を示しています。

プラットフォーム側では、収益の最適化に重点が置かれています。テイクアウトのシナリオでは、画像、テキスト、料理の画像など、マルチモーダル情報が多数あります。たとえば、料理の見積もりや料理の並べ替えを行うときには、料理の画像情報がより重要になります。 Meituan Waimai は当初、2 段階のアプローチを採用していました。まず、トレーニング済みの CNN ネットワークを使用して画像を埋め込みとして表現し、次にそれをモデルに渡しました。その後、VGG16 ネットワークが簡素化され、エンドツーエンドのトレーニングのためにモデルに直接接続されました。

テキスト情報の場合は、オフライン機能としてモデルに直接入力したり、事前トレーニング済みの単語埋め込みを使用して入力したり、モデル構造内のテキストシーケンスに LSTM を接続したりすることができます。

シーケンス機能の場合、異なる動作は、「クリック」の「POI」シーケンス、「注文」の「画像」シーケンスなど、異なるエンティティを接続することで異なるシーケンスを生成できます。異なるシーケンスは、ユーザーの異なる動作、セマンティクス、および視覚的な好みをキャプチャできます。IDシーケンスをモデルに直接入力することも、表現学習法を使用してIDの埋め込み式を学習し、埋め込みシーケンスをモデルに入力することもできます。上位層は、プーリング、類似性、注意などの操作を実行できます。

多目的学習では、テイクアウトシナリオには露出、クリック、注文、注文金額が含まれるため、対応するモデルは CTR、CVR、価格を推定します。従来、CVRを推定する場合、トレーニングサンプルはクリック+コンバージョンデータを使用し、露出データは表示されません。価格を推定する場合、トレーニングサンプルはコンバージョン+コンバージョン額データを使用し、露出とクリックデータは表示されません。しかし、予測時にはそれらが一緒に予測されるため、トレーニングと予測のサンプル分布が一致しないという問題が発生します。Meituan Waimaiの方法は、埋め込み層またはローカルネットワーク層を共有することでこの問題を解決します。

加盟店側では、加盟店の入出力比率を最適化します。 Meituan Waimai が機械学習を使用してビジネス上の問題を解決する方法は、2 つの部分に分けられます。1 つはビジネス上の問題が機械学習の問題に変換される方法、もう 1 つは機械学習がビジネス上の問題を最適化する方法です。

上の図は、ビジネスに基づいて適切な状態、報酬、アクションを設計する方法を示しています。

中間のリンクはブラックボックスに相当し、状態から報酬までのプロセス全体をモデル化するにはモデルが必要です。重要な問題は、州内の機能の設計を通じて中間リンクをどのように特徴付けるかということです。

ユーザー側では、エクスペリエンスの最適化に重点が置かれています。 Meituan Waimai は、ユーザーエクスペリエンスを実用性の観点から理解し、ユーザーエクスペリエンスを短期エクスペリエンス、中期エクスペリエンス、長期エクスペリエンスの 3 つの段階に分類します。

王永康***は、美団外売はモデル推定とメカニズム設計を通じてプラットフォーム側の収益を最適化し、手動戦略から強化学習までのOCPCの反復を通じてマーチャント側のコンバージョンを最適化し、ユーザーエクスペリエンスモデリングの最適化を通じてユーザー側のユーザーエクスペリエンスを最適化し、最終的に美団外売の商業化を実現したと結論付けました。

上記の内容は、WOT2019グローバル人工知能技術サミットの「機械学習実践」サブフォーラムの講演内容に基づいて51CTO記者がまとめたものです。より完全なWOTコンテンツについては、.comに注目してください。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: NumPy ダイアグラム、配列を視覚的に理解するためのチュートリアル

>>: 人工知能が企業のバックオフィスへの参入を加速