[51CTO.comよりオリジナル記事] 6月21日、51CTO主催のWOT2019グローバル人工知能技術サミットが北京セントラルJWマリオットホテルで予定通り開幕しました。 2019 年に世界中の技術者の間でオフライン交流が行われる有名なサミットとして、このカンファレンスは、一般技術、応用分野、企業のエンパワーメントという 3 つの主要な章を中心に展開されます。世界中から60名を超えるトップAI専門家が集まり、1,000名を超える参加者とともに、ディープラーニング、ニューラルネットワーク、ビジュアルテクノロジー、自動運転車、機械学習、アルゴリズムモデル、ナレッジグラフなどのトピックに関する技術コンテンツを共有しました。 6月21日午後、総合技術支部A会場で開催された機械学習実践フォーラムには、NetEase Cloud Musicの音楽推奨責任者であるXiao Qiang氏、VIPKIDの需給最適化技術責任者であるShen Liang氏、Meituan Dianpingの上級技術専門家であるWang Yongkang氏の3名の機械学習専門家が招待され、素晴らしい講演を行いました。会議後、51CTOは専門家のスピーチのエッセンスが皆様のお役に立てばと願い、スピーチをテキストにまとめました。 NetEase Cloud Music の音楽推薦責任者、Xiao Qiang 氏: 音楽推薦における AI アルゴリズムの実践 NetEase Cloud Musicの音楽推薦責任者であるXiao Qiang氏の講演は、3つの部分に分かれていました。第1に、NetEase Cloud Musicの紹介、第2に、音楽推薦におけるAIアルゴリズムの実践、第3に、音楽シナリオにおけるAIの考え方です。
NetEase Cloud Music 推奨システムは、AI アルゴリズムを通じて各ユーザーにパーソナライズされた推奨を提供し、ユーザーに異なる音楽鑑賞体験をもたらすことに取り組んでいます。他の推奨事項と同様に、音楽の推奨事項はすべてユーザー エクスペリエンス指向であり、ユーザーがリソースをより迅速に取得するのに役立ちますが、音楽の推奨事項には異なる特性と難しさがあります。 まず、音楽自体の複雑さのため、システムは音楽をよりよく理解する必要があります。 NetEase Cloud Music は NLP システムを使用して、コミュニティ内のユーザーが自発的に生成したコンテンツを通じて音楽を説明するため、音楽を聴かなくても音楽の全体像を把握できます。新しい音楽は、ビデオと画像技術を使用して、音楽間の関連研究作業を実現します。
シャオ・チアン氏は、音楽消費においては、ユーザーのニーズが複雑であるため、単一の目標で音楽推奨システムを測定することは難しいと指摘した。CTRと消費時間が同期して改善しなかったり、同時に増加したり減少したりすることや、多目的問題に遭遇することがよくある。 NetEase Cloud Music は共同トレーニングを使用して多目的問題を解決します。共同トレーニングには主に 4 つの利点があります。まず、複数のターゲット タスクが浅いレベルで表現を共有し、タスク間にノイズ データが追加されることで、ネットワークの過剰適合が軽減され、一般化効果が向上します。第二に、多目的タスク学習における異なるタスクの局所最小値は異なる位置にあり、相互作用を通じて局所最小値からの脱出を助けることができます。 3 つ目は、複数の目的タスクの共同トレーニングです。モデルは、可能な限り複数のタスクに共通のソリューションを見つけようとします。 4番目は盗聴です。共同トレーニングを通じて、音楽の収集率と消費時間が大幅に向上しました。 音楽シナリオにおける AI の思考についての部分で、シャオ・チアンは、音楽の推奨では、数億人のユーザー * 数千万曲 * 数十万人のミュージシャン * n シナリオの 4 次元空間でのマッチング問題を解決する必要があると述べました。推奨システムの主な目標は、人工知能を使用してユーザーエクスペリエンスを向上させることです。これには、ユーザーの音楽の共有意欲、長時間の音楽の聴取、収集した音楽を繰り返して聴くこと、ユーザーが聴いた曲の数が増加していることなどが含まれます。 NetEase Cloud Music の AI 推奨システムは、ナレッジ グラフ、統計学習、強化学習を組み合わせたもので、強力なロングテール発見機能と正確なマッチング機能を使用して、ユーザーがより優れた音楽を発見できるようにします。 VIPKIDの需給最適化技術責任者、シェン・リャン氏:オンライン教育業界におけるビデオ理解の応用 VIPKIDの需給最適化技術責任者であるShen Liang氏は冒頭、オンライン教育の分野では、1対1のライブビデオコンテンツが最も重要なデータの1つであると指摘した。したがって、特定の分野やシナリオにおけるビデオコンテンツ理解技術は、オンライン教育企業の中核的な競争力を高めることができるため、特に重要です。 VIPKID はオンライン教育会社であるだけでなく、ビデオコンテンツ会社でもあります。 VIPKID プラットフォームでは毎日 400 万分以上、30 TB 以上のビデオ データが生成され、最大 7 PB のビデオ コンテンツが蓄積されます。データは価値です。シェン・リャン氏のその後の講演は主に、VIPKID のデータ価値のマイニング方法と、これらのデータを製品化するための試みを中心に展開されました。
ディープラーニングの台頭は、ビデオコンテンツ理解技術の原動力となっています。従来の機械学習アルゴリズムによるコンピュータービジョン/音声処理では、R&D の手順が煩雑で、ドメイン知識に大きく依存し、機能処理の複雑さが非常に高くなります。モデルを繰り返しデバッグするには、ドメイン エキスパートとアルゴリズム エキスパートが必要です。ディープラーニングの発展により、基本的なアルゴリズムモデルの効果が質的に向上し、例えば顔検出、顔認識、音声認識などの分野では人間のレベルを超えています。ビデオ コンテンツの理解に関する基本的な技術サポートを提供します。そのため、ディープラーニングと製品ニーズの相互推進により、ビデオコンテンツ理解の分野が製品やユーザーのさまざまな側面に徐々に浸透してきたと言えます。 VIPKID には 1 日あたり約 300 万分のビデオ データが存在します。具体的には、毎日 400 万分の音声と 3 億枚の画像を処理する必要があります。音声分野では、音声認識、ノイズ認識、音声感情認識などを行う必要があります。画像分野では、顔認識/検出を行う必要があるため、課題は非常に大きいです。 VIPKIDは、独自の研究とサードパーティのテクノロジーベンダー(Alibaba Cloud、Tencent Cloud、Amazon Cloud、Face++、Chishengなど)との協力を通じて、部分的な顔認識、複数の特定のジェスチャー認識、AIクラスの表示などを含む完全なソリューションセットを確立しました。 さらに、VIPKID は複数のモデルを使用してさまざまな特定のジェスチャを検出し、ジェスチャの検出と分類を実現します。機械の見直しにより効率が100倍向上しました。
Meituan Takeoutには現在、3億人以上のユーザーと360万以上の加盟店がいます。このような背景を踏まえ、美団外売も広告収益化を模索してきました。現在、情報フロー広告、検索広告、ディスプレイ広告などの商品形態と、CPT、GD、CPM、CPCなどの販売モデルが含まれています。このようなビジネスの背後には、それをサポートする比較的完全なビジネスロジックと技術的手段があります。 王永康氏はテイクアウトモデルの進化のプロセスを詳しく紹介しました。電子商取引のシナリオには、より連続的な統計機能とより強力な特性評価機能があるため、Meituan Waimai は当初 xgboost を使用していました。反復効果を高めるために、Meituan Waimai は xgboost から lgb に切り替え、トレーニング速度が 2 倍に向上しました。現在のモデルの反復では、通常、lightgbm を使用して以前の基本モデルを反復します。 もちろん、ツリーモデルには、配列情報の表現が比較的弱いことや、スパースで高次元の離散的な特徴など、いくつかの制限があるため、DNN に移行されることになります。 上の図は、テイクアウト広告予測モデルの進化を示しています。 プラットフォーム側では、収益の最適化に重点が置かれています。テイクアウトのシナリオでは、画像、テキスト、料理の画像など、マルチモーダル情報が多数あります。たとえば、料理の見積もりや料理の並べ替えを行うときには、料理の画像情報がより重要になります。 Meituan Waimai は当初、2 段階のアプローチを採用していました。まず、トレーニング済みの CNN ネットワークを使用して画像を埋め込みとして表現し、次にそれをモデルに渡しました。その後、VGG16 ネットワークが簡素化され、エンドツーエンドのトレーニングのためにモデルに直接接続されました。
シーケンス機能の場合、異なる動作は、「クリック」の「POI」シーケンス、「注文」の「画像」シーケンスなど、異なるエンティティを接続することで異なるシーケンスを生成できます。異なるシーケンスは、ユーザーの異なる動作、セマンティクス、および視覚的な好みをキャプチャできます。IDシーケンスをモデルに直接入力することも、表現学習法を使用してIDの埋め込み式を学習し、埋め込みシーケンスをモデルに入力することもできます。上位層は、プーリング、類似性、注意などの操作を実行できます。 多目的学習では、テイクアウト シナリオには露出、クリック、注文、注文金額が含まれるため、対応するモデルは CTR、CVR、価格を推定します。従来、CVRを推定する場合、トレーニングサンプルはクリック+コンバージョンデータを使用し、露出データは表示されません。価格を推定する場合、トレーニングサンプルはコンバージョン+コンバージョン額データを使用し、露出とクリックデータは表示されません。しかし、予測時にはそれらが一緒に予測されるため、トレーニングと予測のサンプル分布が一致しないという問題が発生します。Meituan Waimaiの方法は、埋め込み層またはローカルネットワーク層を共有することでこの問題を解決します。 加盟店側では、加盟店の入出力比率を最適化します。 Meituan Waimai が機械学習を使用してビジネス上の問題を解決する方法は、2 つの部分に分けられます。1 つはビジネス上の問題が機械学習の問題に変換される方法、もう 1 つは機械学習がビジネス上の問題を最適化する方法です。
中間のリンクはブラックボックスに相当し、状態から報酬までのプロセス全体をモデル化するにはモデルが必要です。重要な問題は、州内の機能の設計を通じて中間リンクをどのように特徴付けるかということです。 ユーザー側では、エクスペリエンスの最適化に重点が置かれています。 Meituan Waimai は、ユーザー エクスペリエンスを実用性の観点から理解し、ユーザー エクスペリエンスを短期エクスペリエンス、中期エクスペリエンス、長期エクスペリエンスの 3 つの段階に分類します。 王永康***は、美団外売はモデル推定とメカニズム設計を通じてプラットフォーム側の収益を最適化し、手動戦略から強化学習までのOCPCの反復を通じてマーチャント側のコンバージョンを最適化し、ユーザーエクスペリエンスモデリングの最適化を通じてユーザー側のユーザーエクスペリエンスを最適化し、最終的に美団外売の商業化を実現したと結論付けました。 上記の内容は、WOT2019グローバル人工知能技術サミットの「機械学習実践」サブフォーラムの講演内容に基づいて51CTO記者がまとめたものです。より完全なWOTコンテンツについては、.comに注目してください。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: NumPy ダイアグラム、配列を視覚的に理解するためのチュートリアル
人工知能の概念は何年も前から存在しています。SF映画に出てくるような高度なロボットはまだ登場していま...
モデルのサイズが大きくなるにつれて、大規模なモデルが大量の知識を習得できる方法を模索し始めます。一つ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[422468]]この記事はWeChatの公開アカウント「amazingdotnet」から転載した...
ゲスト | ウェン・メンフェイインタビュー&執筆 | Yun Zhao潮が満ちると、何千もの船が動き...
[[274332]]私のいとこは 2000 年代生まれで、大学に入学したばかりの才能あふれる若者で...
電子メールは日ごとに賢くなってきています。 Gmail では宛先不明の受信者を報告でき、Google...
たとえば、私が 25 年以上携わってきた市場調査業界を考えてみましょう。 AI は、さまざまな方法で...
この間、ゴミの分別に関するミニプログラムやアプリの登場により、画像認識が再び人々の注目を集めています...