Quora は機械学習をどのように活用していますか?

[[202181]]

2015年、同社のエンジニアリング担当副社長であるXavier Amatriain氏が、Quoraで機械学習の活用方法について素晴らしい回答をしました。それ以来、Quora での機械学習の使用は急速に増加し、既存の機械学習アプリケーション向けにさらに大規模で優れたモデルを開発しただけでなく、機械学習を使用する領域も拡大しました。この回答では、2017 年に Quora で機械学習がどのように使用されているかについての青写真を示します。

機械学習のユースケース

製品のさまざまなコンポーネントを詳しく説明し、その中で機械学習がどのように使用されているかについて説明します。

1. 情報を検索する

Quora における知識共有の主な形式は、質問と回答です。最初は、ユーザーには回答が必要な質問や、満たされたい「情報ニーズ」があるかもしれません。ユーザーが Quora で新しい質問をすると、機械学習システムがその質問を理解し、質問から情報を抽出して残りの作業をより簡単に完了できるようにします。そこで、この問題理解システムを紹介したいと思います。

私たちは回答内容の品質を重視しますが、すべては質問の品質から始まります。当社には、質問を受け取ると、その質問の品質を分類して、高品質の質問と低品質の質問を区別する ML システムがあります。問題の品質に加えて、いくつかの異なる問題の種類も決定しました。これにより、プロセスの後半で問題をどのように処理するかを決定するのに役立ちました。

最後に、さまざまなトピックの質問にラベルを付けて、質問のトピックを決定します。ほとんどのトピックモデリングアプリケーションは、長いテキストと短いトピックセットを扱いますが、この質問では短い質問テキストと 100 万を超える潜在的なトピックタグを使用するため、より困難な問題となります。

すべての質問理解モデルでは、誰が質問したか、どこで質問されたかなど、質問自体とその内容の特徴を使用します。

ユーザーの情報ニーズを満たすもう 1 つの方法は、ユーザーが探している質問の答えとなる既存の質問を検索できるようにすることです。私たちには 2 つの主要な検索システムがあります。Quora ホームページの上部にある全文検索を提供する検索バーである Ask Bar 検索と、「検索」をクリックしてアクセスできる非常に詳細な検索です。これらの検索システムは、検索速度、関連性、結果の幅と深さが異なるさまざまなランキングアルゴリズムを使用します。

2. 質問に対する回答を得る

質問理解システムの出力は、質問のライフサイクル、つまり専門家からの回答を得ることにおける重要な入力となります。この問題をより適切に解決するのに役立つ機械学習システムもここにあります。

質問と回答は、ユーザーが他のユーザーに特定の質問に対する回答を書くようリクエストを送信できる Quora の機能です。回答の要求を機械学習の問題として定式化します。したがって、このブログ記事では、システムの詳細、つまりリクエストの回答に適用される機械学習の問題に焦点を当てます。

A2A 以外では、私たちの主なアプローチは、Quora のホームページを通じて質問と専門家の回答をマッチングさせることです。私たちにとって、ソートの問題は非常に重要です。質問属性、ユーザー属性、生の特徴と派生した特徴をランキングモデルへの入力として考慮し、ローカルで関連性のあるパーソナライズされたフィードを生成します。以下は数日前に提供したスクリーンショットです。

3. コンテンツを読む

上記のように、回答を書くことができる質問だけでなく、読む価値のある回答も含まれています。回答のランキングも私たちにとって重要な問題です。質問のランキングと回答のランキングは、同様の基礎システムを使用しますが、両者の目標は異なるため、基礎モデルでは異なる機能セットを使用します。読む価値のある回答をランク付けするために機械学習を使用するもう 1 つの方法は、ユーザーに送信する電子メールダイジェストです。これらのランキング問題はすべて、複数のモデルとさまざまな機能を使用して最終的なランキングに到達する高度な ML システムによって処理されます。

ユーザーが興味深い質問を見つけたら、Quora で素晴らしい読書体験が得られるようにしたいと考えています。質問回答ランキングは、特定の質問に対する最も関連性の高い回答が最初にランク付けされることを保証する重要な ML アプリケーションです。回答のランキング付けに ML システムを使用する方法については、こちらで詳しく説明しています: Quora での回答のランキング付けのための機械学習手法。また、最も関連性の高い回答が上に確実に表示されるよう、回答に基づいてコメントを並べ替えます。これらのランキングシステムは、コメントの単純な承認または不承認だけでなく、ユーザーの特性、コメントコンテンツの質、アクティビティへの参加などに基づいて最終的なランキングが決定されます。

また、質問に対する回答を読んだ後も、質問に関連するコンテンツを見つけるための適切な方法があり、引き続き快適な読書体験が得られるようにしたいと考えています。機械学習を活用した製品機能の 1 つに、関連する質問があります。質問ページには関連する質問が表示されます。これにより、ユーザーは Quora の質問をより簡単に閲覧できるようになり、関連トピック (トピックページに表示される) や人気トピック (ホームページに表示される) など、Quora 内を移動しやすくなります。ホームページでは、ユーザーに関する理解に基づいてパーソナライズされたおすすめコンテンツである、ユーザーがフォローすべきトピックもいくつか表示しています。

上記の ML システムの非常に重要な要素はパーソナライゼーションです。パーソナライゼーションには、Quora の各ユーザーに適した製品とインフラストラクチャを作成することが含まれます。 ML システムをパーソナライズする上で重要な要素は、ユーザーを理解することです。ユーザー理解の一環として、ユーザーの好きなトピックや嫌いなトピック、さまざまな分野での専門知識、ソーシャルネットワークの属性など、ユーザーのさまざまな特性を観察して把握します。また、ユーザートピックの推奨、ユーザー間の推奨など、さまざまな「ユーザーエンティティ」推奨システムもあります。これらのパーソナライズされた推奨事項はすべて、「読書」アプリの重要な基盤を提供するだけでなく、質問と専門家の回答やその他のユースケースを一致させます。

4. コンテンツの質を高く維持する

Quora では、ユーザーエクスペリエンスの鍵の 1 つはコンテンツの品質です。私たちは、質問、回答、トピック、その他のコンテンツが高品質であり続けることを保証したいと考えています。これを実現するために、私たちはコンテンツの品質を維持するために懸命に取り組む機械学習システムを使用しています。以下は部分的な紹介です。

重複する質問の検出: 同じ内容の異なる質問を検出し、それらを 1 つの統一された質問にマージします。重複した質問の取得については詳細に説明し、重複した質問のデータセットを公開して、皆さんが参加できる Kaggle コンテストも開催しました。

不適切なコンテンツの検出: Quora には「親切に、敬意を持って」というポリシーがありますが、オンラインコミュニティでこのポリシーを維持するのは常に困難です。私たちは、機械学習とコメント投稿者を組み合わせて、不快または人を傷つけるコンテンツを識別し、ユーザーをより適切に保護し、Quora で素晴らしい体験が得られるようにしています。

スパム検出: スパム検出は、ほとんどの一般的なユーザー生成コンテンツアプリケーションにとって重要な問題であり、私たちもこの懸念を共有しています。さまざまな ML システムが連携して、スパムの内容とそれを投稿したユーザーを処理します。

品質を維持するための ML システムは他にもたくさんありますが、スペースの関係で、ここでは使用しません。

5. 広告の最適化

2016年からは商業的な取り組みも始めました。現在、表示される広告は、問題のページのコンテンツに関連しています。当社では機械学習を使用して広告の CTR を予測し、表示される広告がユーザーにとって関連性が高く、広告主にとって費用対効果の高いものとなるようにしています。機械学習の商用アプリケーションへの拡大はまだ始まったばかりですが、今後数か月から数年のうちに、この分野での ML システムの使用が増加するでしょう。

もちろん、他にも多くの機械学習システムがありますが、回答が長くなりすぎないようにするために、それらは使用しません。

モデルとライブラリ

私たちのチームは、この作業に最適なモデルとツールを使用しながら、それらのツール内で標準化と再利用を維持するように努めています。以下は、私たちが使用しているモデルの一部です (順不同)。

ロジスティック回帰

弾性ネットワーク

反復決定木

ランダムフォレスト

（ディープ）ニューラルネットワーク

ラムダマート

行列分解（SVD、BPR、加重ALSなど）

ベクトルモデルとその他のNLPテクニック

k平均法とその他のクラスタリング手法

等

また、Tensorflow、sklearn、xgboost、lightgboost、RankLib、nltk、QMF (Quora 独自の行列分解ライブラリ) など、作業を完了するための幅広いオープンソースライブラリと内部ライブラリもサポートしています。

MLプラットフォーム

2015 年以降のもう一つのエキサイティングな展開は、新しい ML プラットフォームチームの設立です。 ML プラットフォームチームの目標は、オフライン (モデルトレーニング) とオンライン (モデルサービング) の両方で、ML エンジニアが他の企業よりも簡単に機械学習を使用できるようにすることです。オンラインでは、ML プラットフォームは、ML エンジニアが、高い信頼性と可用性を備えた高性能で効率的なリアルタイムの機械学習システムを構築および展開するのに役立ちます。オフラインでは、ML プラットフォームチームは、ML エンジニアが高速かつ標準化された再利用可能な方法で特徴生成とモデルのトレーニングを行うためのデータパイプラインを構築できるようサポートします。

Quora には機械学習をサポートする専用のプラットフォームチームがあり、ML 開発のペースを加速するのに役立ちます。また、これにより、当社のシステムは毎日ますます大量のデータを処理できるようになります。 ML プラットフォームチームとその進化については、今後さらに詳しくお伝えする予定です。

<<: Google の社内機械学習プロジェクト「Project Ninja」の秘密を解明します。

>>: 初心者のための機械学習ガイド