マイクロソフトは1350億のパラメータを持つスパースニューラルネットワークを使用して、各特徴を2値化することで検索結果を改善している。

最近、GPT-3などのTransformerベースのディープラーニングモデルが機械学習の分野で大きな注目を集めています。これらのモデルは意味的関係を理解するのに優れており、Microsoft の Bing 検索エンジンでのエクスペリエンスを大幅に向上させ、SuperGLUE 学術ベンチマークで人間のパフォーマンスを上回ります。ただし、これらのモデルでは、純粋なセマンティクスを超えて、クエリとドキュメント用語間のより微妙な関係を捉えられない可能性があります。

Microsoft の研究者は、Microsoft の顧客が大規模な AI を使用する際に検索の関連性を向上させるために Microsoft の製品版 Transformer モデルを改良した大規模なスパースモデル「Make Every feature Binary (MEB)」を提案しました。検索をより正確かつ動的にするために、MEB はビッグデータの力を最大限に活用し、入力機能空間に、検索クエリとドキュメント間の微妙な関係を反映する 2,000 億を超えるバイナリ機能を含めることができます。

検索を改善するために「各特徴を2値化する」方法を使用するのはなぜですか?

MEB が Transformer ベースのディープラーニングモデルの検索関連性を向上できる重要な理由の 1 つは、個々の事実を特徴にマッピングできるため、MEB が個々の事実をより詳細に理解できることです。たとえば、多くのディープニューラルネットワーク (DNN) 言語モデルは、文の空白を埋めるときに「(空白) は飛べる」のように過度に一般化してしまうことがあります。ほとんどの DNN トレーニングサンプルの結果は「鳥は飛べる」であるため、DNN 言語モデルは「鳥」という単語でギャップを埋める可能性があります。

MEB は、飛行能力を区別するなどの各事実を機能に割り当てることでこれを回避します。重みを割り当てることで、任意のエンティティを鳥に似たものにする各機能に対して実行できます。 MEB は、Transformer モデルと組み合わせて使用され、モデルを別の分類レベルに引き上げます。たとえば、モデルによって生成される結果は、「鳥は飛べる」ではなく、「ダチョウやペンギンなどを除いて、鳥は飛べる」となります。

規模が大きくなるにつれて、データをより効果的に活用する方法を改善するという要素もあります。 Bing 検索後の Web ページ結果のランク付けは、大量のユーザーデータから学習することでメリットが得られる機械学習の問題です。ユーザーのクリックデータを活用する従来の方法は、印象的なクエリ/ドキュメントのペアごとに手動で構築された数千の数値特徴を抽出し、勾配ブースティング決定木 (GBDT) モデルをトレーニングすることです。

ただし、機能表現とモデル容量が限られているため、SOTA GBDT トレーナー LightGBM でも、数億行のデータを処理しないと収束できません。さらに、これらの手作業で作成された数値機能は、本質的に非常に粗いものであることがよくあります。たとえば、クエリ内の特定の位置にある用語がドキュメント内で何回出現するかを取得できますが、この表現では特定の用語が何であるかに関する情報は失われます。さらに、このアプローチの機能は、検索クエリ内の単語の順序などを必ずしも正確に考慮するわけではありません。

膨大なデータの力を解き放ち、クエリとドキュメントの関係をより適切に反映する機能表現を可能にするために、MEB は 3 年間の Bing 検索から得られた 5,000 億を超えるクエリ/ドキュメントペアに基づいてトレーニングされました。入力特徴空間には 2000 億を超えるバイナリ特徴があります。 FTRL を使用した最新バージョンは、90 億の特徴と 1,350 億を超えるパラメータを備えたスパースニューラルネットワークモデルです。

MEBを使用すると隠れた関係を明らかにすることができる

MEB は、すべての地域と言語で運用されている Bing 検索の 100% に使用されています。これは、Microsoft が提供する最大の汎用モデルであり、大量のデータから継続的に確実に学習しながら、これらのバイナリ特徴によって表される事実を記憶する優れた能力を備えています。

Microsoft の研究者は、実験を通じて、大量のデータをトレーニングできるのは大規模なスパースニューラルネットワークの独自の機能であることを発見しました。同じ Bing ログを LightGBM モデルに入力し、従来の数値機能 (BM25 などのクエリドキュメントマッチング機能など) を使用してトレーニングすると、1 か月のデータ後にモデルの品質が向上しなくなります。これは、大量のデータから利益を得るにはモデル容量が不十分であることを示唆しています。対照的に、MEB は 3 年間のデータでトレーニングされ、研究者らは、データが追加されても学習を継続できることを発見しました。これは、新しいデータの追加によってモデルの容量が増加する可能性があることを示唆しています。

Transformer ベースのディープラーニングモデルと比較して、MEB モデルは意味関係を超えて学習する能力も示しています。 MEB によって学習された主な特徴を調べたところ、研究者はクエリとドキュメント間の隠れた関係を学習できることを発見しました。

表 1: MEB モデル学習の例。

たとえば、MEB は、「Hotmail」が「Microsoft Outlook」と意味的には近くないにもかかわらず密接に関連していることを学習します。しかし、MEB はこれらの単語の間に微妙な関係を発見しました。Hotmail は、Microsoft が提供する無料の Web ベースの電子メールサービスであり、後に Microsoft Outlook に名前が変更されました。同様に、「Fox31」と「KDVR」の間にも強いつながりがあることが分かりました。KDVR は、コロラド州デンバーに拠点を置き、Fox31 ブランドで運営されているテレビチャンネルのコールレターですが、この 2 つの単語の間には明らかな意味的なつながりはありません。

さらに興味深いことに、MEB は単語やフレーズ間の否定的な関係を識別し、ユーザーがクエリで表示されることを予期していないコンテンツを明らかにすることができます。たとえば、「野球」を検索しているユーザーは、どちらも人気のあるスポーツであるにもかかわらず、「ホッケー」について説明しているページをクリックすることは通常ありません。これらの否定的な関係を知ることで、無関係な検索結果を無視できるようになります。

MEB によって学習されたこれらの関係は、Transformer ベースの DNN モデルによって学習された関係と非常に補完的であり、検索の関連性とユーザーエクスペリエンスが大幅に向上します。 Microsoft は、本番環境の Transformer モデル上に MEB を導入し、次のような結果をもたらしました。

ページ上の上位検索結果のクリック率 (CTR) が約 2% 増加しました。これらの結果はページの一番上に表示されるため、必要な結果を見つけるために下にスクロールする必要はありません。
手動クエリのリファクタリングが 1% 以上削減されました。ユーザーがクエリを手動で再作成する必要があるということは、元のクエリで検索した結果が気に入らないことを意味します。そのため、この重みが減ると、モデルのパフォーマンスが向上します。
「次のページ」などのページのクリック数が1.5%以上減少しました。ユーザーが「次のページ」ボタンをクリックする必要があるということは、最初のページで探していたものが見つからなかったことを意味します。

MEB が大規模なデータセットをトレーニングして機能を提供する方法

モデル構造

下の図 1 に示すように、MEB モデルは、1 つのバイナリフィーチャ入力層、1 つのフィーチャ埋め込み層、1 つのプーリング層、および 2 つの高密度層で構成されています。入力層には 49 の特徴グループから生成された 90 億の特徴が含まれており、各バイナリ特徴は 15 次元の埋め込みベクトルとしてエンコードされます。各グループの合計プーリングと連結の後、ベクトルは 2 つの密なレイヤーを通過し、クリック確率の推定値が生成されます。

図 1: MEB は、バイナリ特徴を受け入れる入力層、各バイナリ特徴を 15 次元ベクトルに変換する特徴埋め込み層、49 個の特徴グループのそれぞれに適用され、連結されて 735 次元ベクトルを生成する合計プーリング層、そしてクリック確率を生成するために 2 つの密な層を通過するスパースニューラルネットワークモデルです。下の図 2 に示すように、上の図 1 に示されている機能は、サンプルクエリ「Microsoft Windows」とリンク https://www.microsoft.com/en-us/windows 内のドキュメントから生成されます。

トレーニングデータと特徴の二値化

MEB は、Bing の 3 年間の検索ログをトレーニングデータとして使用します。この調査では、Bing の検索結果ごとにヒューリスティックなアプローチを使用して、ユーザーがクリックしたドキュメントに満足したかどうかを判断しました。研究者たちは「満足のいく」文書を肯定的なサンプルとして分類した。同じ検索結果内の他のドキュメントは、ネガティブサンプルとしてラベル付けされます。クエリとドキュメントのペアごとに、クエリテキスト、ドキュメント URL、タイトル、本文テキストからバイナリ機能が抽出されます。これらの特徴はスパースニューラルネットワークモデルに入力され、モデル予測のクリック確率と実際のクリックラベル間のクロスエントロピー損失を最小限に抑えます。

機能設計と大規模なトレーニングが MEB の成功の鍵となります。 MEB 機能は、クエリとドキュメント間の非常に具体的な用語レベルまたは N グラムレベル (N グラムは N 個の用語のシーケンス) の関係に基づいて定義されます。これは、クエリとドキュメント間の一致数のみを考慮に入れる従来の数値機能では捉えることができません。

この大規模なトレーニングプラットフォームのパワーを最大限に引き出すために、すべての機能は、手動で構築された数値機能と生のテキストから直接抽出された機能を一貫した方法で簡単にオーバーレイできるバイナリ機能として設計されています。これにより、MEB はパス上でエンドツーエンドの最適化を実行できるようになります。現在の生産モデルでは、次の 3 つの主なタイプの機能が使用されています。

クエリとドキュメントのNグラムペア特徴

N-gram ペア機能は、Bing 検索ログ内のクエリドメインとドキュメントドメインの N-gram の組み合わせに基づいて生成されます。下の図 2 に示すように、クエリテキストの N-gram は、ドキュメントの URL、タイトル、本文の N-gram と結合され、N-gram ペア機能を形成します。 N グラムが長いほど (N 値が大きいほど)、より豊かで微妙なニュアンスに富んだ概念を捉えることができます。ただし、N が増加すると、処理コストは指数関数的に増加します。この研究の生成モデルでは、N は 1 と 2 (それぞれユニグラムとバイグラム) に設定されています。

バケット化された数値特徴のワンホットエンコーディング

数値特徴は最初にバケット化され、次にワンホットエンコーディングを使用してバイナリ化されます。図 2 に示す例では、数値機能「QueryLength」は 1 から MaxQueryLength までの任意の整数値を取ることができます。この機能に対して MaxQueryLength バケットを定義し、クエリ「Microsoft Windows」のバイナリ機能 QueryLength_2 が 1 になるようにします。

カテゴリ特徴のワンホットエンコーディング

カテゴリ特徴は、ワンホットエンコーディングを介して簡単にバイナリ特徴に変換できます。たとえば、UrlString はカテゴリ機能であり、一意の URL 文字列リテラルごとに異なるカテゴリになる場合があります。

図 2: MEB 特性の例。左側にはクエリとドキュメントのペアが表示され、クエリテキスト、ドキュメントタイトル、URL、スニペットが特徴抽出の入力として使用されます。 MEB 製造のいくつかの典型的な特徴を右側に示します。

継続的なトレーニング（毎日更新）により、数兆のクエリ/ドキュメントのペアをサポート

このような巨大な特徴空間でのトレーニングを可能にするために、この研究では、Microsoft Advertising チームによって構築された社内の大規模トレーニングプラットフォームである Woodblock を活用しました。これは、大規模なスパースモデルをトレーニングするための分散型の大規模で高性能なソリューションです。 TensorFlow 上に構築された Woodblock は、汎用ディープラーニングフレームワークと数十億のスパース機能に対する業界のニーズとの間のギャップを埋めます。 Woodblock は、I/O とデータ処理の徹底的な最適化により、CPU と GPU クラスターを使用して数時間で数千億の機能をトレーニングできます。

しかし、Woodblock パイプラインを使用しても、約 1 兆個のクエリ/ドキュメントペアを含む 3 年間の Bing 検索ログを使用して MEB をトレーニングすることは、一度に完了するのは困難です。そのため、本研究では、既存のデータで以前にトレーニングされたモデルを毎月新しいデータで継続的にトレーニングする継続的なトレーニング方法を使用しました。

さらに重要なのは、Bing に実装した後も、図 3 に示すように、最新の毎日のクリックデータを使用して継続的にトレーニングすることで、モデルが毎日更新されることです。古くなった署名による悪影響を回避するために、自動有効期限ポリシーは各署名のタイムスタンプをチェックし、過去 500 日間に表示されていない署名を削除します。継続的なトレーニングの後、更新されたモデルの毎日の展開は完全に自動化されます。

図 3: MEB の毎日の更新プロセス。実稼働 MEB モデルは、最新の 1 日分の Bing 検索ログデータを使用して毎日継続的にトレーニングされます。新しいモデルがデプロイされオンラインで提供される前に、過去 500 日間に表示されていない古い機能がモデルから削除されます。これにより、機能が最新の状態に保たれ、モデル容量が効率的に使用されるようになります。

コラボレーションアプリケーション

Bing ObjectStore プラットフォームを使用して非常に大規模なモデルを提供する

MEB スパースニューラルネットワークモデルのメモリフットプリントは約 720 GB です。トラフィックのピーク時には、システムは 1 秒あたり 3,500 万回の特徴検索を維持する必要があり、単一のマシンで MEB を提供することは不可能でした。研究者は、MEB モデルをサポートするために Bing の ObjectStore サービスを使用しました。

ObjectStore は、データを保存し、計算を管理できるマルチテナント分散キー値ストレージシステムです。 MEB の特徴埋め込みレイヤーは ObjectStore のテーブル検索操作として実装され、各バイナリ特徴ハッシュはトレーニング中に生成された埋め込みを取得するためのキーとして使用されます。プーリングおよび高密度レイヤー部分は計算負荷が高く、ユーザー定義関数をホストする ObjectStore Coproc (ニアデータ計算ユニット) で実行されます。 MEB はコンピューティングサービスとデータサービスを異なるシャードに分離します。各コンピューティングシャードは、ニューラルネットワーク処理の運用トラフィックの一部を占め、各データシャードはモデルデータの一部をホストします (下の図 4 を参照)。

図 4: コンピューティングシャード内の ObjectStore Coproc はデータシャードと対話して特徴埋め込みを取得し、ニューラルネットワークを実行します。データシャードは機能埋め込みテーブルを格納し、各 Coproc 呼び出しからのルックアップ要求をサポートします。

ObjectStore で実行されるワークロードのほとんどはストレージ検索専用であるため、MEB コンピューティングシャードとインメモリデータシャードを同じ場所に配置すると、マルチテナントクラスター内の ObjectStore のコンピューティングリソースとメモリリソースの使用率が最大化されます。シャードを複数のマシンに分散する設計により、各マシンの負荷を細かく制御できるため、MEB のサービス遅延を数ミリ秒以内に短縮できます。

より高速な検索とコンテンツの理解の向上が可能

研究者たちは、MEB のような非常に大規模なスパースニューラルネットワークが、Transformer ベースのニューラルネットワークを補完する微妙な関係を学習できることを発見しました。検索言語の理解におけるこの改善は、検索エコシステム全体に大きなメリットをもたらします。

検索関連性の向上により、Bing ユーザーは手動でクエリを再作成したり、次のページをクリックしたりする必要が減り、コンテンツを見つけて検索タスクをより速く完了できるようになります。
MEB はコンテンツをより深く理解できるため、パブリッシャーやウェブマスターはリソースへのトラフィックを増やすことができ、ランキングを上げるのに役立つキーワードを探すのに時間を費やす代わりに、顧客を満足させることに集中できます。具体的な例としては、製品のブランド変更が挙げられます。MEB モデルは、「Hotmail」と「Microsoft Outlook」の場合のように、古い名前と新しい名前の関係を自動的に学習できる可能性があります。

DNN をビジネスに活用したい場合、Microsoft の研究者は、これらのモデルを大規模なスパースニューラルネットワークで補完することを推奨しています。特に、ユーザーインタラクション履歴のストリームが大量にあり、単純なバイナリ機能を簡単に構築できる場合は、このアプローチを使用する必要があります。また、モデルが可能な限りリアルタイムに近い状態で更新されるようにすることをユーザーに推奨しています。

<<: 優れた機械学習論文を書くにはどうすればいいでしょうか?

>>: 初めて人間を超えた！「絵を読んで意味を理解する」ことに関しては、AIは人間の目よりも優れている