最近、GPT-3などのTransformerベースのディープラーニングモデルが機械学習の分野で大きな注目を集めています。これらのモデルは意味的関係を理解するのに優れており、Microsoft の Bing 検索エンジンでのエクスペリエンスを大幅に向上させ、SuperGLUE 学術ベンチマークで人間のパフォーマンスを上回ります。ただし、これらのモデルでは、純粋なセマンティクスを超えて、クエリとドキュメント用語間のより微妙な関係を捉えられない可能性があります。 Microsoft の研究者は、Microsoft の顧客が大規模な AI を使用する際に検索の関連性を向上させるために Microsoft の製品版 Transformer モデルを改良した大規模なスパース モデル「Make Every feature Binary (MEB)」を提案しました。検索をより正確かつ動的にするために、MEB はビッグデータの力を最大限に活用し、入力機能空間に、検索クエリとドキュメント間の微妙な関係を反映する 2,000 億を超えるバイナリ機能を含めることができます。 検索を改善するために「各特徴を2値化する」方法を使用するのはなぜですか?MEB が Transformer ベースのディープラーニング モデルの検索関連性を向上できる重要な理由の 1 つは、個々の事実を特徴にマッピングできるため、MEB が個々の事実をより詳細に理解できることです。たとえば、多くのディープ ニューラル ネットワーク (DNN) 言語モデルは、文の空白を埋めるときに「(空白) は飛べる」のように過度に一般化してしまうことがあります。ほとんどの DNN トレーニング サンプルの結果は「鳥は飛べる」であるため、DNN 言語モデルは「鳥」という単語でギャップを埋める可能性があります。 MEB は、飛行能力を区別するなどの各事実を機能に割り当てることでこれを回避します。重みを割り当てることで、任意のエンティティを鳥に似たものにする各機能に対して実行できます。 MEB は、Transformer モデルと組み合わせて使用され、モデルを別の分類レベルに引き上げます。たとえば、モデルによって生成される結果は、「鳥は飛べる」ではなく、「ダチョウやペンギンなどを除いて、鳥は飛べる」となります。 規模が大きくなるにつれて、データをより効果的に活用する方法を改善するという要素もあります。 Bing 検索後の Web ページ結果のランク付けは、大量のユーザー データから学習することでメリットが得られる機械学習の問題です。ユーザーのクリック データを活用する従来の方法は、印象的なクエリ/ドキュメントのペアごとに手動で構築された数千の数値特徴を抽出し、勾配ブースティング決定木 (GBDT) モデルをトレーニングすることです。 ただし、機能表現とモデル容量が限られているため、SOTA GBDT トレーナー LightGBM でも、数億行のデータを処理しないと収束できません。さらに、これらの手作業で作成された数値機能は、本質的に非常に粗いものであることがよくあります。たとえば、クエリ内の特定の位置にある用語がドキュメント内で何回出現するかを取得できますが、この表現では特定の用語が何であるかに関する情報は失われます。さらに、このアプローチの機能は、検索クエリ内の単語の順序などを必ずしも正確に考慮するわけではありません。 膨大なデータの力を解き放ち、クエリとドキュメントの関係をより適切に反映する機能表現を可能にするために、MEB は 3 年間の Bing 検索から得られた 5,000 億を超えるクエリ/ドキュメント ペアに基づいてトレーニングされました。入力特徴空間には 2000 億を超えるバイナリ特徴があります。 FTRL を使用した最新バージョンは、90 億の特徴と 1,350 億を超えるパラメータを備えたスパース ニューラル ネットワーク モデルです。 MEBを使用すると隠れた関係を明らかにすることができるMEB は、すべての地域と言語で運用されている Bing 検索の 100% に使用されています。これは、Microsoft が提供する最大の汎用モデルであり、大量のデータから継続的に確実に学習しながら、これらのバイナリ特徴によって表される事実を記憶する優れた能力を備えています。 Microsoft の研究者は、実験を通じて、大量のデータをトレーニングできるのは大規模なスパース ニューラル ネットワークの独自の機能であることを発見しました。同じ Bing ログを LightGBM モデルに入力し、従来の数値機能 (BM25 などのクエリ ドキュメント マッチング機能など) を使用してトレーニングすると、1 か月のデータ後にモデルの品質が向上しなくなります。これは、大量のデータから利益を得るにはモデル容量が不十分であることを示唆しています。対照的に、MEB は 3 年間のデータでトレーニングされ、研究者らは、データが追加されても学習を継続できることを発見しました。これは、新しいデータの追加によってモデルの容量が増加する可能性があることを示唆しています。 Transformer ベースのディープラーニング モデルと比較して、MEB モデルは意味関係を超えて学習する能力も示しています。 MEB によって学習された主な特徴を調べたところ、研究者はクエリとドキュメント間の隠れた関係を学習できることを発見しました。 表 1: MEB モデル学習の例。 たとえば、MEB は、「Hotmail」が「Microsoft Outlook」と意味的には近くないにもかかわらず密接に関連していることを学習します。しかし、MEB はこれらの単語の間に微妙な関係を発見しました。Hotmail は、Microsoft が提供する無料の Web ベースの電子メール サービスであり、後に Microsoft Outlook に名前が変更されました。同様に、「Fox31」と「KDVR」の間にも強いつながりがあることが分かりました。KDVR は、コロラド州デンバーに拠点を置き、Fox31 ブランドで運営されているテレビ チャンネルのコール レターですが、この 2 つの単語の間には明らかな意味的なつながりはありません。 さらに興味深いことに、MEB は単語やフレーズ間の否定的な関係を識別し、ユーザーがクエリで表示されることを予期していないコンテンツを明らかにすることができます。たとえば、「野球」を検索しているユーザーは、どちらも人気のあるスポーツであるにもかかわらず、「ホッケー」について説明しているページをクリックすることは通常ありません。これらの否定的な関係を知ることで、無関係な検索結果を無視できるようになります。 MEB によって学習されたこれらの関係は、Transformer ベースの DNN モデルによって学習された関係と非常に補完的であり、検索の関連性とユーザー エクスペリエンスが大幅に向上します。 Microsoft は、本番環境の Transformer モデル上に MEB を導入し、次のような結果をもたらしました。
MEB が大規模なデータセットをトレーニングして機能を提供する方法モデル構造 下の図 1 に示すように、MEB モデルは、1 つのバイナリ フィーチャ入力層、1 つのフィーチャ埋め込み層、1 つのプーリング層、および 2 つの高密度層で構成されています。入力層には 49 の特徴グループから生成された 90 億の特徴が含まれており、各バイナリ特徴は 15 次元の埋め込みベクトルとしてエンコードされます。各グループの合計プーリングと連結の後、ベクトルは 2 つの密なレイヤーを通過し、クリック確率の推定値が生成されます。 図 1: MEB は、バイナリ特徴を受け入れる入力層、各バイナリ特徴を 15 次元ベクトルに変換する特徴埋め込み層、49 個の特徴グループのそれぞれに適用され、連結されて 735 次元ベクトルを生成する合計プーリング層、そしてクリック確率を生成するために 2 つの密な層を通過するスパース ニューラル ネットワーク モデルです。下の図 2 に示すように、上の図 1 に示されている機能は、サンプル クエリ「Microsoft Windows」とリンク https://www.microsoft.com/en-us/windows 内のドキュメントから生成されます。 トレーニングデータと特徴の二値化 MEB は、Bing の 3 年間の検索ログをトレーニング データとして使用します。この調査では、Bing の検索結果ごとにヒューリスティックなアプローチを使用して、ユーザーがクリックしたドキュメントに満足したかどうかを判断しました。研究者たちは「満足のいく」文書を肯定的なサンプルとして分類した。同じ検索結果内の他のドキュメントは、ネガティブ サンプルとしてラベル付けされます。クエリとドキュメントのペアごとに、クエリ テキスト、ドキュメント URL、タイトル、本文テキストからバイナリ機能が抽出されます。これらの特徴はスパース ニューラル ネットワーク モデルに入力され、モデル予測のクリック確率と実際のクリック ラベル間のクロス エントロピー損失を最小限に抑えます。 機能設計と大規模なトレーニングが MEB の成功の鍵となります。 MEB 機能は、クエリとドキュメント間の非常に具体的な用語レベルまたは N グラム レベル (N グラムは N 個の用語のシーケンス) の関係に基づいて定義されます。これは、クエリとドキュメント間の一致数のみを考慮に入れる従来の数値機能では捉えることができません。 この大規模なトレーニング プラットフォームのパワーを最大限に引き出すために、すべての機能は、手動で構築された数値機能と生のテキストから直接抽出された機能を一貫した方法で簡単にオーバーレイできるバイナリ機能として設計されています。これにより、MEB はパス上でエンドツーエンドの最適化を実行できるようになります。現在の生産モデルでは、次の 3 つの主なタイプの機能が使用されています。 クエリとドキュメントのNグラムペア特徴 N-gram ペア機能は、Bing 検索ログ内のクエリ ドメインとドキュメント ドメインの N-gram の組み合わせに基づいて生成されます。下の図 2 に示すように、クエリ テキストの N-gram は、ドキュメントの URL、タイトル、本文の N-gram と結合され、N-gram ペア機能を形成します。 N グラムが長いほど (N 値が大きいほど)、より豊かで微妙なニュアンスに富んだ概念を捉えることができます。ただし、N が増加すると、処理コストは指数関数的に増加します。この研究の生成モデルでは、N は 1 と 2 (それぞれユニグラムとバイグラム) に設定されています。 バケット化された数値特徴のワンホットエンコーディング 数値特徴は最初にバケット化され、次にワンホットエンコーディングを使用してバイナリ化されます。図 2 に示す例では、数値機能「QueryLength」は 1 から MaxQueryLength までの任意の整数値を取ることができます。この機能に対して MaxQueryLength バケットを定義し、クエリ「Microsoft Windows」のバイナリ機能 QueryLength_2 が 1 になるようにします。 カテゴリ特徴のワンホットエンコーディング カテゴリ特徴は、ワンホットエンコーディングを介して簡単にバイナリ特徴に変換できます。たとえば、UrlString はカテゴリ機能であり、一意の URL 文字列リテラルごとに異なるカテゴリになる場合があります。 図 2: MEB 特性の例。左側にはクエリとドキュメントのペアが表示され、クエリ テキスト、ドキュメント タイトル、URL、スニペットが特徴抽出の入力として使用されます。 MEB 製造のいくつかの典型的な特徴を右側に示します。 継続的なトレーニング(毎日更新)により、数兆のクエリ/ドキュメントのペアをサポート このような巨大な特徴空間でのトレーニングを可能にするために、この研究では、Microsoft Advertising チームによって構築された社内の大規模トレーニング プラットフォームである Woodblock を活用しました。これは、大規模なスパース モデルをトレーニングするための分散型の大規模で高性能なソリューションです。 TensorFlow 上に構築された Woodblock は、汎用ディープラーニング フレームワークと数十億のスパース機能に対する業界のニーズとの間のギャップを埋めます。 Woodblock は、I/O とデータ処理の徹底的な最適化により、CPU と GPU クラスターを使用して数時間で数千億の機能をトレーニングできます。 しかし、Woodblock パイプラインを使用しても、約 1 兆個のクエリ/ドキュメント ペアを含む 3 年間の Bing 検索ログを使用して MEB をトレーニングすることは、一度に完了するのは困難です。そのため、本研究では、既存のデータで以前にトレーニングされたモデルを毎月新しいデータで継続的にトレーニングする継続的なトレーニング方法を使用しました。 さらに重要なのは、Bing に実装した後も、図 3 に示すように、最新の毎日のクリック データを使用して継続的にトレーニングすることで、モデルが毎日更新されることです。古くなった署名による悪影響を回避するために、自動有効期限ポリシーは各署名のタイムスタンプをチェックし、過去 500 日間に表示されていない署名を削除します。継続的なトレーニングの後、更新されたモデルの毎日の展開は完全に自動化されます。 図 3: MEB の毎日の更新プロセス。実稼働 MEB モデルは、最新の 1 日分の Bing 検索ログ データを使用して毎日継続的にトレーニングされます。新しいモデルがデプロイされオンラインで提供される前に、過去 500 日間に表示されていない古い機能がモデルから削除されます。これにより、機能が最新の状態に保たれ、モデル容量が効率的に使用されるようになります。 コラボレーションアプリケーションBing ObjectStore プラットフォームを使用して非常に大規模なモデルを提供する MEB スパース ニューラル ネットワーク モデルのメモリ フットプリントは約 720 GB です。トラフィックのピーク時には、システムは 1 秒あたり 3,500 万回の特徴検索を維持する必要があり、単一のマシンで MEB を提供することは不可能でした。研究者は、MEB モデルをサポートするために Bing の ObjectStore サービスを使用しました。 ObjectStore は、データを保存し、計算を管理できるマルチテナント分散キー値ストレージ システムです。 MEB の特徴埋め込みレイヤーは ObjectStore のテーブル検索操作として実装され、各バイナリ特徴ハッシュはトレーニング中に生成された埋め込みを取得するためのキーとして使用されます。プーリングおよび高密度レイヤー部分は計算負荷が高く、ユーザー定義関数をホストする ObjectStore Coproc (ニアデータ計算ユニット) で実行されます。 MEB はコンピューティング サービスとデータ サービスを異なるシャードに分離します。各コンピューティング シャードは、ニューラル ネットワーク処理の運用トラフィックの一部を占め、各データ シャードはモデル データの一部をホストします (下の図 4 を参照)。 図 4: コンピューティング シャード内の ObjectStore Coproc はデータ シャードと対話して特徴埋め込みを取得し、ニューラル ネットワークを実行します。データ シャードは機能埋め込みテーブルを格納し、各 Coproc 呼び出しからのルックアップ要求をサポートします。 ObjectStore で実行されるワークロードのほとんどはストレージ検索専用であるため、MEB コンピューティング シャードとインメモリ データ シャードを同じ場所に配置すると、マルチテナント クラスター内の ObjectStore のコンピューティング リソースとメモリ リソースの使用率が最大化されます。シャードを複数のマシンに分散する設計により、各マシンの負荷を細かく制御できるため、MEB のサービス遅延を数ミリ秒以内に短縮できます。 より高速な検索とコンテンツの理解の向上が可能 研究者たちは、MEB のような非常に大規模なスパース ニューラル ネットワークが、Transformer ベースのニューラル ネットワークを補完する微妙な関係を学習できることを発見しました。検索言語の理解におけるこの改善は、検索エコシステム全体に大きなメリットをもたらします。
DNN をビジネスに活用したい場合、Microsoft の研究者は、これらのモデルを大規模なスパース ニューラル ネットワークで補完することを推奨しています。特に、ユーザーインタラクション履歴のストリームが大量にあり、単純なバイナリ機能を簡単に構築できる場合は、このアプローチを使用する必要があります。また、モデルが可能な限りリアルタイムに近い状態で更新されるようにすることをユーザーに推奨しています。 |
<<: 優れた機械学習論文を書くにはどうすればいいでしょうか?
>>: 初めて人間を超えた! 「絵を読んで意味を理解する」ことに関しては、AIは人間の目よりも優れている
ロボット工学は、ロボットの構想、設計、製造、操作を扱う工学の分野です。ロボット産業はここ数年で驚異的...
[[197951]]基本概念このセクションでは、勾配降下法をより一般化するために、機械学習アルゴリズ...
最近、トロント大学、MIT、Waabi AIの研究者らがCVPR 2023の論文で新しい自動運転シミ...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
TensorFlow 2.4 が利用可能になりました!このリリースには、新しい機能、パフォーマンス...
最近、OpenAI の主任科学者 Ilya Sutskever 氏が、計算理論の研究に重点を置く S...
人工知能とニューラルネットワークの機能はどちらもイベント処理です。たとえば、人工知能は自動文書処理を...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
事情に詳しい関係者によると、10月28日、Googleはこれまでの投資に加え、OpenAIの競合企業...
休暇で旅行するときは、写真を撮ることが必須です。しかし、景勝地で撮影した写真の多くは、背景に何かが写...
生成型人工知能 (GenAI) は技術革新の最前線にあり、さまざまな業界の変革と発展に新たな可能性を...
国立防衛技術大学、クレムソン大学、Seebit Robotics の研究者らが協力し、深層強化学習を...
中国の研究チームは、女性の外見だけに基づいてその性格特性を予測できる人工知能プログラムを立ち上げたと...