シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユーザーが必要とする情報をどのように見つけるかは、現在の研究のホットなトピックです。現在、より普及している IR 方法は、取得してからランク付けする戦略です。検索アルゴリズムでは、逆インデックスまたは最近傍検索に基づくものが最も一般的に使用されていますが、その中でも対照学習に基づくデュアルエンコーダー (DE) が現在最高のパフォーマンスを発揮するモデルです。

最近、Google Research は論文「微分可能な検索インデックスとしてのトランスフォーマーメモリ」で代替アーキテクチャを提案しました。研究者は、シーケンスツーシーケンス (seq2seq) 学習システムを使用しました。この研究では、コーパスに関するすべての情報がモデルのパラメータにエンコードされている単一の Transformer を使用して情報検索を実行できることを実証しています。

この研究では、テキスト間の学習のための新しいパラダイムである Differentiable Search Index (DSI) を紹介します。 DSI モデルは、文字列クエリを関連するドキュメントに直接マッピングします。つまり、DSI モデルは独自のパラメータのみを使用してクエリに直接応答し、検索プロセス全体を大幅に簡素化します。

さらに、ドキュメントとその識別子の表現方法の変更、トレーニング手順の変更、モデルとコーパスのサイズの相互作用についても調査します。実験では、適切な設計選択を行うことで、DSI はデュアルエンコーダーモデルなどの強力なベースラインを大幅に上回り、また、DSI は強力な一般化機能も備えており、ゼロショット設定で BM25 ベースラインを上回ることが示されています。

論文リンク: https://arxiv.org/pdf/2202.06991.pdf

DSI アーキテクチャと DE の比較:

Google の上級研究員であり、この論文の第一著者である Yi Tay 氏は、次のように述べています。「この新しいパラダイムでは、取得されたすべてのコンテンツが、理解しやすい ML タスクにマッピングされます。」インデックス作成はモデルトレーニングの特殊なケースであり、検索のために外部の微分不可能な MIPS 操作に依存しなくなります。これにより、モデルの統一が容易になります。

差別化可能な検索インデックス

DSI の背後にある中心的な考え方は、従来の多段階の検索とランク付けのパイプラインを単一のニューラルモデルで完全にパラメーター化することです。これを実現するには、DSI モデルは次の 2 つの基本的な動作モードをサポートする必要があります。

インデックス作成: DSI モデルは、各ドキュメントコンテンツ d_j を対応する docid j (ドキュメント識別子、docid) に関連付けることを学習する必要があります。この論文では、ドキュメントトークンを入力として受け取り、識別子を出力として生成する単純なシーケンスツーシーケンスアプローチを採用しています。
検索: 入力クエリが与えられると、DSI モデルは候補の docid のランク付けされたリストを返す必要があります。この論文では、自己回帰生成を通じてこれを実現します。

これら 2 つの操作の後、DSI モデルを使用してドキュメントのコーパスをインデックス化し、利用可能なラベル付きデータセット (クエリとラベル付きドキュメント) を微調整し、関連するドキュメントを取得するために使用できます。これらはすべて、単一の統合モデルで実行できます。取得してからランク付けするアプローチとは対照的に、 DSI モデルではシンプルなエンドツーエンドのトレーニングが可能で、より大規模で複雑なニューラルモデルの微分化可能なコンポーネントとして簡単に使用できます。

エンコードと取得という 2 つの別々のステップを持つデュアルエンコーダー (DE) の概要。

インデックス戦略

Inputs2Target : 研究者らはこれを doc_tokens → docid の seq2seq タスクとして構築しました。これにより、docid をターゲットに直接入力することで、ドキュメントトークンにバインドできます。

Targets2Inputs : 識別子からドキュメントトークンを生成します (例: docid → doc token)。直感的には、これは docid に条件付けられた自己回帰言語モデルをトレーニングすることと同じです。

双方向: Inputs2Targets と target2input を同じジョイントトレーニング設定でトレーニングします。プレフィックストークンが追加され、モデルはタスクがどの方向で実行されているかを認識できるようになります。

検索に使用された Docid を示します

seq2seq ベースの DSI モデルでの検索は、指定された入力クエリ docid をデコードすることによって行われます。効率的にデコードする方法は、モデル内でドキュメント ID がどのように表現されるかに大きく依存します。このセクションでは、docid を表現するさまざまな方法と、デコードを処理する方法について説明します。

非構造化アトミック識別子: ドキュメントを表現する最も簡単な方法は、各ドキュメントに任意の (潜在的にランダムな) 一意の整数識別子を割り当てることです。この研究では、これらの識別子を非構造化アトミック識別子と呼びます。研究者がこれらの識別子を使用したい場合、明らかなデコード方法は、識別子の確率分布を学習することです。この場合、モデルは一意のドキュメント ID (|Ndocuments|) ごとに 1 つのロジットを出力するようにトレーニングされます。これに対応するために、この研究では標準言語モデルの出力語彙を次のように拡張します。

単純な構造化文字列識別子: この研究では、非構造化識別子 (つまり、任意の一意の整数) をトークン化可能な文字列として扱う別のアプローチも検討しました。これを単純な構造化識別子と呼びます。この識別子では、docid 文字列を 1 つずつデコードすることによって検索が行われます。デコード時には、ビーム検索を使用して最適なドキュメント ID を取得します。しかし、この戦略を使用してトップ k ランキングを取得するのは簡単ではありません。ただし、研究者は、docid 空間全体を徹底的に調べて、特定のクエリに対する各 docid の可能性を取得することができます。

意味的に構造化された識別子: 目標は、次の特性を満たす識別子を自動的に作成することです: (1) docid は何らかの意味情報をキャプチャする必要があり、(2) docid の構造は、各デコード手順後の検索空間を効果的に削減する必要があります。インデックス付けするコーパスが与えられると、すべてのドキュメントは 10 個のクラスターにクラスター化されます。各ドキュメントには、クラスターに 0 から 9 までの番号が付けられた識別子が割り当てられます。次の表はこのプロセスの疑似コードです。

実験結果

すべての DSI モデルは、標準の事前トレーニング済み T5 モデル構成を使用して初期化されます。構成名と対応するモデルパラメータの数は、Base (0.2B)、Large (0.8B)、XL (3B)、XXL (11B) です。この研究では、上記の戦略の有効性を実験的に検証しました。

以下の表 3 は、微調整された NQ10K、NQ100K、および NQ320K の検索結果を示し、表 4 はゼロショットの検索結果を示します。ゼロショット検索の場合、モデルはインデックス作成タスクでのみトレーニングされ、検索タスクではトレーニングされないため、モデルはラベル付けされたクエリ → docid データポイントを認識しません。

下の図4はNQ320Kの結果を示しています。一般的に、研究者たちは、直接インデックス方式が最も効果的であり、ドキュメント ID が異なるトークンに繰り返しさらされるため、転置インデックス方式のトレーニングは困難であることを発見しました。また、64 トークンを超えるとパフォーマンスが大幅に低下する前は、ドキュメントの長さが短い方がうまく機能しているように見えることもわかりました。これは、ドキュメントトークンの数が多いと、最適化や効率的な記憶が難しくなる可能性があることを示唆しています。最後に、ドキュメントトークンにコレクション処理またはストップワード前処理を適用しても、追加の利点はないこともわかりました。

下の図 3 は、DE、ナイーブ ID を使用した DSI、セマンティック ID を使用した DSI という 3 つの方法のスケールされたパフォーマンス (対数スケール) をプロットしたものです。このうち、DSI（ナイーブ）はベースからXXLへのスケール変更の恩恵を受けることができ、改善の余地があるようです。一方、DSI (セマンティック) は、最初は DE ベースと競合しますが、規模が大きくなるにつれてパフォーマンスが向上します。 DE モデルは、基本的に、より小さなパラメータ化では安定します。

下の図 5 は、インデックス比率を変更した場合に取得されたサンプルに与える影響を示しています。研究者たちは、インデックス作成タスクと検索タスク間の相互作用が最適化プロセスに大きな影響を与えることを発見しました。 r の設定が高すぎたり低すぎたりすると、通常はパフォーマンスが低下します。彼らの調査によると、指数比率が 32 の場合、一般的にパフォーマンスが良好であることがわかりました。

<<: CMU、NUS、Fudanが共同でDataLabを立ち上げ：テキストフィールドでのデータ分析と処理のためのMatlabを作成

>>: ザッカーバーグは涙ながらに300人のチームを解散させた！ Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?