シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユーザーが必要とする情報をどのように見つけるかは、現在の研究のホットなトピックです。現在、より普及している IR 方法は、取得してからランク付けする戦略です。検索アルゴリズムでは、逆インデックスまたは最近傍検索に基づくものが最も一般的に使用されていますが、その中でも対照学習に基づくデュアル エンコーダー (DE) が現在最高のパフォーマンスを発揮するモデルです。

最近、Google Research は論文「微分可能な検索インデックスとしてのトランスフォーマー メモリ」で代替アーキテクチャを提案しました。研究者は、シーケンス ツー シーケンス (seq2seq) 学習システムを使用しました。この研究では、コーパスに関するすべての情報がモデルのパラメータにエンコードされている単一の Transformer を使用して情報検索を実行できることを実証しています

この研究では、テキスト間の学習のための新しいパラダイムである Differentiable Search Index (DSI) を紹介します。 DSI モデルは、文字列クエリを関連するドキュメントに直接マッピングします。つまり、DSI モデルは独自のパラメータのみを使用してクエリに直接応答し、検索プロセス全体を大幅に簡素化します。

さらに、ドキュメントとその識別子の表現方法の変更、トレーニング手順の変更、モデルとコーパスのサイズの相互作用についても調査します。実験では、適切な設計選択を行うことで、DSI はデュアル エンコーダー モデルなどの強力なベースラインを大幅に上回り、また、DSI は強力な一般化機能も備えており、ゼロ ショット設定で BM25 ベースラインを上回ることが示されています

論文リンク: https://arxiv.org/pdf/2202.06991.pdf

DSI アーキテクチャと DE の比較:

Google の上級研究員であり、この論文の第一著者である Yi Tay 氏は、次のように述べています。「この新しいパラダイムでは、取得されたすべてのコンテンツが、理解しやすい ML タスクにマッピングされます。」インデックス作成はモデル トレーニングの特殊なケースであり、検索のために外部の微分不可能な MIPS 操作に依存しなくなります。これにより、モデルの統一が容易になります。

差別化可能な検索インデックス

DSI の背後にある中心的な考え方は、従来の多段階の検索とランク付けのパイプラインを単一のニューラル モデルで完全にパラメーター化することです。これを実現するには、DSI モデルは次の 2 つの基本的な動作モードをサポートする必要があります。

  • インデックス作成: DSI モデルは、各ドキュメント コンテンツ d_j を対応する docid j (ドキュメント識別子、docid) に関連付けることを学習する必要があります。この論文では、ドキュメント トークンを入力として受け取り、識別子を出力として生成する単純なシーケンス ツー シーケンス アプローチを採用しています。
  • 検索: 入力クエリが与えられると、DSI モデルは候補の docid のランク付けされたリストを返す必要があります。この論文では、自己回帰生成を通じてこれを実現します。

これら 2 つの操作の後、DSI モデルを使用してドキュメントのコーパスをインデックス化し、利用可能なラベル付きデータセット (クエリとラベル付きドキュメント) を微調整し、関連するドキュメントを取得するために使用できます。これらはすべて、単一の統合モデルで実行できます。取得してからランク付けするアプローチとは対照的に、 DSI モデルではシンプルなエンドツーエンドのトレーニングが可能で、より大規模で複雑なニューラル モデルの微分化可能なコンポーネントとして簡単に使用できます

エンコードと取得という 2 つの別々のステップを持つデュアル エンコーダー (DE) の概要。

インデックス戦略

Inputs2Target : 研究者らはこれを doc_tokens → docid の seq2seq タスクとして構築しました。これにより、docid をターゲットに直接入力することで、ドキュメント トークンにバインドできます。

Targets2Inputs : 識別子からドキュメント トークンを生成します (例: docid → doc token)。直感的には、これは docid に条件付けられた自己回帰言語モデルをトレーニングすることと同じです。

双方向: Inputs2Targets と target2input を同じジョイントトレーニング設定でトレーニングします。プレフィックス トークンが追加され、モデルはタスクがどの方向で実行されているかを認識できるようになります。

検索に使用された Docid を示します

seq2seq ベースの DSI モデルでの検索は、指定された入力クエリ docid をデコードすることによって行われます。効率的にデコードする方法は、モデル内でドキュメント ID がどのように表現されるかに大きく依存します。このセクションでは、docid を表現するさまざまな方法と、デコードを処理する方法について説明します。

非構造化アトミック識別子: ドキュメントを表現する最も簡単な方法は、各ドキュメントに任意の (潜在的にランダムな) 一意の整数識別子を割り当てることです。この研究では、これらの識別子を非構造化アトミック識別子と呼びます。研究者がこれらの識別子を使用したい場合、明らかなデコード方法は、識別子の確率分布を学習することです。この場合、モデルは一意のドキュメント ID (|Ndocuments|) ごとに 1 つのロジットを出力するようにトレーニングされます。これに対応するために、この研究では標準言語モデルの出力語彙を次のように拡張します。

単純な構造化文字列識別子: この研究では、非構造化識別子 (つまり、任意の一意の整数) をトークン化可能な文字列として扱う別のアプローチも検討しました。これを単純な構造化識別子と呼びます。この識別子では、docid 文字列を 1 つずつデコードすることによって検索が行われます。デコード時には、ビーム検索を使用して最適なドキュメント ID を取得します。しかし、この戦略を使用してトップ k ランキングを取得するのは簡単ではありません。ただし、研究者は、docid 空間全体を徹底的に調べて、特定のクエリに対する各 docid の可能性を取得することができます。

意味的に構造化された識別子: 目標は、次の特性を満たす識別子を自動的に作成することです: (1) docid は何らかの意味情報をキャプチャする必要があり、(2) docid の構造は、各デコード手順後の検索空間を効果的に削減する必要があります。インデックス付けするコーパスが与えられると、すべてのドキュメントは 10 個のクラスターにクラスター化されます。各ドキュメントには、クラスターに 0 から 9 までの番号が付けられた識別子が割り当てられます。次の表はこのプロセスの疑似コードです。

実験結果

すべての DSI モデルは、標準の事前トレーニング済み T5 モデル構成を使用して初期化されます。構成名と対応するモデル パラメータの数は、Base (0.2B)、Large (0.8B)、XL (3B)、XXL (11B) です。この研究では、上記の戦略の有効性を実験的に検証しました。

以下の表 3 は、微調整された NQ10K、NQ100K、および NQ320K の検索結果を示し、表 4 はゼロショットの検索結果を示します。ゼロショット検索の場合、モデルはインデックス作成タスクでのみトレーニングされ、検索タスクではトレーニングされないため、モデルはラベル付けされたクエリ → docid データ ポイントを認識しません。

下の図4はNQ320Kの結果を示しています。一般的に、研究者たちは、直接インデックス方式が最も効果的であり、ドキュメント ID が異なるトークンに繰り返しさらされるため、転置インデックス方式のトレーニングは困難であることを発見しました。また、64 トークンを超えるとパフォーマンスが大幅に低下する前は、ドキュメントの長さが短い方がうまく機能しているように見えることもわかりました。これは、ドキュメント トークンの数が多いと、最適化や効率的な記憶が難しくなる可能性があることを示唆しています。最後に、ドキュメント トークンにコレクション処理またはストップワード前処理を適用しても、追加の利点はないこともわかりました。

下の図 3 は、DE、ナイーブ ID を使用した DSI、セマンティック ID を使用した DSI という 3 つの方法のスケールされたパフォーマンス (対数スケール) をプロットしたものです。このうち、DSI(ナイーブ)はベースからXXLへのスケール変更の恩恵を受けることができ、改善の余地があるようです。一方、DSI (セマンティック) は、最初は DE ベースと競合しますが、規模が大きくなるにつれてパフォーマンスが向上します。 DE モデルは、基本的に、より小さなパラメータ化では安定します。

下の図 5 は、インデックス比率を変更した場合に取得されたサンプルに与える影響を示しています。研究者たちは、インデックス作成タスクと検索タスク間の相互作用が最適化プロセスに大きな影響を与えることを発見しました。 r の設定が高すぎたり低すぎたりすると、通常はパフォーマンスが低下します。彼らの調査によると、指数比率が 32 の場合、一般的にパフォーマンスが良好であることがわかりました。

<<:  CMU、NUS、Fudanが共同でDataLabを立ち上げ:テキストフィールドでのデータ分析と処理のためのMatlabを作成

>>:  ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

ブログ    
ブログ    

推薦する

携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

適切なバランスを見つける: 人間と機械の知能を統合する

今日の急速に変化するデジタル環境において、顧客は独自のニーズや要望を満たす優れたサービスをますます期...

...

...

製造業における人工知能の活用事例トップ10

世界経済の礎である製造業は、人工知能 (AI) が推進する技術革命の最前線にあります。この記事では、...

本物と見間違えるほどリアルなAI変顔技術は本当に完璧なのか?

囲碁界の無敵の「アルファ碁」から、どこにでもある「顔認識」まで、機械学習は人々の生活に驚異的な変化を...

金融業界がAI自動化を採用すべき理由

ガートナーによると、「ロボティック・プロセス・オートメーション(RPA)ソフトウェア市場は2020年...

建築環境における人工知能:その可能性を実現するためのステップ

AI と自動化により、企業はさまざまな最適化ソフトウェアを使用して、冷房、暖房、発電を自動的に改善し...

Google 数学 AI が Nature に発表: IMO 金メダルの幾何学レベル、定理証明は呉文軍の 1978 年の法則を上回る

Google DeepMindが再びNatureを出版、AIのAlphaシリーズが力強く復活、数学レ...

...

生成AIは高価すぎるため、マイクロソフトやグーグルのような大手テクノロジー企業でさえも導入できない

テクノロジー企業は、AI がビジネスメモを書いたり、コンピューターコードを作成したりできると宣伝して...

インテリジェントエッジがモノのインターネット (IoT) の変革を推進

2025年までに、世界中に約750億個のIoTデバイスが存在すると予想されています。スマートデバイス...

人工知能が爆発的に進化しています。この「鉄の飯碗」を手に入れるための新しいガイドをぜひ保存してください!

近年の人工知能の発展スピードは驚異的で、あらゆる分野で専門的なAIが登場しています。上海では以前、無...

SQL Server 2005 のデータ マイニング アルゴリズム拡張メソッド

SSAS は 9 つのデータ マイニング アルゴリズムを提供していますが、実際の問題に基づいて適切な...