ウィンドウの長さが 4k でも、大きなモデルで大きなテキストを読み取ることができます。 プリンストン大学の中国人博士課程の学生による最近の成果は、大きなモデルウィンドウの長さの限界を「突破」することに成功した。 さまざまな質問に答えられるだけでなく、追加のトレーニングなしでプロンプトだけで実装プロセス全体を完了できます。 研究チームは、モデル自体のウィンドウの長さの制限を打ち破ることができる、MemWalkerと呼ばれるツリー状のメモリ戦略を作成しました。 テスト中、モデルが読み取った最長のテキストには 12,000 を超えるトークンが含まれており、LongChat と比較してパフォーマンスが大幅に向上しました。 同様の TreeIndex と比較すると、MemWalker は単に要約するだけでなく、推論してあらゆる質問に答えることができます。 MemWalker の開発では、「分割統治」というアイデアが活用されました。一部のネットユーザーは次のようにコメントしています。
では、ツリーメモリ戦略とは正確には何であり、限られたウィンドウ長で長いテキストをどのように読み取るのでしょうか? 1つのウィンドウだけでは不十分な場合は、複数のウィンドウを開きますモデルに関して言えば、MemWalker は命令チューニング後の Llama 2-70B である Stable Beluga 2 を基本モデルとして使用します。 このモデルを選択する前に、開発者はオリジナルの Llama 2 とパフォーマンスを比較し、最終的にこれを使用することを決定しました。 MemWalker という名前の通り、その動作プロセスはメモリ ストリーム ウォーキングのようなものです。 具体的には、記憶ツリーの構築とナビゲーション検索の2つの段階に大別されます。 メモリツリーを構築する際、長いテキストは複数の小さなセグメント(seg1-6)に分割され、大きなモデルは各セグメントを要約して「リーフノード」 (summ1-6)を取得します。 分割する際、各セグメントの長さが長いほど階層数が少なくなり、その後の検索に有利になりますが、長すぎると精度の低下につながります。そのため、各セグメントの長さは総合的に考慮して決定する必要があります。 著者は、各セグメントの適切な長さは 500 ~ 2000 トークンであると考えていますが、実験で使用されたのは 1000 トークンです。 次に、モデルはこれらのリーフノードの内容を再帰的に要約して、「非リーフノード」 (summ7-8)を形成します。 2 つのノード間のもう 1 つの違いは、リーフ ノードには元の情報が含まれるのに対し、非リーフ ノードには要約された二次情報のみが含まれることです。 機能的には、非リーフ ノードは回答が配置されているリーフ ノードに移動するために使用され、リーフ ノードは回答を推測するために使用されます。 非リーフ ノードは複数のレベルを持つことができ、モデルは「ルート ノード」が得られるまで徐々に要約および一般化され、完全なツリー構造を形成します。 メモリツリーが確立されたら、ナビゲーションと検索の段階に入り、回答を生成できます。 このプロセスでは、モデルはルート ノードから開始し、次のレベルの子ノードの内容を 1 つずつ読み取り、このノードに入るか戻るかを推測します。 このノードに入ることを決定した後、リーフノードが読み取られるまでこのプロセスを再度繰り返します。リーフ ノードの内容が適切な場合は回答を生成し、そうでない場合はそれを返します。 回答の完全性を保証するために、このプロセスの終了条件は適切なリーフ ノードを見つけることではなく、モデルは完全な回答が得られたか、最大ステップ数に達したと認識します。 ナビゲーション プロセス中に、モデルが間違ったパスを入力したことを検出した場合、モデルは戻ることができます。 さらに、MemWalker では精度を向上させるためにワーキング メモリ メカニズムが導入されています。 このメカニズムは、訪問したノードのコンテンツを現在のコンテンツのコンテキストに追加します。 モデルが新しいノードに入ると、現在のノードの内容がメモリに追加されます。 このメカニズムにより、モデルは各ステップで訪問したノードのコンテンツを利用し、重要な情報の損失を回避できます。 実験結果によると、ワーキングメモリメカニズムにより MemWalker の精度が約 10% 向上することが分かりました。 さらに、上記のプロセスは、追加のトレーニングを必要とせず、プロンプトだけで完了できます。 理論的には、十分な計算能力があれば、MemWalker は無制限の長さのテキストを読み取ることができます。 しかし、テキストの長さが長くなるにつれて、メモリツリー構築の時間と空間の複雑さは指数関数的に増加します。 著者について論文の第一著者は、プリンストン大学NLP研究所の中国人博士課程学生、ハワード・チェン氏です。 清華大学ヤオクラスの卒業生であるチェン・ダンキ氏はハワード氏の指導者である。今年のACLでの彼女の研究レポートも検索に関するものだった。 この成果は、ハワード氏がMetaでのインターンシップ中に達成したものです。Meta AI研究所の3人の学者、ラマカント・パスヌル氏、ジェイソン・ウェストン氏、アスリ・セリキルマズ氏もこのプロジェクトに参加しました。 論文アドレス: https://arxiv.org/abs/2310.05029 |
>>: OpenAIの最初の投資家コスラ氏:AIスタートアップのほとんどは過大評価されている
何の警告もなく、OpenAIのCEOサム・アルトマンは解雇された。一つの石が千の波紋を呼ぶ。ウルトラ...
[[414852]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[204469]]概要ガベージコレクションは、通常「GC」と呼ばれます。1960年にMITのLis...
6月20日のニュースによると、人工知能分野の専門家は、AIが生成したコンテンツがオンラインに投稿され...
最近、AIチップ市場は明らかに冷え込んでいます。チップ市場のリーダーであるNvidiaが先日発表した...
GAN は大幅に圧縮することもできます。MIT ハン・ソン氏のチームによる最新の研究は、多くの研究者...
5月15日、世界有数のIoTロック企業であるnokelockの製品発表会が北京金宇シェラトンホテルで...
[[380723]]ビッグデータダイジェスト制作著者: カレブソーシャル メディアにおけるアルゴリズ...
12月1日、GoogleのDeepMindは最近、Nature誌で自社のAIツールGNoMEを披露し...
[[425806]]多様なアクセラレータ セットでトレーニングされた大規模で複雑なニューラル ネット...
現在、人口ボーナスの減少、人件費の上昇、人材構成の矛盾などの問題が、製造業の発展を阻む困難になりつつ...
人工知能(AI)は、現在世界で最も革新的で影響力のある技術の1つであり、さまざまな分野や産業に浸透し...
C# のソート アルゴリズムには通常、ループと割り当てが含まれます。ソートにより、簡単な統計と分類を...
インテリジェントセキュリティ技術とは、画像の取得、伝送、保存、ビデオ分析、ビッグデータ処理のほか、マ...