4Kウィンドウの長さで長いテキストを読むことができ、陳丹奇の弟子がMetaと提携して、大規模なモデルでメモリを強化する新しい方法を立ち上げました

ウィンドウの長さが 4k でも、大きなモデルで大きなテキストを読み取ることができます。

プリンストン大学の中国人博士課程の学生による最近の成果は、大きなモデルウィンドウの長さの限界を「突破」することに成功した。

さまざまな質問に答えられるだけでなく、追加のトレーニングなしでプロンプトだけで実装プロセス全体を完了できます。

研究チームは、モデル自体のウィンドウの長さの制限を打ち破ることができる、MemWalkerと呼ばれるツリー状のメモリ戦略を作成しました。

テスト中、モデルが読み取った最長のテキストには 12,000 を超えるトークンが含まれており、LongChat と比較してパフォーマンスが大幅に向上しました。

同様の TreeIndex と比較すると、MemWalker は単に要約するだけでなく、推論してあらゆる質問に答えることができます。

MemWalker の開発では、「分割統治」というアイデアが活用されました。一部のネットユーザーは次のようにコメントしています。

大規模モデルの思考プロセスをより人間らしくするたびに、モデルはより良くなる

では、ツリーメモリ戦略とは正確には何であり、限られたウィンドウ長で長いテキストをどのように読み取るのでしょうか?

1つのウィンドウだけでは不十分な場合は、複数のウィンドウを開きます

モデルに関して言えば、MemWalker は命令チューニング後の Llama 2-70B である Stable Beluga 2 を基本モデルとして使用します。

このモデルを選択する前に、開発者はオリジナルの Llama 2 とパフォーマンスを比較し、最終的にこれを使用することを決定しました。

MemWalker という名前の通り、その動作プロセスはメモリストリームウォーキングのようなものです。

具体的には、記憶ツリーの構築とナビゲーション検索の2つの段階に大別されます。

メモリツリーを構築する際、長いテキストは複数の小さなセグメント（seg1-6）に分割され、大きなモデルは各セグメントを要約して「リーフノード」（summ1-6）を取得します。

分割する際、各セグメントの長さが長いほど階層数が少なくなり、その後の検索に有利になりますが、長すぎると精度の低下につながります。そのため、各セグメントの長さは総合的に考慮して決定する必要があります。

著者は、各セグメントの適切な長さは 500 ～ 2000 トークンであると考えていますが、実験で使用されたのは 1000 トークンです。

次に、モデルはこれらのリーフノードの内容を再帰的に要約して、「非リーフノード」 (summ7-8)を形成します。

2 つのノード間のもう 1 つの違いは、リーフノードには元の情報が含まれるのに対し、非リーフノードには要約された二次情報のみが含まれることです。

機能的には、非リーフノードは回答が配置されているリーフノードに移動するために使用され、リーフノードは回答を推測するために使用されます。

非リーフノードは複数のレベルを持つことができ、モデルは「ルートノード」が得られるまで徐々に要約および一般化され、完全なツリー構造を形成します。

メモリツリーが確立されたら、ナビゲーションと検索の段階に入り、回答を生成できます。

このプロセスでは、モデルはルートノードから開始し、次のレベルの子ノードの内容を 1 つずつ読み取り、このノードに入るか戻るかを推測します。

このノードに入ることを決定した後、リーフノードが読み取られるまでこのプロセスを再度繰り返します。リーフノードの内容が適切な場合は回答を生成し、そうでない場合はそれを返します。

回答の完全性を保証するために、このプロセスの終了条件は適切なリーフノードを見つけることではなく、モデルは完全な回答が得られたか、最大ステップ数に達したと認識します。

ナビゲーションプロセス中に、モデルが間違ったパスを入力したことを検出した場合、モデルは戻ることができます。

さらに、MemWalker では精度を向上させるためにワーキングメモリメカニズムが導入されています。

このメカニズムは、訪問したノードのコンテンツを現在のコンテンツのコンテキストに追加します。

モデルが新しいノードに入ると、現在のノードの内容がメモリに追加されます。

このメカニズムにより、モデルは各ステップで訪問したノードのコンテンツを利用し、重要な情報の損失を回避できます。

実験結果によると、ワーキングメモリメカニズムにより MemWalker の精度が約 10% 向上することが分かりました。

さらに、上記のプロセスは、追加のトレーニングを必要とせず、プロンプトだけで完了できます。

理論的には、十分な計算能力があれば、MemWalker は無制限の長さのテキストを読み取ることができます。

しかし、テキストの長さが長くなるにつれて、メモリツリー構築の時間と空間の複雑さは指数関数的に増加します。

著者について

論文の第一著者は、プリンストン大学NLP研究所の中国人博士課程学生、ハワード・チェン氏です。

清華大学ヤオクラスの卒業生であるチェン・ダンキ氏はハワード氏の指導者である。今年のACLでの彼女の研究レポートも検索に関するものだった。

この成果は、ハワード氏がMetaでのインターンシップ中に達成したものです。Meta AI研究所の3人の学者、ラマカント・パスヌル氏、ジェイソン・ウェストン氏、アスリ・セリキルマズ氏もこのプロジェクトに参加しました。

論文アドレス: https://arxiv.org/abs/2310.05029

<<: 統計分析と人工知能の9つの有名な大惨事

>>: OpenAIの最初の投資家コスラ氏：AIスタートアップのほとんどは過大評価されている

チャット記録をアップロードして自分自身を「複製」する。このスタートアップは「ブラックミラー」の第 1 話を現実のものにしました

ブログ

YouTubeがAIツールシリーズを発表：動画作成の提案、背景の生成、多言語吹き替えが可能

ブログ

DeepMindが乳がん診断AIをリリース：市場に投入するにはまだ多くの課題がある

ブログ

「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

ブログ

K8S向け機械学習ツール「Kubeflow」の詳しい解説

ブログ

最高の AI スタートアップはどれですか? 6つの選択肢があなたに方向性を与える

ブログ

人工知能は意識のギャップを埋めることができるか？

ブログ

スタートアップがAIを活用してデータ駆動型マーケティング戦略を開発する方法

ブログ

フォレスターの予測: 2021年に人工知能が輝く

ブログ

4Kウィンドウの長さで長いテキストを読むことができ、陳丹奇の弟子がMetaと提携して、大規模なモデルでメモリを強化する新しい方法を立ち上げました

1つのウィンドウだけでは不十分な場合は、複数のウィンドウを開きます

著者について

チャット記録をアップロードして自分自身を「複製」する。このスタートアップは「ブラックミラー」の第 1 話を現実のものにしました

YouTubeがAIツールシリーズを発表：動画作成の提案、背景の生成、多言語吹き替えが可能

DeepMindが乳がん診断AIをリリース：市場に投入するにはまだ多くの課題がある

「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

K8S向け機械学習ツール「Kubeflow」の詳しい解説

最高の AI スタートアップはどれですか? 6つの選択肢があなたに方向性を与える

人工知能は意識のギャップを埋めることができるか？

スタートアップがAIを活用してデータ駆動型マーケティング戦略を開発する方法

フォレスターの予測: 2021年に人工知能が輝く

推薦する

インターネット上の無料データサイエンス、機械学習、人工知能のMOOCベスト20

年間100万ドルの給料でも、このタイプの才能のギャップを埋めることはできません。 AI業界も「人手不足」

機械学習プログラムで使用される一般的な推奨アルゴリズムの例

AIとIoTの長所と短所

多くの機械学習戦略が失敗する理由

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

エンタープライズITがAIを実際に適用できる場所

2021 年のトップ 10 のテクノロジートレンド - AI、エッジコンピューティング、マシンビジョンなど

人工知能と伝統的な中国医学が出会うと、青い「箱」は「見て、嗅いで、聞いて、感じることができる」

とにかく車に乗ってください！ DriveVLM: オリンが導入した初の高速・低速デュアルシステムインテリジェント運転モデル

なぜ医療においてAIを信頼できないのか？データセットが小さく信頼性が低いため、AI医療にはまだまだ課題がある