たった 2 行のコードで、「三体問題」を一気に読み上げます。香港中文大学とMITの賈佳雅氏のチームが共同で超長文テキスト拡張技術をリリースし、法学修士課程の忘却の呪いを解く

途中で迷うと、モデルは怠惰になり、コンテキストが長くなるほど、モデルは愚かになります...

LLM を経験した人なら誰でも、テキスト入力の長さの制限についてある程度の経験があるでしょう。

大きなモデルで長いコンテンツを議論したい場合は、入力を分割する必要があり、大きなモデルでは前の入力の重要なポイントがすぐに忘れられてしまいます。

実際、これらは大規模言語モデル対話の典型的な欠陥です。注意欠陥を持って生まれた子供が、新しい本を読むことに集中するのが難しいのと同じです。欠陥の主な原因は、モデルに長いテキストを処理する能力が欠けていることです。

今、この状況は打破されました！

つい最近、Jia Jiaya 氏のチームと MIT が発表した新しいテクノロジーと新しいモデルが、主要なオープンソース Web サイトのホットリストで静かにトップに躍り出ました。

これは Hugging Face のホットリストで 1 位、Papers With Code でも 1 位、すべての Github Python プロジェクトで 5 位にランクされました。Github スターは 1 週間で 1,000 を超え、Twitter での関連技術投稿の閲覧数は 180,000 近くに上りました...

論文アドレス: https://arxiv.org/abs/2309.12307

コードとデモのアドレス: https://github.com/dvlab-research/LongLoRA

GitHub スターが 1.3k に到達しました

Twitter上の関連技術投稿数は約18万件に達した

LongLoRA と呼ばれるこの技術は驚くほど便利でありながらシンプルです。

わずか 2 行のコードと 8 枚のカードを備えた A100 マシンで、7B モデルのテキスト長を 100k トークンに拡張でき、70B モデルのテキスト長を 32k トークンに拡張できます。

同時に、研究チームは700億のパラメータを持つ長文会話向けの初の大規模言語モデルであるLongAlpacaもリリースした。

世界初の70B長文大規模言語モデルがリリース

LongLoRA の導入により、世界の大規模言語モデルの会話欠陥が初めて解決されました。それ以来、数十ページの論文、数百ページのレポート、壮大な作品は、大規模モデルの盲点ではなくなりました。

この点に関して、一部の専門家は、LongLoRA は大規模言語モデルの迷路における希望の光であると興奮気味に述べました。

これは、長文大規模言語モデルに対する業界の再考と注目を表しており、大規模言語モデルのコンテキストウィンドウを効果的に拡張し、モデルがより長いテキストシーケンスを考慮して処理できるようにし、大規模言語モデルの革新的な発明です。

技術革新に加えて、大規模な言語モデルを使用して長いテキストの問題を処理する際の大きな困難は、公開されている長いテキストの会話データが不足していることです。

この目的のために、研究チームは、有名な書籍、論文、詳細なレポート、さらには財務諸表に関するさまざまな質問と回答を含む、9,000 の長いテキストの質問と回答のペアを特別に収集しました。

長い質問に答えられるだけでは十分ではありません。チームは、長いテキストモデルに短いテキストの会話機能も持たせることができるように、混合トレーニング用に 3k の短い質問と回答のコーパスと 9k の長い質問と回答のコーパスを選択しました。完全なデータセットは LongAlpaca-12k と呼ばれ、現在はオープンソースになっています。

研究チームは、LongAlpaca-12k データセットに基づいて、7B、13B、70B の異なるパラメータサイズをトレーニングし、評価しました。オープンソースモデルには、LongAlpaca-7B、LongAlpaca-13B、LongAlpaca-70B が含まれます。

彼は小説を読んだり、論文を改訂したり、経済に関するアドバイスをしたりできる万能人です。

これ以上何もせずに、いくつかのデモを盲目的に選択して、LongLoRA テクノロジを使用し、12K の質問と回答のコーパスを重ね合わせた大規模モデル LongAlpaca の効果を確認しましょう。

システムに新しい論文を読ませ、ICLR のレビューガイドラインに基づいて改訂を提案させ、論文の受理率を向上させます。

LongAlpaca の意見では、新規性をより正確に表現し、より厳密で比較可能な実験結果 (特定のデータセットとメトリックを含む) を提供し、より幅広いアプリケーションと将来の開発の方向性を示し、主要な貢献と影響の提示に重点を置くことで、受理される可能性が高まると考えています。

ここで、システムに 2 つの新しい異なる論文を読み込ませ、LongAlpaca に ICLR と CVPR のスタイルの違いを要約させます。

LongAlpaca は、CVPR 論文は実用性と技術性を重視し、より構造化され実験的なスタイルになる傾向があると結論付けました。 ICLR 論文スタイルはより柔軟で、標準形式ではなく主要な理論的分析と数学的導出に重点を置いています。

トレーニングされた LongAlpaca モデルは、新しい長い学術論文を簡単に受け入れることができ、学術関連の質問に非常に正確に答えることができることがわかります。

次に、読解・理解の敷居が高い経済分野におけるLongAlpacaモデルの解釈性能を見てみましょう。

国際通貨基金の2012年から2023年までの世界経済見通しの概要に基づき、経済状況を年ごとにまとめ、将来の経済動向を予測します。

LongAlpacaは、2023年の世界経済の状況は不確実であり、成長は2022年に比べて鈍化すると予想しています。今後数年間、世界経済の拡大ペースは緩やかで予想よりも低くなる一方で、地政学的緊張や金融市場の変動などの大きな課題は依然として存在し、多国間協力と構造改革を通じて慎重に対処する必要があります。

さらに、LongAlpaca は新しい小説を読んで、読んだ後に内容を分析することもできます。

以下に選択した比較モデルは、13B パラメータを持つ LongAlpaca と Llama2 です。それぞれのパフォーマンスを見てみましょう。

有名な小説「西遊記」では、孫悟空は天国で大混乱を引き起こしたにもかかわらず、仏典を手に入れるための旅で何度も挫折したのはなぜでしょうか。

LongAlpaca は 5 つの理由を挙げており、大まかにまとめると次のようになります。「孫悟空の未熟さ、強力な敵、力の限界、敵の欺瞞、そして当初の仲間の不足が、旅の失敗につながりました。しかし、時が経つにつれて、彼は知恵、経験、仲間を獲得し、最終的に最強の敵を倒すことができました。」

Llama2 さんは正しい答えを出していません。 「彼は天宮で大混乱を引き起こしましたが、彼が無敗の勢力を表していると言うのは必ずしも正確ではありません。実際、彼は西遊記で強力な唐三蔵に最終的に敗北しました。」

今回は、システムに「三体」をもう一度読ませて、葉文潔が前半でなぜ宇宙人と接触したのか、そしてなぜ後で後悔したのかを尋ねます。

LongAlpaca は、葉文潔が当初は理想主義と復讐心からエイリアンと接触したが、時が経つにつれて人間に対する見方が変わり、自分が全人類にもたらす危険に気づき、後悔の念が強くなったと考えています。答えは非常に明確でした。

Llama2 さんの答えは、「エイリアンとの交流を通じて、彼女は宇宙の性質とその中での自分の立場についてより深く理解したいと願っています。葉文潔は、エイリアンとそのテクノロジーでは自分の問題を解決できないことに徐々に気づきます。」でした。答えは曖昧で、その後、彼女は質問とは関係のない小説全体についてコメントし始めます。

モデルが出した回答から、Llama2[2]などの一部のモデルは事前トレーニングの過程で関連する小説を見たことがあるかもしれないが、小説のタイトルだけに基づいた短いテキストの質問をした場合、回答は理想的ではないことがわかります。

2 つのモデルの回答を比較すると、その違いは明らかです。 LongAlpaca は、学術論文の編集、世界経済の動向に関するコメント、小説の朗読の専門家であり、Llama2 をはるかに上回っています。

2行のコードと3つの重要な結論

Llama2 は AI コミュニティで最も強力なオープンソースモデルの 1 つであり、業界をリードしていると言えますが、LongAlpaca は実際にそれを上回っています。その背後にある LongLoRA テクノロジーは、ネットユーザーの注目を集めることに成功しました。それはどのようにして実現したのでしょうか?

大規模な言語モデルが長いテキストを処理する場合、主な計算オーバーヘッドは自己注意メカニズムに集中し、そのオーバーヘッドはテキストの長さの2乗で増加することが判明しました。

この問題に対処するため、研究チームは LongLoRA テクノロジーを提案し、グループ化とオフセットの方法を使用してグローバルな自己注意メカニズムをシミュレートしました。

簡単に言えば、長いテキストに対応するトークンを異なるグループに分割し、各グループ内で自己注意計算を実行し、グループ化方法を異なる注意ヘッドでオフセットします。

このアプローチにより、グローバル受容野の伝達を維持しながら、計算量を大幅に節約できます。

さらに、この実装は非常にシンプルで、わずか 2 行のコードで完了できます。

さらに、LongLoRA は低ランクのトレーニング方法も検討しました。

LoRA[5]などのオリジナルの低ランクトレーニング方法では、テキスト長の移行において良い結果を達成できません。

LongLoRA は、低ランクトレーニングに基づいて、微調整用の埋め込みレイヤー (埋め込みレイヤーと正規化レイヤー) を導入し、完全な微調整に近い効果を実現します。

異なる長さのテキスト拡張とトレーニングを実行する場合、LongLoRA、LoRA、および完全なパラメータの微調整の特定の効果は、次の 3 つの次元で参照できます。

困惑度に関しては、元の LoRA 方式のパフォーマンスは低下していますが、LongLoRA と完全なパラメータの微調整では、さまざまなテキストの長さで良好な結果を維持できます。
ビデオメモリの消費量に関しては、LongLoRA とオリジナルの LoRA は、完全なパラメータの微調整に比べて大幅な節約になります。たとえば、8k の長さのモデルトレーニングの場合、LongLoRA は、完全なパラメータの微調整と比較して、ビデオメモリの消費量を 46.3 GB から 25.6 GB に削減します。
トレーニング時間に関して言えば、64k 長のモデルトレーニングの場合、従来の LoRA と比較して、LongLoRA はトレーニング時間を約 90 ～ 100 時間から 52.4 時間に短縮しますが、完全なパラメータの微調整には 1000 時間を超えます。

非常にシンプルなトレーニング方法、最小限のコンピューティングリソースと時間の消費、優れた精度により、LongLoRA の大規模なプロモーションが可能になります。

現在、関連する技術とモデルはすべてオープンソース化されており、興味のあるユーザーは自分で導入して体験することができます。

特筆すべきは、これは8月9日に「すべてを分割できる」マルチモーダル大型モデルLISAを発表した後の、賈佳雅氏のチームのもう一つの傑作であるということ。

わずか2ヶ月しか違わなかったのですが、研究のスピードと能力はLongLoRAに負けず劣らず素晴らしいと言わざるを得ません。

<<: AIによる顔の変形にはポジティブなエネルギーもある：研究によると、自分で顔を変える教育ビデオを観ると学習効率と楽しさが向上することがわかった

>>: テクノロジーが建設業界に及ぼす8つの影響