Jia Jiayaのチームが世界初の70B長文大規模言語モデルをオープンソース化し、ProMaxを使って論文や小説を直接読めるようにした。

皆さん、大規模言語モデル(LLM)の長年の課題がついに解決されました!

つい最近、香港中文大学とMITの賈佳雅氏のチームが、行き詰まりを打破する新たな研究を発表しました。

700億のパラメータを持つ世界初のオープンソース長文大規模言語モデル「LongAlpaca」をリリースしました。

今回チームによってオープンソース化された LongAlpaca は、単なる単一の大きな言語モデルではなく、実際には以下を含むシリーズであることは注目に値します。

ミディアムカップ：ロングアルパカ-7B
ラージカップ：LongAlpaca-13B
特大カップ：LongAlpaca-70B

完全なトレーニングと評価の背後でさらに重要なのは、研究チームによって慎重に選択され、改良された長いテキストデータセットLongAlpaca-12kです。

そして、自社開発の大規模言語モデルテキスト長拡張ソリューションであるLongLoRAのサポートにより、最終結果は驚くべき結果を達成しました。

わずか 2 行のコードと 8 枚のカードを備えた A100 マシンで、7B モデルのテキスト長を 100k トークンに拡張でき、70B モデルのテキスト長を 32k トークンに拡張できます。

現在主流の大規模言語モデルは短いテキスト入力のみをサポートしていることを知っておく必要があります(LLaMa は 2k トークンをサポートし、Llama2 は 4k トークンをサポートします) 。実際の使用では、長いテキスト入力が必要になることがよくあります。

たとえば、大規模な言語モデルを使って小説のあらすじを解釈したり、論文の分析などに役立てたりすることができます。

これまで、オープンソースの大規模言語モデルでテキストの長さを拡張したい場合、基本的には計算能力を積み重ねる必要があり、簡単に 100 個を超える GPU または TPU を消費していました。

膨大な量のコンピューティングリソースを消費するだけでなく、特殊なデータセットが不足しているため、長いテキスト入力から得られる結果はそれほど理想的ではありません。

これが冒頭で述べた「長いテキスト」の起源です。

では、賈佳雅氏が率いる研究チームが発表したLongAlpacaの具体的な効果とは何でしょうか？

さあ、一緒に体験してみましょう。

「世界初」の直接体験

これは直接体験なので、私たちの主な焦点は、あらゆる側面から LongAlpaca を評価することです。

論文が賞を受賞した理由を分析する

まず、ICLR からの口頭発表論文(合計 12487 トークン)を LongAlpaca に入力し、受賞理由の分析を依頼してみます。

論文の長さは、私たちが普段尋ねる普通の質問ほど短くはなく、論文全体のテキストは論理的に関連しており、非常に厳密です。

このような専門的な論文に対しても、LongAlpaca は論文で提案された方法の新規性、フレームワークの総合的な評価、実験結果などの重要な要素を分析し、比較的完璧な回答を出しました。

最終的な要約は次のとおりです。

要約すると、この論文が賞を受賞した主な理由は、提案された Domino 法と評価フレームワークの新規性、有効性、汎用性であり、スライス検出における最先端の技術を推進するものです。包括的な実験評価と定量分析により、概念的な貢献を裏付ける強力な経験的証拠が得られます。

2つの論文に基づいて会議スタイルの違いを分析する

最初の評価内容から判断すると、LongAlpaca は論文の内容の長さを完璧に把握しています。

では、2 つの記事を「フィード」して相互に比較した場合、それはまだ有効でしょうか?

これ以上何も言わずに、ただ「放り込んでください」:

これら2つの論文をもとに、2つのカンファレンスの違いを比較してみましょう（合計25802トークン）。

同様に、LongAlpaca は複数の角度と側面からこの質問に答えます。

論文の構造、技術の深さ、理論と実験、表現、さらには記事の言語スタイルまで、すべてが具体的な分析結果をもたらします。

最後に、LongAlpaca は次のように結論付けました。

CVPR の記事はより構造化され、実験的であり、コンピュータービジョンタスクの方法の説明に重点を置いています。

ICLR 論文のスタイルはより柔軟で、メタ学習の洞察を証明する主要な公式と理論的分析に重点を置いています。

有名な本の章についての質問

LongAlpaca による論文分析を体験した後、さらにドラマチックな小説も扱えるかどうか確認してみましょう。

『西遊記』からの抜粋（合計 36,870 トークン）を入れて、次のように質問します。

『西遊記』では、孫悟空は天国で大混乱を引き起こしたにもかかわらず、仏典を手に入れるための旅で何度も挫折したのはなぜでしょうか？

LongAlpaca は西遊記のストーリータイムラインに基づいて、孫悟空が天国で問題を起こした際の傲慢さ、仏陀による能力の制限、そして道中で強力になるモンスターなど、その理由を分析しました。

要約すれば：

強力な敵、力の限界、欺瞞、仲間の不足が、旅の失敗の当初の理由でした。しかし、時が経つにつれて、彼は知恵、経験、仲間を得て、最終的にはさらに強力な敵を倒せるようになりました。

ラマ2との競争

さまざまな垂直評価の後には、水平比較も必要です。

では、大規模言語モデルのオープンソースコミュニティで非常に人気のある Llama 2 と比較して、LongAlpaca のパフォーマンスはどうでしょうか?

今回は「ビッグカップ」プレイヤー LongAlpaca-13B を送り、次の質問をしました。

「三体」第1部の章（合計32252トークン）によると、葉文潔はなぜエイリアンと接触したのか、そしてなぜ後で後悔したのか？

LongAlpaca-13B は比較的正確な答えを出したと言えます。

葉文潔がエイリアンと最初に接触したのは理想主義と復讐心からだったが、時が経つにつれ、彼女の人間性に対する見方は変わり、自分が全人類に危険をもたらしたかもしれないことに気づき、後悔の念が増していく。

一方、13Bの大規模言語モデルでもあるLlama 2は、テキストのほとんどが質問自体を中心に展開されていなかったため、やや残念な回答を出した。

簡単に言うと:

結局、彼女は自分の行動が予想もしなかった結果を招いたことに気づき、後悔の念を覚えた。

つまり、さまざまな評価パフォーマンスから判断すると、LongAlpaca は確かに長いテキスト入力の問題に対処する上で優れた最適化を達成しています。

それで次の質問です:

これはどうやって行うのですか?

左手でデータを把握し、右手で戦略を立てる。これが LongAlpaca のやり方です。

データに関して言えば、先ほど述べたように、長文大規模言語モデルのトレーニングが難しいのは、公開されている長文会話データが不足していることです。

さらに、これまでの長文テキストモデルのトレーニングでは、主に「次のトークン生成」方式を使用して非会話コーパスの事前トレーニングを継続していました。

この方法では、モデルの位置エンコード形式を長いテキストに合わせて調整できますが、モデルが優れた会話機能を持つことが難しいという欠点も明らかです。

そこで、Jia Jiaya 氏のチームは、有名な書籍、論文、詳細なレポート、さらには財務諸表に関するさまざまな質問と回答を含む、9,000 の長文の質問と回答のコーパスペアを収集しました。

その中で、論文に関する質疑応答が最も詳しく、「レビュー」「論文比較」「会議スタイル比較」「改訂提案」、論文の内容に関する質問などが含まれています。

しかし、結局のところ、長所を強調する一方で、欠点を忘れてはいけません。そのため、Jia Jiaya のチームは、混合トレーニング用に、元の Alpaca データセットから約 3,000 個の短い質問と回答のコーパスも選択しました。

ついに、前述のLongAlpaca-12kの構築に成功しました。

次は戦略レベルです。

先ほど述べたように、大規模言語モデルにおける長いテキスト入力の問題におけるもう 1 つの長年の課題は、コンピューティングリソースの膨大な消費です。

具体的には、自己注意メカニズムの計算に焦点を当てており、コストはテキストの長さに応じて 2 乗的に増加します。

そこで研究チームはこれを突破口として、開発中の大規模言語モデル向けのテキスト長拡張方式であるLongLoRAを提案し、同時にグループ化とオフセットの方法を用いてグローバル自己注意メカニズムをシミュレートしました。

△LongLoRA設計概要

その中でも、LongLoRA の具体的な重要な技術的ポイントは、シフトショートアテンション、つまりバイアスショートアテンションです。

その中心となるアイデアは、密なグローバルな注意を疎なローカルな注意に置き換えることです。

これは、大まかに言えば、検索時に一致度と類似度が高いセントクスのみを使用するという考え方です。

これにより、コンピューティングリソースの消費を大幅に削減できます。

△シフトショートアテンション図

さらに重要なのは、LongLoRA のトレーニングには 2 行のコードしか必要ないことです。

さらに、LongLoRA は低ランクのトレーニング方法も検討しました。 LoRA などの元の低ランクトレーニング方法では、テキスト長の移行において良好な結果を達成できません。

LongLoRA は、低ランクトレーニングに基づいて、微調整用の埋め込みレイヤー(埋め込みレイヤーと正規化レイヤー)を導入し、完全な微調整に近い効果を実現します。

8k 長のモデルトレーニングの場合、LongLoRA は、完全なパラメータの微調整と比較して、ビデオメモリの消費量を 46.3 GB から 25.6 GB に削減します。

64k の長さのモデルトレーニングの場合、LongLoRA では、通常の LoRA と比較してトレーニング時間が約 90 ～ 100 時間から 52.4 時間に短縮されます。

△パラメータの微調整、従来のLoRAとLongLoRAの性能比較

LongLoRA は、テキストモデリング(Proof-pile、PG-19)や情報検索(トピック検索、パスキー検索)など、さまざまな言語タスクで優れたパフォーマンスを発揮していることは特筆に値します。

さらに、LongLoRA は、優れた言語モデリングパフォーマンスを維持しながら、1 台の 8 カード A100 マシンで 7B モデルのテキスト長を 100k トークンまで、70B モデルのテキスト長を 32k トークンまで拡張できます。

どのように展開しますか?

このような「速くて、良くて、経済的な」プロジェクトを試してみませんか?

現在、GitHub でオープンソース化されており、非常に詳細なデプロイメントチュートリアルが提供されています。

たとえば、インストールに関しては、次の 6 つの簡単な手順だけが必要です。

1. GitHub でこのリポジトリをフォークします。

2. git clone を使用してローカルマシンにリポジトリをクローンし、このプロジェクトの URL を貼り付けます。

3. 次のコードを実行します。

 pip install -r requirements.txt pip install flash-attn --no-build-isolation

4. 好みに応じて「公開モデル」と「微調整モデル」を使用します。

5. 対話を通じてモデルをテストします。

6. 独自のデモにデプロイします。

他にもさまざまな「カップ型」モデルやトレーニングプロセスコードなどがあり、チームはGitHubプロジェクトで詳細を公開しています。

必要な友達は下のリンクをクリックして受け取ってください〜

GitHub プロジェクトアドレス: https://github.com/dvlab-research/LongLoRA

論文アドレス: https://browse.arxiv.org/pdf/2309.12307.pdf

<<: ディズニーは強化学習を利用して新しいロボットをスターウォーズ風に仕上げた

>>: 2024年以降に注目すべき10のジェネレーティブAIトレンド

AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

ブログ

ジャック・マーがまた一人の世界クラスの科学者を採用しました。春節期間中に電車の切符を買うときにシステムクラッシュを心配する必要はもうありません!

Jia Jiayaのチームが世界初の70B長文大規模言語モデルをオープンソース化し、ProMaxを使って論文や小説を直接読めるようにした。

「世界初」の直接体験

論文が賞を受賞した理由を分析する

2つの論文に基づいて会議スタイルの違いを分析する

有名な本の章についての質問

ラマ2との競争

これはどうやって行うのですか?

どのように展開しますか?

AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

何も知らない状態から、3分で「ナレッジグラフ」を素早く理解するまで

機械学習プロジェクトを構築するための6つのステップをマスターしましょう

メルセデス・ベンツCIO：デジタル変革には人工知能の推進力が必要

ジャック・マーがまた一人の世界クラスの科学者を採用しました。春節期間中に電車の切符を買うときにシステムクラッシュを心配する必要はもうありません!

Baidu がモバイル検索ランキングアルゴリズムを調整し、アプリのランキング結果を改善

スタンフォードのAIエージェント研究が熱い！「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

清華大学 IEEE 論文: 自動運転の判断を支援する新しいトレーニング方法を使用して「路側干渉」を排除

推薦する

多くの場所で顔認証の削除が通知されました！人工知能業界は衰退するのでしょうか？

AI 時代において、人工知能は企業のリスク監視をどのように強化するのでしょうか?

量子超越性のマイルストーン！ Googleの量子コンピュータは47年分の計算を6秒で完了し、世界初のスーパーコンピュータを上回る

生成 AI 規制: 「ディープフェイク技術」は大規模言語モデルの自由意志を実証するか?

IT プロフェッショナル向けの 8 つの新しい AI 職種

ChatGPTを旅の途中のプロンプトジェネレーターに変える

スポーツと人工知能が出会うとき（スポーツレビュー）

裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?

清華大学特別賞焦建涛のビッグモデル起業：GPT-4ツールの使用における画期的進歩、オープンソースのシードラウンドで7000万ドルの資金調達

マイクロソフトとグーグルのAIジレンマ：お金を稼ぐにはもっとお金を使う必要がある

sklearn 機械学習の使い方を 5 分で解説します (パート 1)

自動車の未来：スマート製造の採用