皆さん、大規模言語モデル(LLM)の長年の課題がついに解決されました! つい最近、香港中文大学とMITの賈佳雅氏のチームが、行き詰まりを打破する新たな研究を発表しました。 700億のパラメータを持つ世界初のオープンソース長文大規模言語モデル「LongAlpaca」をリリースしました。 今回チームによってオープンソース化された LongAlpaca は、単なる単一の大きな言語モデルではなく、実際には以下を含むシリーズであることは注目に値します。
完全なトレーニングと評価の背後でさらに重要なのは、研究チームによって慎重に選択され、改良された長いテキスト データセットLongAlpaca-12kです。 そして、自社開発の大規模言語モデルテキスト長拡張ソリューションであるLongLoRAのサポートにより、最終結果は驚くべき結果を達成しました。 わずか 2 行のコードと 8 枚のカードを備えた A100 マシンで、7B モデルのテキスト長を 100k トークンに拡張でき、70B モデルのテキスト長を 32k トークンに拡張できます。 現在主流の大規模言語モデルは短いテキスト入力のみをサポートしていることを知っておく必要があります(LLaMa は 2k トークンをサポートし、Llama2 は 4k トークンをサポートします) 。実際の使用では、長いテキスト入力が必要になることがよくあります。 たとえば、大規模な言語モデルを使って小説のあらすじを解釈したり、論文の分析などに役立てたりすることができます。 これまで、オープンソースの大規模言語モデルでテキストの長さを拡張したい場合、基本的には計算能力を積み重ねる必要があり、簡単に 100 個を超える GPU または TPU を消費していました。 膨大な量のコンピューティング リソースを消費するだけでなく、特殊なデータ セットが不足しているため、長いテキスト入力から得られる結果はそれほど理想的ではありません。 これが冒頭で述べた「長いテキスト」の起源です。 では、賈佳雅氏が率いる研究チームが発表したLongAlpacaの具体的な効果とは何でしょうか? さあ、一緒に体験してみましょう。 「世界初」の直接体験これは直接体験なので、私たちの主な焦点は、あらゆる側面から LongAlpaca を評価することです。 論文が賞を受賞した理由を分析するまず、ICLR からの口頭発表論文(合計 12487 トークン)を LongAlpaca に入力し、受賞理由の分析を依頼してみます。 論文の長さは、私たちが普段尋ねる普通の質問ほど短くはなく、論文全体のテキストは論理的に関連しており、非常に厳密です。 このような専門的な論文に対しても、LongAlpaca は論文で提案された方法の新規性、フレームワークの総合的な評価、実験結果などの重要な要素を分析し、比較的完璧な回答を出しました。 最終的な要約は次のとおりです。 要約すると、この論文が賞を受賞した主な理由は、提案された Domino 法と評価フレームワークの新規性、有効性、汎用性であり、スライス検出における最先端の技術を推進するものです。包括的な実験評価と定量分析により、概念的な貢献を裏付ける強力な経験的証拠が得られます。 2つの論文に基づいて会議スタイルの違いを分析する最初の評価内容から判断すると、LongAlpaca は論文の内容の長さを完璧に把握しています。 では、2 つの記事を「フィード」して相互に比較した場合、それはまだ有効でしょうか? これ以上何も言わずに、ただ「放り込んでください」:
同様に、LongAlpaca は複数の角度と側面からこの質問に答えます。 論文の構造、技術の深さ、理論と実験、表現、さらには記事の言語スタイルまで、すべてが具体的な分析結果をもたらします。 最後に、LongAlpaca は次のように結論付けました。 CVPR の記事はより構造化され、実験的であり、コンピューター ビジョン タスクの方法の説明に重点を置いています。 ICLR 論文のスタイルはより柔軟で、メタ学習の洞察を証明する主要な公式と理論的分析に重点を置いています。 有名な本の章についての質問LongAlpaca による論文分析を体験した後、さらにドラマチックな小説も扱えるかどうか確認してみましょう。 『西遊記』からの抜粋(合計 36,870 トークン)を入れて、次のように質問します。
LongAlpaca は西遊記のストーリータイムラインに基づいて、孫悟空が天国で問題を起こした際の傲慢さ、仏陀による能力の制限、そして道中で強力になるモンスターなど、その理由を分析しました。 要約すれば: 強力な敵、力の限界、欺瞞、仲間の不足が、旅の失敗の当初の理由でした。しかし、時が経つにつれて、彼は知恵、経験、仲間を得て、最終的にはさらに強力な敵を倒せるようになりました。 ラマ2との競争さまざまな垂直評価の後には、水平比較も必要です。 では、大規模言語モデルのオープンソース コミュニティで非常に人気のある Llama 2 と比較して、LongAlpaca のパフォーマンスはどうでしょうか? 今回は「ビッグカップ」プレイヤー LongAlpaca-13B を送り、次の質問をしました。
LongAlpaca-13B は比較的正確な答えを出したと言えます。 葉文潔がエイリアンと最初に接触したのは理想主義と復讐心からだったが、時が経つにつれ、彼女の人間性に対する見方は変わり、自分が全人類に危険をもたらしたかもしれないことに気づき、後悔の念が増していく。 一方、13Bの大規模言語モデルでもあるLlama 2は、テキストのほとんどが質問自体を中心に展開されていなかったため、やや残念な回答を出した。 簡単に言うと: 結局、彼女は自分の行動が予想もしなかった結果を招いたことに気づき、後悔の念を覚えた。 つまり、さまざまな評価パフォーマンスから判断すると、LongAlpaca は確かに長いテキスト入力の問題に対処する上で優れた最適化を達成しています。 それで次の質問です: これはどうやって行うのですか?左手でデータを把握し、右手で戦略を立てる。これが LongAlpaca のやり方です。 データに関して言えば、先ほど述べたように、長文大規模言語モデルのトレーニングが難しいのは、公開されている長文会話データが不足していることです。 さらに、これまでの長文テキスト モデルのトレーニングでは、主に「次のトークン生成」方式を使用して非会話コーパスの事前トレーニングを継続していました。 この方法では、モデルの位置エンコード形式を長いテキストに合わせて調整できますが、モデルが優れた会話機能を持つことが難しいという欠点も明らかです。 そこで、Jia Jiaya 氏のチームは、有名な書籍、論文、詳細なレポート、さらには財務諸表に関するさまざまな質問と回答を含む、9,000 の長文の質問と回答のコーパス ペアを収集しました。 その中で、論文に関する質疑応答が最も詳しく、「レビュー」「論文比較」「会議スタイル比較」「改訂提案」、論文の内容に関する質問などが含まれています。 しかし、結局のところ、長所を強調する一方で、欠点を忘れてはいけません。そのため、Jia Jiaya のチームは、混合トレーニング用に、元の Alpaca データセットから約 3,000 個の短い質問と回答のコーパスも選択しました。 ついに、前述のLongAlpaca-12kの構築に成功しました。 次は戦略レベルです。 先ほど述べたように、大規模言語モデルにおける長いテキスト入力の問題におけるもう 1 つの長年の課題は、コンピューティング リソースの膨大な消費です。 具体的には、自己注意メカニズムの計算に焦点を当てており、コストはテキストの長さに応じて 2 乗的に増加します。 そこで研究チームはこれを突破口として、開発中の大規模言語モデル向けのテキスト長拡張方式であるLongLoRAを提案し、同時にグループ化とオフセットの方法を用いてグローバル自己注意メカニズムをシミュレートしました。 △LongLoRA設計概要 その中でも、LongLoRA の具体的な重要な技術的ポイントは、シフトショートアテンション、つまりバイアスショートアテンションです。 その中心となるアイデアは、密なグローバルな注意を疎なローカルな注意に置き換えることです。 これは、大まかに言えば、検索時に一致度と類似度が高いセントクスのみを使用するという考え方です。 これにより、コンピューティング リソースの消費を大幅に削減できます。 △シフトショートアテンション図 さらに重要なのは、LongLoRA のトレーニングには 2 行のコードしか必要ないことです。 さらに、LongLoRA は低ランクのトレーニング方法も検討しました。 LoRA などの元の低ランクトレーニング方法では、テキスト長の移行において良好な結果を達成できません。 LongLoRA は、低ランクトレーニングに基づいて、微調整用の埋め込みレイヤー(埋め込みレイヤーと正規化レイヤー)を導入し、完全な微調整に近い効果を実現します。 8k 長のモデルトレーニングの場合、LongLoRA は、完全なパラメータの微調整と比較して、ビデオメモリの消費量を 46.3 GB から 25.6 GB に削減します。 64k の長さのモデルトレーニングの場合、LongLoRA では、通常の LoRA と比較してトレーニング時間が約 90 ~ 100 時間から 52.4 時間に短縮されます。 △パラメータの微調整、従来のLoRAとLongLoRAの性能比較 LongLoRA は、テキストモデリング(Proof-pile、PG-19)や情報検索(トピック検索、パスキー検索)など、さまざまな言語タスクで優れたパフォーマンスを発揮していることは特筆に値します。 さらに、LongLoRA は、優れた言語モデリング パフォーマンスを維持しながら、1 台の 8 カード A100 マシンで 7B モデルのテキスト長を 100k トークンまで、70B モデルのテキスト長を 32k トークンまで拡張できます。 どのように展開しますか?このような「速くて、良くて、経済的な」プロジェクトを試してみませんか? 現在、GitHub でオープンソース化されており、非常に詳細なデプロイメント チュートリアルが提供されています。 たとえば、インストールに関しては、次の 6 つの簡単な手順だけが必要です。 1. GitHub でこのリポジトリをフォークします。 2. git clone を使用してローカル マシンにリポジトリをクローンし、このプロジェクトの URL を貼り付けます。 3. 次のコードを実行します。 4. 好みに応じて「公開モデル」と「微調整モデル」を使用します。 5. 対話を通じてモデルをテストします。 6. 独自のデモにデプロイします。 他にもさまざまな「カップ型」モデルやトレーニングプロセスコードなどがあり、チームはGitHubプロジェクトで詳細を公開しています。 必要な友達は下のリンクをクリックして受け取ってください〜 GitHub プロジェクト アドレス: https://github.com/dvlab-research/LongLoRA 論文アドレス: https://browse.arxiv.org/pdf/2309.12307.pdf |
<<: ディズニーは強化学習を利用して新しいロボットをスターウォーズ風に仕上げた
>>: 2024年以降に注目すべき10のジェネレーティブAIトレンド
人工知能は意識を発達させることができるか?これはアメリカのテレビシリーズ「ウエストワールド」で取り上...
最近、第7回ビジョンと学習セミナー(VALSE)が厦門大学で成功裏に終了しました。 VALSE は ...
人工知能の破壊的応用の増加、危機時のネットワークの役割の拡大、ポリシーとテクノロジー間の依存関係の高...
[[271788]]今月、オーストラリアのシドニーで2019年ロボカップ(ロボットワールドカップ)が...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[253255]] 1. 2018 年の世界の AI 業界の発展は非常に爆発的でした。...
[[355709]]現在、医療システムもさまざまな方法で人工知能の利点を取り入れています。人工知能(...
北京時間9日午前1時(米国現地時間5月8日午前10時)、カリフォルニア州マウンテンビューで2018 ...
1. セマンティックマッチングセマンティック マッチングは、検索の推奨、インテリジェントな質問と回答...
AI が OpenAI の内部闘争ドラマを変える...錦江の味がスクリーンから溢れ出てきます! イリ...
国連のアントニオ・グテーレス事務総長は現地時間10月26日、ニューヨークの国連本部で、AIがもたらす...
チャットボットは、実生活で人工知能を活用するための最も人気があり、広く採用され、敷居の低い方法の 1...