「メタバージョンChatGPT」の背後にある技術:基本的なLLMが長いコンテキストをより適切に処理できるようにするには、事前トレーニングを継続するだけです

「メタバージョンChatGPT」の背後にある技術:基本的なLLMが長いコンテキストをより適切に処理できるようにするには、事前トレーニングを継続するだけです

大規模言語モデル (LLM) は、前例のない量のデータと計算を使用するため、デジタル世界とのやり取りの方法を根本的に変える可能性があります。 LLM が急速に実稼働環境に導入され、拡大と進化を続けるにつれて、これらのモデルは、豊富な知識を含む高密度のドキュメントの分析、より現実的で魅力的なチャットボット エクスペリエンスの提供、プログラミングやデザインなどのインタラクティブなクリエイティブ プロセスにおける人間のユーザーの支援など、より複雑で洗練されたユース ケースでサービスを提供できるようになることが予測されます。

この進化をサポートするために、モデルに必要な重要な機能は、長いコンテキスト入力を効率的に処理することです。

これまでのところ、堅牢なロングコンテキスト機能を備えた LLM は、主に Anthropic や OpenAI が提供する LLM サービスなどの独自の LLM API から提供されています。既存のオープンソースのロングコンテキスト モデルは評価研究が不足していることが多く、ロングコンテキスト機能は主に言語モデリングの損失と合成タスクを通じて測定されています。このような評価では、さまざまな現実のシナリオにおけるモデルの有効性を十分に実証することはできません。

さらに、これらのモデルは、標準的な短期コンテキストタスクで高いパフォーマンスを維持する必要性を無視することが多く、単に評価しないか、パフォーマンスの低下を報告します。

最近、Meta チームは新しい方法を提案し、基本モデルのコンテキスト機能を効果的に拡張できると主張しました。この方法を使用して構築されたロングコンテキスト LLM のパフォーマンスは、既存のすべてのオープンソース LLM よりも優れています。

論文: https://arxiv.org/abs/2309.16039

彼らは、さらに 4000 億トークンの長いトレーニング シーケンスを使用する LLaMA 2 チェックポイントで継続的に事前トレーニングすることでモデルを構築しました。トレーニングされたモデル ファミリでは、より小さな 7B/13B バリアントは 32,768 トークンのシーケンスを使用してトレーニングされ、34B/70B バリアントは 16,384 トークンのシーケンスを使用してトレーニングされました。

評価に関しては、以前のモデルの限定的な評価とは異なり、Meta チームは、言語モデリング、合成タスク、および長いコンテキストまたは短いコンテキストのタスクを含む多くの実際のベンチマーク タスクを網羅した、より包括的な評価研究を実施しました。

言語モデリングタスクでは、新しい方法でトレーニングされたモデルは、コンテキストの長さに関して明らかなべき乗則スケーリング動作を示します。図 1 に示すように、このスケーリング動作は、新しいモデルがより多くのコンテキストから一貫して恩恵を受けることができることを示しているだけでなく、コンテキストの長さが LLM のスケーリングにおける重要な軸であることも示しています。

研究者らは、研究ベンチマークにおける新しいモデルのパフォーマンスをベースライン LLaMA 2 と比較することで、新しいモデルは長いコンテキストのタスクでは明らかな優位性があり、短いコンテキストのタスクでは中程度の改善が見られ、特にプログラミング、数学、知識タスクのベンチマークで顕著であることを確認しました。

また、人間が注釈を付けたデータなしで継続的に事前トレーニングされた長いモデルを微調整するための、シンプルで費用対効果の高い指示微調整方法も検討しました。このアプローチから導き出されたチャット モデルは、質問への回答、要約、複数ドキュメントの集約など、さまざまな長時間コンテキストのベンチマーク タスクにおいて、全体的に gpt-3.5-turbo-16k よりも優れたパフォーマンスを発揮しました。

方法

継続的な事前トレーニング

注意計算はシーケンスの長さに比例して増加するため、トレーニングに長いシーケンスを使用すると計算オーバーヘッドが大幅に増加します。この問題を解決することがこの研究の主な目的です。

研究者たちは、短期コンテキストモデルを継続的に事前トレーニングすることで、モデルを文脈的に対応可能にすることができると仮説を立てています。その後、彼らは実験を通じてこの推測を検証しました。

実験では、オリジナルの LLaMA 2 のアーキテクチャは基本的に変更せず、より長いシーケンスをカバーできるように位置エンコーディングに必要な変更のみを加えました。さらに、LLaMA 2 70B モデルの次元は h=8192 であり、シーケンスの長さが 49,152 (6h) トークンを超えた場合にのみ、アテンション マトリックスの計算と値の集約のコストが計算上のボトルネックになるため、スパース アテンションを使用しないことを選択しました。

位置エンコーディング。研究者たちは、7B モデルの初期実験を通じて、LLaMA 2 の位置エンコーディング (PE) の重要な制限を発見しました。この制限により、注意モジュールが離れたトークンからの情報を集約できなくなります。この問題を解決し、モデルが長いコンテキスト モデリングを処理できるようにするために、研究者は RoPE 位置エンコード メソッドに小さいながらも必要な変更を加えました。具体的には、回転角度 (ハイパーパラメータ ベース周波数 b によって制御) を減らし、遠方のトークンに対する RoPE の減衰効果を減らしました。研究者らは、この単純な方法が LLaMA コンテキスト長を拡張する上で有効であることを実験的に実証し、理論的な説明も提供しました。

データの混合。研究者らは、修正された位置エンコーディングを使用したモデルに基づいて、LLaMA 2 事前トレーニング データの割合の調整や新しい長いテキスト データの追加など、さまざまなデータ混合方法が長いコンテキスト機能の向上に果たす役割をさらに調査しました。研究者たちは、長いテキストの継続的な事前トレーニングでは、テキストの長さよりもデータの品質の方が重要であることが多いことを発見しました。

詳細を最適化します。では、継続的な事前トレーニングをどのように実現するのでしょうか? LLaMA 2 チェックポイント モデルの事前トレーニングを継続すると、LLaMA 2 の各データ バッチで同じトークン量を確保しながら、シーケンスの長さを継続的に増やしていくことが報告されています。すべてのモデルは合計 4,000 億のトークンを使用して 100,000 ステップトレーニングされました。 Dao ら (2022) が提案した FlashAttention を使用すると、シーケンス長を増やしても GPU メモリのオーバーヘッドはほぼ無視できます。研究者らは、70B モデルの場合、シーケンス長が 4096 から 16384 に増加すると速度が約 17% 低下することを観察しました。 7B/13Bモデルでは、学習率2e^−5と、ウォームアップステップ2000ステップのコサイン学習率スケジュールを使用しました。より大きな 34B/70B モデルの場合、検証損失が単調に減少するように、より小さな学習率 (1e^-5) を設定することが重要であることが研究チームによって判明しました。

指示の微調整

LLM アライメント タスクのために人間のデモンストレーションと好みのラベルを収集するのは、面倒で費用のかかるプロセスです。この課題とコストは、長いコンテキストのタスクではより顕著になります。これらのタスクには、情報量の多い法的/科学的文書の処理など、複雑な情報フローと専門知識が伴うことが多く、これらの注釈タスクは熟練した注釈者にとっても簡単なものではありません。実際、既存のオープンソースの指導データセットのほとんどは、主に短いサンプルで構成されています。

この問題に対処するために、Meta 研究チームは、すでに構築された大規模で多様な短いプロンプトのデータセットを活用し、長いコンテキストのベンチマーク タスクに適したシンプルで低コストのアプローチを発見しました。

具体的には、LLaMA 2 Chat で使用される RLHF データセットを取得し、LLaMA 2 Chat 自体によって合成された自己指示の長いデータでそれを拡張しました。研究者らは、このモデルが大量のRLHFデータを通じて多様なスキルセットを学習し、学習した知識を自己指導データを通じて長期コンテキストのシナリオに転送できることを期待していると述べた。

このデータ生成プロセスは、質問と回答の形式のタスクに重点を置いています。つまり、事前にトレーニングされたライブラリからの長いドキュメントから開始し、そこからテキスト ブロックをランダムに選択し、テキスト ブロックの情報に基づいてペアになった質問と回答を作成するように LLaMA 2 Chat に指示します。研究者たちは、さまざまな質問に対する長文と短文の両方の回答を収集しました。

自己批評のステップもあり、これは LLaMA 2 Chat にプロンプ​​トを通じてモデルによって生成された回答を検証するよう依頼するものです。生成された質問と回答のペアが与えられた場合、元の長いドキュメント(モデルの最大コンテキスト長に合わせて切り捨てられたもの)をコンテキストとして使用してトレーニング インスタンスを構築します。

短い命令データの場合、研究者はそれらを長さ 16,384 トークンのシーケンスに接続します。長い命令データの場合、モデルが各長いインスタンスを切り捨てずに個別に処理できるように、右側にパディング トークンを追加します。

標準的な命令の微調整では出力トークンの損失のみが計算されますが、チームは長い入力プロンプトの言語モデリング損失も計算すると、下流のタスクで安定した一貫した改善が得られるため、特に有益であることを発見しました。

主な結果

事前学習済みモデルの評価

表 1 は、標準的な短期コンテキスト ベンチマーク タスクのパフォーマンスをまとめたものです。

表 2 に示すように、短いコンテキスト タスクでは、新しい方法を使用して得られたモデルは、MMLU および GSM8k で GPT-3.5 よりも優れたパフォーマンスを発揮します。

表 3 に示すように、長いコンテキストのタスクでは、新しいモデルの方が全体的に優れたパフォーマンスを発揮します。 7B スケール モデルでは、Together-7B-32k のみが新しいモデルと同等のパフォーマンスを達成しました。

コンテキストを効果的に活用します。新しいモデルが実際に拡大されたコンテキスト ウィンドウを効果的に使用できることを確認するために、図 2 から、各長いタスクの結果がコンテキストの長さの増加とともに単調に改善されることがわかります。研究者らはまた、新しいモデルの言語モデリング損失とコンテキストの長さの間にはべき乗法則と一定のスケーリング関係があることを発見しました (図 1 を参照)。これは次のことを示しています。

  • 言語モデリングタスクでは、コンテキストの長さが 32,768 トークンまで長くなるにつれて、新しいモデルのパフォーマンスは向上し続けますが、その後は向上幅が小さくなります。
  • これらの曲線のβ値からわかるように、モデルが大きいほどコンテキストがより効果的に活用されます。

指示の微調整結果

表 4 に示すように、人間が注釈を付けた長いコンテキスト データを使用せずに、新しくトレーニングされた 70B 規模のチャット モデルは、10 個のタスクのうち 7 個で gpt-3.5-turbo-16k よりも優れたパフォーマンスを発揮します。

人間による評価

比較した各例の結果を平均すると、新しいモデルが実験内の他のすべてのモデルよりも優れていることがわかります。図 3 は、最終スコアと 95% 信頼区間を示しています。

命令データが少ない場合でも、新しい方法で得られたモデルのパフォーマンスは、MPT-30B-chat、GPT-3.5-turbo-16k、Claude-2 に匹敵します。

分析する

図 4 は、基本周波数を変更した場合の効果を示しています。

これらの評価に基づくと、提案された RoPE ABF (ベースバンド調整付き RoPE) は、比較した他のすべての方法よりも全体的に優れています。

表7は、7Bモデル実験による長期コンテキストタスクに使用されるデータ混合方法の改善を示しています。

研究者らはまた、表 8 に示すように、新しいデータ混合方法が多くの場合、特に MMLU などの知識集約型タスクで大幅な改善をもたらす可能性があることも発見しました。

これらの結果は、非常に限られた長いデータであっても、ロングコンテキスト LLM を効果的にトレーニングできることを示しています。さらに研究者らは、LLaMA 2 が使用した事前トレーニング データと比較して、このチームが使用したデータの利点は、長さの分布の違いではなく、データ自体の品質にあると述べています。

表 9 は、命令の微調整と呼ばれる簡単なトリックにより、入力と出力の長さが不均衡な場合でもモデルをより安定させることができ、ほとんどのテスト タスクで大幅な改善が得られることを示しています。

表 10 と 11 は、ショートコンテキスト モデルの継続的な事前トレーニングにより、パフォーマンスをほとんど損なうことなく、FLOP を約 40% 簡単に節約できることを示しています。

AIの安全性

AI の安全性に関して、研究者らは、LLaMA 2 Chat と比較して、命令調整モデルは全体的に同様の安全性パフォーマンスを維持できること、また、Falcon-instruct や MPT-instruct などの他のオープンソース LLM と比較して、命令調整モデルはより安全で偏りが少ないことを観察しました。

中国語著者紹介

ウェンハン・シオン

Wenhan Xiong は現在、Meta Generative AI の研究科学者です。中国科学技術大学で学士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。彼の研究は、複雑で専門的な長いテキストを処理できる大規模な言語モデルの構築に専念しています。彼は、Code Llama を含む複数の研究プロジェクトに参加しています。博士課程では、オープンな質問応答システムと検索強化型自然言語処理の構築に重点的に取り組んでいました。

個人ホームページ: https://xwhan.github.io/

劉静宇

Jingyu Liu は現在、ETH チューリッヒの修士課程に在籍しています。ニューヨーク大学のコンピューターサイエンス学部を卒業しています。以前は、Meta Generative AI で大規模言語モデルに取り組んでいました。Code Llama を含む複数の研究プロジェクトに参加しています。

Google Scholar: https://scholar.google.com/citations?user=jidrykQAAAAJ&hl=en

張 和佳

Hejia Zhang は現在、Meta Generative AI グループの上級研究科学者です。主に Meta の基本的な大規模モデル、AI エージェント、および Meta 製品ラインでのそれらのアプリケーションを研究しています。以前は、Meta 推奨システムおよび人工知能グループで自然言語処理関連の研究を行っていました。彼女はライス大学で学士号(電気工学と応用数学の二重学位)を取得し、プリンストン大学で博士号(電気工学と神経科学の共同学位)を取得しました。

Google Scholar: https://scholar.google.com/citations?user=bI0cfykAAAAJ&hl=en

ホウ・ルイ

Rui Hou は現在、Meta GenAI の研究科学者として、生成 AI テクノロジーと関連する生産アプリケーションに重点を置いています。彼はトヨタ・リサーチ・インスティテュートなどの機関でインターンシップを経験した後、2020年4月にMetaに入社しました。

同済大学で学士号を取得し、ミシガン大学で修士号(インテリジェントシステムとコンピュータサイエンスのダブルディグリー)と博士号(インテリジェントシステム)を取得しました。

Google Scholar: https://scholar.google.com/citations?user=PKHKqX0AAAAJ&hl=en

アンジェラ・ファン

アンジェラ・ファンは、機械翻訳を専門とするMeta AI Research Parisの研究科学者です。彼女は以前、ナンシーのINRIAとパリのFAIRでテキスト生成に焦点を当てて博士号を取得しました。それ以前は研究エンジニアとして働き、ハーバード大学で統計学の学士号を取得しました。

個人ホームページ: https://ai.meta.com/people/angela-fan/

ハン・ファン

Han Fang は現在、Meta Generative AI グループのシニア マネージャーとして、Meta における AI エージェントと LLAMA のアプリケーション開発を担当しています。以前は、Meta 推奨システムと人工知能グループに勤務していました。彼は中山大学で学士号を取得し、ニューヨーク州立大学ストーニーブルック校で応用数学と統計学の博士号を取得しました。

個人ホームページ: https://ai.meta.com/people/han-fang/

ワン・シノン

Sinong Wang は現在、Meta の上級主席科学者であり、Meta Generative AI グループの技術リーダーです。現在、Meta の基本的な大規模モデルと AI エージェントの開発、およびそれらの Meta 製品ラインへのアプリケーションの開発を主導しています。以前は、Meta AI で自然言語処理、トランスフォーマー アーキテクチャ、(言語/画像) マルチモーダル研究に携わっていました。彼はオハイオ州立大学で電気およびコンピュータ工学の博士号を取得し、ACM/IEEE Best Paper Awards を複数回受賞しています。

個人ホームページ: https://sites.google.com/site/snongwang/

ハオ・マ

Hao Ma は現在、Meta Generative AI グループのディレクターを務めており、大規模モデルと音声ベースモデルの研究と製品への応用を担当しています。以前は、Meta Discovery グループで次世代 AI 推奨システムと AI セキュリティ システムの開発を担当していました。以前は、Microsoft Research の研究マネージャーとして勤務し、Bing のナレッジ グラフの開発を担当していました。彼は香港中文大学でコンピュータサイエンスの博士号を取得し、ACM Test-of-Time 賞を数回受賞しています。

個人ホームページ: https://www.haoma.io/

<<:  CityDreamer: ワンクリックで境界のない 3D 都市を生成

>>:  ByteDanceのLi Hang: 言語ビッグモデルに関するいくつかの観察と考察

ブログ    

推薦する

百度の王海鋒氏:マルチモーダルな深い意味理解により、AIは現実世界をよりよく理解できるようになる

7月4日に開催された百度AI開発者会議(Baidu Create 2018)で、百度上級副社長兼AI...

認知知能を業界の奥深くまで導くWAIC Baiduが言語と知識技術の完全なレイアウトを公開

言語は機械と人間をつなぐ重要な経路であり、機械が現実世界を深く理解するためには知識が必要です。 8月...

AIは医者と同等でしょうか?

2016年3月以来、AlphaGoと呼ばれるロボットが、有名な囲碁プレイヤーであるイ・セドルと柯潔...

...

ChatGPTはユーザーがペイウォールを回避できないようにBing検索へのアクセスを停止

7月5日のニュース、6月28日、OpenAIのチャットボットChatGPTは、MicrosoftのB...

世界の主要なテクノロジー企業は新型コロナウイルスとどう戦っているのか?

[[319653]]新型コロナウイルスは、ウイルス自体の急速な拡散という点だけでなく、ますます多く...

...

...

中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?外国人は信じられないと言う

写真は人工知能中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?多くの中国人は...

AI開発シンポジウム:機械学習を農家に役立てる方法について議論

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

工業情報化部:電話ネットワークアクセスの物理チャネルに肖像マッチング技術を導入

今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...

詳細 | ビッグデータアルゴリズムアプリケーションのテストの開発

[[389157]]この記事では、アリババ AI ミドルプラットフォームの技術品質システム、つまり検...

人工知能(AI)が商業ビルのアプリケーションで成功を収める

[[359215]]今日、ビッグデータやモノのインターネットなどのテクノロジーが広く応用されるように...

...