国内外のオープンソースモデルを競うLlama-2の初の総合評価

国内外のオープンソースモデルを競うLlama-2の初の総合評価

2023年7月を迎え、大規模言語モデル(LLM)の開発は新たな段階に入り、オープンソースが話題になっています

  • 7月6日、上海人工知能研究所とSenseTimeは共同でShusheng Puyuオープンソースシステム(https://github.com/InternLM)をリリースしました。これは、Shusheng Puyuの軽量版(InternLM-7B)をオープンソース化しただけでなく、データ、トレーニングから評価までのフルチェーンツールシステムのオープンソース化を先導し、完全に無料の商用ライセンスを提供しました。
  • 7月14日、Zhipu TechnologyはChatGLM2-6Bを商用利用のために無料で公開しました。
  • 7月19日、Meta はより強力な Llama-2 をオープンソース化し、より緩やかな商用ライセンスを提供しました。

オープンソース言語モデルの新たな波に直面して、チューリング賞受賞者のヤン・ルカン氏はTwitterで次のようにコメントした。

これにより、LLM 市場の状況は変化するでしょう。

しかし、オープンソース モデルのパフォーマンスは業界の熱い期待に応えることができるでしょうか?

Llama-2シリーズのオープンソースモデルを入手した後、OpenCompass (https://opencompass.org.cn)を通じて総合的な評価を実施しました。

ラマ2の強さは?

Llama-1 と比較して、Llama-2 には多くの技術的な改善が加えられており、モデルのパフォーマンス、推論効率、セキュリティが効果的に向上しています。具体的には、重要な改善点は次のとおりです。

  • モデル アーキテクチャでは、Group-Query-Attention (GQA) を使用してモデルの推論効率を向上させ、コンテキストの長さを 2K から 4K に倍増しました。
  • 事前トレーニング コーパスは 1.4T トークンから 2T トークンに増加しました。
  • 教師あり微調整 (SFT) 段階では、データセットの品質に重点が置かれます。より少ないが高品質の SFT データを使用すると、何百万もの公開 SFT データを使用する場合と比較して、効果が大幅に向上します。
  • モデルの安全性を向上させるために、3 つの安全トレーニング テクノロジ (Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation) が導入されました。

前世代と比較して、パフォーマンスは大幅に向上しましたが、ChatGPTに匹敵するのはまだ困難です。

では、Llama-2 の全体的な機能は何でしょうか?

公式の技術レポートには約 20 のデータ セットに関するテスト結果が示されていますが、評価機能の次元はまだ限られており、比較されたモデルは十分に包括的ではありません。

ここでは、オープンソースの評価ツールである OpenCompass を使用して、Llama-2 がリリースしたさまざまなモデルを40 を超える評価セットで包括的に評価し、規律、言語、知識、理解、推論という 5 つの側面から大規模モデルの機能を包括的に測定します。

結果は次のレーダーチャートにまとめられます。

次の表は、いくつかの代表的な評価セットにおける Llama、Llama-2、ChatGPT のパフォーマンスを示しています。

より包括的かつ詳細な評価結果については、https://opencompass.org.cn をご覧ください。

前世代モデルと比較して、全面的に改良されました。

総合的な能力の観点から見ると、 Llama-2-70B (緑)Llama-1-65B (紫)よりも優れており、Llama-1 と比較して言語、知識、推論、理解、規律などの能力の面で明らかな改善が見られます。たとえば、総合試験セットの MMLU スコアは 63.71 から 69.75 に増加し、GSM8K スコアは 54.51 から 63.46 に増加しました。

ダイアログと台座モデルは基本的に同じです。

微調整され調整されたモデルLlama-2-70B-Chat(黄色)は、ベースモデルLlama-2-70B(緑)と基本的に同じ総合能力を備えています。ベースと比較すると、言語、推論、理解のパフォーマンスが向上しましたが、総合的な主題能力と知識能力はわずかに低下しています。たとえば、翻訳評価セット Flores とコード評価セット HumanEval では、Chat モデルの相対的な改善はそれぞれ 40% 以上と 20% を超えていますが、MMLU と TrivialQA では相対的に約 10% 減少しています。

ChatGPT とはまだ大きな差があります。

ChatGPT-0613(青)と比較すると、 Llama-2-70B-Chat(黄)は、特に推論能力、理解力、包括的な主題能力において、まだ追いつく必要があります。数学評価セット MATH とコード評価セット HumanEval の間のギャップは 2 倍以上です。

中国語の能力は明らかに弱い

Llama のトレーニング コーパスでは、中国語が占める割合が比較的小さく、微調整の段階で中国語に対する最適化が行われなかったため、現在の Llama-2-Chat は中国語の問題に関してまだ不十分です。

典型的な例としては、中国語の質問に対しても、モデルは英語で答えるというものがあります。

Llama-2 の中国語と英語の機能をより深く理解するために、OpenCompass から中国語と英語のデータセットを選択し、個別に分析しました。

結果は次のようになります:

  • Llama-2 は、英語能力、知識レベル、理解力の点ですでに ChatGPT に近いレベルにあります。
  • Llama-2 は、中国の能力のあらゆる面で ChatGPT より劣っています。この結果は、Llama-2 自体が、中国語のアプリケーションを直接サポートするためのベースモデルとしては特に良い選択ではないことを示しています。
  • 推論能力の面では、中​​国語でも英語でも、Llama-2 は ChatGPT とまだ大きな差があります。このことから、大規模なモデルの場合、推論能力を向上させることは基本的な言語スキルを向上させることよりもはるかに難しいことがわかります。

安全な配置はモデルを過度に慎重にする

Llama-2 の主な特徴は、トレーニング中に比較的完全なセキュリティ アライメント ソリューションを使用することで、値のアライメントとセキュリティが大幅に向上することです。

しかし、テスト中に、Llama-2 はセキュリティとモデル機能の間で特に良いバランスをとっていないこともわかりました。モデルは非常に慎重で、多くの一般的な質問に回答することを拒否しました

国産モデルも劣らない

ここ数カ月、国内の大型モデルは急速に発展しており、多くの企業や研究機関が独自の大型モデルを発表しており、その中には数千億のパラメータを持つものもある。

では、国内の大型モデルはLlama-2と比べてどのように機能するのでしょうか?多くの友人がこの件について懸念しています。

重量級モデルの比較

国内機関が公開している70B以上のモデルは、一般的にまだオープンソース化されておらず、内部テストAPIを通じて限定的なサービスを提供しているモデルも多く、多くの国内モデルの完全な評価データを入手することは依然として困難です。

OpenCompassでは、上海人工知能研究所とSenseTimeが複数の大学と共同でリリースした、数千億のパラメータを持つInterLM-104Bモデルがすでに総合的な評価結果を得ている。

この結果に基づいて、 Shusheng PuyuChatGPTのパフォーマンスをLlama-2と比較しました。

重量級モデルの比較では、Shusheng Pu Yu はほとんどの主流の評価セットで Llama-2 や ChatGPT を上回り、優れたパフォーマンスを発揮しました。具体的には、InternLM-104B は 43 の評価セットのうち 34 で ChatGPT を上回り、43 の評価セットのうち 41 で Llama-2-70B を上回りました。

中国語の試験はまだ先です。

中国語テスト評価セット CEval と大学入試評価セット GAOKAO-Bench の両方において、InternLM-104B は Llama2-70B を大幅に上回りました。

言語能力に若干優位性あり:

語彙理解、イディオム、翻訳などの評価セットを含む中国語と英語の基本的な言語タスクに関しては、InternLM-104B が優位であり、中国語の評価セットではその差はさらに大きくなります。

読解力の「学者」は名にふさわしい:

中国語と英語のさまざまな読解力評価セットにおいて、InternLM-104B は明らかな利点を示し、テキストセグメントから重要な情報を要約して理解する点で優れていました。

優れた推論能力:

常識的推論、数学的推論、総合的推論のさまざまなデータ セットにおいて、InternLM-104B は比較的安定したパフォーマンスを発揮し、Llama2-70B よりも一定の優位性があります。

クイズゲームは均等に分かれています:
BoolQ、CommonSenseQA、TrivialQA、NaturalQuestion などの知識質問応答評価セットでは、2 つのモデルのパフォーマンスは同等であり、知識レベルに大きな違いがないことが示されました。

コーディング能力はまちまちです。

InternLM-104B と Llama2-70B のコーディング機能は同等であり、HumanEval および MBPP データセットでは勝敗が決まります。

軽量モデルの比較

重量級トラックで皆が互いに競い合っている一方で、7B 重量級の軽量級トラックでのオープンソース モデルの競争も非常に活発です。

数多くの国内オープンソースモデルの中でも、百川知能がリリースしたBaichuan-7B 、清華大学とZhipu AIがリリースしたChatGLM2-6B 、上海人工知能研究所がリリースしたInternLM-7Bなどの優れたモデルが業界で広く注目を集めています。

私たちはこれらの国産モデルとLlama-2-7Bの包括的な評価と比較を実施しました。

次の表は、いくつかの代表的な評価セットにおけるこれらの 7B スケール モデルのパフォーマンスを示しています。

結果は、Llama-2が知識能力において明らかに優位性を持っていることを示しています。

しかし、科目、言語、推論、理解力の面では、InternLM と ChatGLM2 はどちらも Llama-2 を上回っており、InternLM の優位性は非常に明白です。

商用利用が無料になると

数か月前、Llama のオープンソースがコミュニティに火をつけ、多くの開発者や研究者に恩恵をもたらし、アルパカ ファミリー全体が誕生しました。残念ながら、そのプロトコルは商用利用を制限しており、企業は利用できません。

7月6日、世界人工知能大会で、Shusheng Puyuオープンソースシステムが正式にリリースされ、InterLM-7Bがオープンソース化され、無料の商用ライセンスが提供されました。

その後、開発動向やコミュニティの要請に応じて、ChatGLM2-6BやLlama2などのオープンソースモデルが次々と無料の商用利用に向けて推進されました。

オープンソース コミュニティの火花が業界に活気をもたらし、大規模モデルの実用化のハードルをさらに下げると信じています。

<<:  Alibaba Cloudは、Llama2トレーニングの展開を全面的にサポートする最初の企業であり、企業が独自の大規模モデルを迅速に構築できるように支援します。

>>:  Nature の論文が xAI の目標を検証、人間の認知 AI が宇宙の本質を探る、マスク氏: 黙ってろ、金やるぞ!

ブログ    
ブログ    
ブログ    

推薦する

人工知能の時代において、あなたの子供は15年後にどんな職業に就くことができるでしょうか?

12年後の2030年、現在の小中学生が就職を控える頃の世界は、1.現在の職業の多くが消滅し、2.2...

...

...

人工知能の3つの柱:アルゴリズム、計算能力、データ

AlphaGoとイ・セドルの世紀のマンマシン対決で、ついにAlphaGoが勝利した。では、人工知能の...

...

モノのインターネットはスマートな衛生設備を創り出し、都市環境の衛生を細かく管理します

旅行のピーク時に都市環境衛生がより大きな圧力に耐えられるか?清掃車両と清掃作業員をより適切に管理する...

日本音楽著作者団体連合会は、政府に対し、AI規制に関する議論を直ちに組織し、クリエイターの参加を求めるよう求める声明を発表した。

日本音楽著作者協会連合会(FCA)は6月15日、AIによる著作権の活用についての見解を公式サイトで発...

...

...

人工知能の現状と今後の動向

[[375724]]開発状況近年、デジタル経済の継続的な進歩を背景に、人工知能は急速に発展し、さまざ...

...

Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

100 日で機械学習: モデルのトレーニングが完了したら、次は何をする?

機械学習をマスターするための 100 日 | 1 日目から 62 日目までのコレクションみなさんこん...

...

100万個のニューロンをリアルタイムでスキャンできるようになりました。脳細胞活動の画像化における新たなブレークスルーです。

数年前なら、コンピューターが 10,000 個のニューロンの活動を同時に記録していたらニュースになっ...