国内外のオープンソースモデルを競うLlama-2の初の総合評価

2023年7月を迎え、大規模言語モデル（LLM）の開発は新たな段階に入り、オープンソースが話題になっています。

7月6日、上海人工知能研究所とSenseTimeは共同でShusheng Puyuオープンソースシステム（https://github.com/InternLM）をリリースしました。これは、Shusheng Puyuの軽量版（InternLM-7B）をオープンソース化しただけでなく、データ、トレーニングから評価までのフルチェーンツールシステムのオープンソース化を先導し、完全に無料の商用ライセンスを提供しました。
7月14日、Zhipu TechnologyはChatGLM2-6Bを商用利用のために無料で公開しました。
7月19日、Meta はより強力な Llama-2 をオープンソース化し、より緩やかな商用ライセンスを提供しました。

オープンソース言語モデルの新たな波に直面して、チューリング賞受賞者のヤン・ルカン氏はTwitterで次のようにコメントした。

これにより、LLM 市場の状況は変化するでしょう。

しかし、オープンソースモデルのパフォーマンスは業界の熱い期待に応えることができるでしょうか?

Llama-2シリーズのオープンソースモデルを入手した後、OpenCompass （https://opencompass.org.cn）を通じて総合的な評価を実施しました。

ラマ2の強さは？

Llama-1 と比較して、Llama-2 には多くの技術的な改善が加えられており、モデルのパフォーマンス、推論効率、セキュリティが効果的に向上しています。具体的には、重要な改善点は次のとおりです。

モデルアーキテクチャでは、Group-Query-Attention (GQA) を使用してモデルの推論効率を向上させ、コンテキストの長さを 2K から 4K に倍増しました。
事前トレーニングコーパスは 1.4T トークンから 2T トークンに増加しました。
教師あり微調整 (SFT) 段階では、データセットの品質に重点が置かれます。より少ないが高品質の SFT データを使用すると、何百万もの公開 SFT データを使用する場合と比較して、効果が大幅に向上します。
モデルの安全性を向上させるために、3 つの安全トレーニングテクノロジ (Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation) が導入されました。

前世代と比較して、パフォーマンスは大幅に向上しましたが、ChatGPTに匹敵するのはまだ困難です。

では、Llama-2 の全体的な機能は何でしょうか?

公式の技術レポートには約 20 のデータセットに関するテスト結果が示されていますが、評価機能の次元はまだ限られており、比較されたモデルは十分に包括的ではありません。

ここでは、オープンソースの評価ツールである OpenCompass を使用して、Llama-2 がリリースしたさまざまなモデルを40 を超える評価セットで包括的に評価し、規律、言語、知識、理解、推論という 5 つの側面から大規模モデルの機能を包括的に測定します。

結果は次のレーダーチャートにまとめられます。

次の表は、いくつかの代表的な評価セットにおける Llama、Llama-2、ChatGPT のパフォーマンスを示しています。

より包括的かつ詳細な評価結果については、https://opencompass.org.cn をご覧ください。

前世代モデルと比較して、全面的に改良されました。

総合的な能力の観点から見ると、 Llama-2-70B (緑)はLlama-1-65B (紫)よりも優れており、Llama-1 と比較して言語、知識、推論、理解、規律などの能力の面で明らかな改善が見られます。たとえば、総合試験セットの MMLU スコアは 63.71 から 69.75 に増加し、GSM8K スコアは 54.51 から 63.46 に増加しました。

ダイアログと台座モデルは基本的に同じです。

微調整され調整されたモデルLlama-2-70B-Chat（黄色）は、ベースモデルLlama-2-70B（緑）と基本的に同じ総合能力を備えています。ベースと比較すると、言語、推論、理解のパフォーマンスが向上しましたが、総合的な主題能力と知識能力はわずかに低下しています。たとえば、翻訳評価セット Flores とコード評価セット HumanEval では、Chat モデルの相対的な改善はそれぞれ 40% 以上と 20% を超えていますが、MMLU と TrivialQA では相対的に約 10% 減少しています。

ChatGPT とはまだ大きな差があります。

ChatGPT-0613（青）と比較すると、 Llama-2-70B-Chat（黄）は、特に推論能力、理解力、包括的な主題能力において、まだ追いつく必要があります。数学評価セット MATH とコード評価セット HumanEval の間のギャップは 2 倍以上です。

中国語の能力は明らかに弱い

Llama のトレーニングコーパスでは、中国語が占める割合が比較的小さく、微調整の段階で中国語に対する最適化が行われなかったため、現在の Llama-2-Chat は中国語の問題に関してまだ不十分です。

典型的な例としては、中国語の質問に対しても、モデルは英語で答えるというものがあります。

Llama-2 の中国語と英語の機能をより深く理解するために、OpenCompass から中国語と英語のデータセットを選択し、個別に分析しました。

結果は次のようになります:

Llama-2 は、英語能力、知識レベル、理解力の点ですでに ChatGPT に近いレベルにあります。
Llama-2 は、中国の能力のあらゆる面で ChatGPT より劣っています。この結果は、Llama-2 自体が、中国語のアプリケーションを直接サポートするためのベースモデルとしては特に良い選択ではないことを示しています。
推論能力の面では、中国語でも英語でも、Llama-2 は ChatGPT とまだ大きな差があります。このことから、大規模なモデルの場合、推論能力を向上させることは基本的な言語スキルを向上させることよりもはるかに難しいことがわかります。

安全な配置はモデルを過度に慎重にする

Llama-2 の主な特徴は、トレーニング中に比較的完全なセキュリティアライメントソリューションを使用することで、値のアライメントとセキュリティが大幅に向上することです。

しかし、テスト中に、Llama-2 はセキュリティとモデル機能の間で特に良いバランスをとっていないこともわかりました。モデルは非常に慎重で、多くの一般的な質問に回答することを拒否しました。

国産モデルも劣らない

ここ数カ月、国内の大型モデルは急速に発展しており、多くの企業や研究機関が独自の大型モデルを発表しており、その中には数千億のパラメータを持つものもある。

では、国内の大型モデルはLlama-2と比べてどのように機能するのでしょうか?多くの友人がこの件について懸念しています。

重量級モデルの比較

国内機関が公開している70B以上のモデルは、一般的にまだオープンソース化されておらず、内部テストAPIを通じて限定的なサービスを提供しているモデルも多く、多くの国内モデルの完全な評価データを入手することは依然として困難です。

OpenCompassでは、上海人工知能研究所とSenseTimeが複数の大学と共同でリリースした、数千億のパラメータを持つInterLM-104Bモデルがすでに総合的な評価結果を得ている。

この結果に基づいて、 Shusheng PuyuとChatGPTのパフォーマンスをLlama-2と比較しました。

重量級モデルの比較では、Shusheng Pu Yu はほとんどの主流の評価セットで Llama-2 や ChatGPT を上回り、優れたパフォーマンスを発揮しました。具体的には、InternLM-104B は 43 の評価セットのうち 34 で ChatGPT を上回り、43 の評価セットのうち 41 で Llama-2-70B を上回りました。

中国語の試験はまだ先です。

中国語テスト評価セット CEval と大学入試評価セット GAOKAO-Bench の両方において、InternLM-104B は Llama2-70B を大幅に上回りました。

言語能力に若干優位性あり:

語彙理解、イディオム、翻訳などの評価セットを含む中国語と英語の基本的な言語タスクに関しては、InternLM-104B が優位であり、中国語の評価セットではその差はさらに大きくなります。

読解力の「学者」は名にふさわしい:

中国語と英語のさまざまな読解力評価セットにおいて、InternLM-104B は明らかな利点を示し、テキストセグメントから重要な情報を要約して理解する点で優れていました。

優れた推論能力:

常識的推論、数学的推論、総合的推論のさまざまなデータセットにおいて、InternLM-104B は比較的安定したパフォーマンスを発揮し、Llama2-70B よりも一定の優位性があります。

クイズゲームは均等に分かれています:
BoolQ、CommonSenseQA、TrivialQA、NaturalQuestion などの知識質問応答評価セットでは、2 つのモデルのパフォーマンスは同等であり、知識レベルに大きな違いがないことが示されました。

コーディング能力はまちまちです。

InternLM-104B と Llama2-70B のコーディング機能は同等であり、HumanEval および MBPP データセットでは勝敗が決まります。

軽量モデルの比較

重量級トラックで皆が互いに競い合っている一方で、7B 重量級の軽量級トラックでのオープンソースモデルの競争も非常に活発です。

数多くの国内オープンソースモデルの中でも、百川知能がリリースしたBaichuan-7B 、清華大学とZhipu AIがリリースしたChatGLM2-6B 、上海人工知能研究所がリリースしたInternLM-7Bなどの優れたモデルが業界で広く注目を集めています。

私たちはこれらの国産モデルとLlama-2-7Bの包括的な評価と比較を実施しました。

次の表は、いくつかの代表的な評価セットにおけるこれらの 7B スケールモデルのパフォーマンスを示しています。

結果は、Llama-2が知識能力において明らかに優位性を持っていることを示しています。

しかし、科目、言語、推論、理解力の面では、InternLM と ChatGLM2 はどちらも Llama-2 を上回っており、InternLM の優位性は非常に明白です。

商用利用が無料になると

数か月前、Llama のオープンソースがコミュニティに火をつけ、多くの開発者や研究者に恩恵をもたらし、アルパカファミリー全体が誕生しました。残念ながら、そのプロトコルは商用利用を制限しており、企業は利用できません。

7月6日、世界人工知能大会で、Shusheng Puyuオープンソースシステムが正式にリリースされ、InterLM-7Bがオープンソース化され、無料の商用ライセンスが提供されました。

その後、開発動向やコミュニティの要請に応じて、ChatGLM2-6BやLlama2などのオープンソースモデルが次々と無料の商用利用に向けて推進されました。

オープンソースコミュニティの火花が業界に活気をもたらし、大規模モデルの実用化のハードルをさらに下げると信じています。

<<: Alibaba Cloudは、Llama2トレーニングの展開を全面的にサポートする最初の企業であり、企業が独自の大規模モデルを迅速に構築できるように支援します。

>>: Nature の論文が xAI の目標を検証、人間の認知 AI が宇宙の本質を探る、マスク氏: 黙ってろ、金やるぞ!

国内外のオープンソースモデルを競うLlama-2の初の総合評価

ラマ2の強さは？

前世代と比較して、パフォーマンスは大幅に向上しましたが、ChatGPTに匹敵するのはまだ困難です。

中国語の能力は明らかに弱い

安全な配置はモデルを過度に慎重にする

国産モデルも劣らない

重量級モデルの比較

軽量モデルの比較

商用利用が無料になると

AIとERPが出会うとどんな「化学反応」が起こるのでしょうか？

RPA の利点と欠点は何ですか?

ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

データ汚染を防ぐのは困難です。機械学習モデルに「悪いことを学習」させないでください

内部テスト中です！ Word、Excel、Outlookに機械学習が搭載される

「顔認証」と「指紋認証」どちらが安全でしょうか？多くの人が間違っていた

Zhihu のホットトピック: 今後 3 ～ 5 年で、機械学習の人材が最も不足する分野はどれでしょうか?

スポーツへの人工知能とビッグデータの導入は、市場を混乱させたり、破壊したりするのでしょうか?

OpenAI のセキュリティ脆弱性が明らかに: ChatGPT の制限は一般的でない言語を使用することで簡単に回避可能

推薦する

効果はSDXLを超える！香港中文大学の博士課程学生が3億4000万枚の画像でトレーニングした超リアルな肖像画合成ツールを発表

ビッグデータアーキテクチャの詳細解説：データ取得からディープラーニングまで

AI支援ツールを使用してソフトウェア要件を定義する

CLImF アルゴリズムを使用して推奨システムを設計する方法

Pythonでゲームボーイエミュレーターを作成し、AIモデルをトレーニングする:デンマーク人の大学のプロジェクトが大ヒット

2021 年に注目すべき 9 つの IoT トレンド

世界初の翻訳エンジンが進化して復活、「細部にこだわり」方言もマスター

5G、Wi-Fi 6、AIがいかにしてよりスマートなホームエクスペリエンスを実現するか

百度が「AI+X」を実践、AI教育が未来に向けて加速

AIチップは誤った提案か？

2020年のトレンドの方向性: 産業用インターネットの人工知能アプリケーションが基礎となる