2023年7月を迎え、大規模言語モデル(LLM)の開発は新たな段階に入り、オープンソースが話題になっています。
オープンソース言語モデルの新たな波に直面して、チューリング賞受賞者のヤン・ルカン氏はTwitterで次のようにコメントした。
しかし、オープンソース モデルのパフォーマンスは業界の熱い期待に応えることができるでしょうか? Llama-2シリーズのオープンソースモデルを入手した後、OpenCompass (https://opencompass.org.cn)を通じて総合的な評価を実施しました。 ラマ2の強さは?Llama-1 と比較して、Llama-2 には多くの技術的な改善が加えられており、モデルのパフォーマンス、推論効率、セキュリティが効果的に向上しています。具体的には、重要な改善点は次のとおりです。
前世代と比較して、パフォーマンスは大幅に向上しましたが、ChatGPTに匹敵するのはまだ困難です。では、Llama-2 の全体的な機能は何でしょうか? 公式の技術レポートには約 20 のデータ セットに関するテスト結果が示されていますが、評価機能の次元はまだ限られており、比較されたモデルは十分に包括的ではありません。 ここでは、オープンソースの評価ツールである OpenCompass を使用して、Llama-2 がリリースしたさまざまなモデルを40 を超える評価セットで包括的に評価し、規律、言語、知識、理解、推論という 5 つの側面から大規模モデルの機能を包括的に測定します。 結果は次のレーダーチャートにまとめられます。 次の表は、いくつかの代表的な評価セットにおける Llama、Llama-2、ChatGPT のパフォーマンスを示しています。 より包括的かつ詳細な評価結果については、https://opencompass.org.cn をご覧ください。 前世代モデルと比較して、全面的に改良されました。 総合的な能力の観点から見ると、 Llama-2-70B (緑)はLlama-1-65B (紫)よりも優れており、Llama-1 と比較して言語、知識、推論、理解、規律などの能力の面で明らかな改善が見られます。たとえば、総合試験セットの MMLU スコアは 63.71 から 69.75 に増加し、GSM8K スコアは 54.51 から 63.46 に増加しました。 ダイアログと台座モデルは基本的に同じです。 微調整され調整されたモデルLlama-2-70B-Chat(黄色)は、ベースモデルLlama-2-70B(緑)と基本的に同じ総合能力を備えています。ベースと比較すると、言語、推論、理解のパフォーマンスが向上しましたが、総合的な主題能力と知識能力はわずかに低下しています。たとえば、翻訳評価セット Flores とコード評価セット HumanEval では、Chat モデルの相対的な改善はそれぞれ 40% 以上と 20% を超えていますが、MMLU と TrivialQA では相対的に約 10% 減少しています。 ChatGPT とはまだ大きな差があります。 ChatGPT-0613(青)と比較すると、 Llama-2-70B-Chat(黄)は、特に推論能力、理解力、包括的な主題能力において、まだ追いつく必要があります。数学評価セット MATH とコード評価セット HumanEval の間のギャップは 2 倍以上です。 中国語の能力は明らかに弱いLlama のトレーニング コーパスでは、中国語が占める割合が比較的小さく、微調整の段階で中国語に対する最適化が行われなかったため、現在の Llama-2-Chat は中国語の問題に関してまだ不十分です。 典型的な例としては、中国語の質問に対しても、モデルは英語で答えるというものがあります。 Llama-2 の中国語と英語の機能をより深く理解するために、OpenCompass から中国語と英語のデータセットを選択し、個別に分析しました。 結果は次のようになります:
安全な配置はモデルを過度に慎重にするLlama-2 の主な特徴は、トレーニング中に比較的完全なセキュリティ アライメント ソリューションを使用することで、値のアライメントとセキュリティが大幅に向上することです。 しかし、テスト中に、Llama-2 はセキュリティとモデル機能の間で特に良いバランスをとっていないこともわかりました。モデルは非常に慎重で、多くの一般的な質問に回答することを拒否しました。 国産モデルも劣らないここ数カ月、国内の大型モデルは急速に発展しており、多くの企業や研究機関が独自の大型モデルを発表しており、その中には数千億のパラメータを持つものもある。 では、国内の大型モデルはLlama-2と比べてどのように機能するのでしょうか?多くの友人がこの件について懸念しています。 重量級モデルの比較国内機関が公開している70B以上のモデルは、一般的にまだオープンソース化されておらず、内部テストAPIを通じて限定的なサービスを提供しているモデルも多く、多くの国内モデルの完全な評価データを入手することは依然として困難です。 OpenCompassでは、上海人工知能研究所とSenseTimeが複数の大学と共同でリリースした、数千億のパラメータを持つInterLM-104Bモデルがすでに総合的な評価結果を得ている。 この結果に基づいて、 Shusheng PuyuとChatGPTのパフォーマンスをLlama-2と比較しました。 重量級モデルの比較では、Shusheng Pu Yu はほとんどの主流の評価セットで Llama-2 や ChatGPT を上回り、優れたパフォーマンスを発揮しました。具体的には、InternLM-104B は 43 の評価セットのうち 34 で ChatGPT を上回り、43 の評価セットのうち 41 で Llama-2-70B を上回りました。 中国語の試験はまだ先です。 中国語テスト評価セット CEval と大学入試評価セット GAOKAO-Bench の両方において、InternLM-104B は Llama2-70B を大幅に上回りました。 言語能力に若干優位性あり: 語彙理解、イディオム、翻訳などの評価セットを含む中国語と英語の基本的な言語タスクに関しては、InternLM-104B が優位であり、中国語の評価セットではその差はさらに大きくなります。 読解力の「学者」は名にふさわしい: 中国語と英語のさまざまな読解力評価セットにおいて、InternLM-104B は明らかな利点を示し、テキストセグメントから重要な情報を要約して理解する点で優れていました。 優れた推論能力: 常識的推論、数学的推論、総合的推論のさまざまなデータ セットにおいて、InternLM-104B は比較的安定したパフォーマンスを発揮し、Llama2-70B よりも一定の優位性があります。 クイズゲームは均等に分かれています: コーディング能力はまちまちです。 InternLM-104B と Llama2-70B のコーディング機能は同等であり、HumanEval および MBPP データセットでは勝敗が決まります。 軽量モデルの比較重量級トラックで皆が互いに競い合っている一方で、7B 重量級の軽量級トラックでのオープンソース モデルの競争も非常に活発です。 数多くの国内オープンソースモデルの中でも、百川知能がリリースしたBaichuan-7B 、清華大学とZhipu AIがリリースしたChatGLM2-6B 、上海人工知能研究所がリリースしたInternLM-7Bなどの優れたモデルが業界で広く注目を集めています。 私たちはこれらの国産モデルとLlama-2-7Bの包括的な評価と比較を実施しました。 次の表は、いくつかの代表的な評価セットにおけるこれらの 7B スケール モデルのパフォーマンスを示しています。 結果は、Llama-2が知識能力において明らかに優位性を持っていることを示しています。 しかし、科目、言語、推論、理解力の面では、InternLM と ChatGLM2 はどちらも Llama-2 を上回っており、InternLM の優位性は非常に明白です。 商用利用が無料になると数か月前、Llama のオープンソースがコミュニティに火をつけ、多くの開発者や研究者に恩恵をもたらし、アルパカ ファミリー全体が誕生しました。残念ながら、そのプロトコルは商用利用を制限しており、企業は利用できません。 7月6日、世界人工知能大会で、Shusheng Puyuオープンソースシステムが正式にリリースされ、InterLM-7Bがオープンソース化され、無料の商用ライセンスが提供されました。 その後、開発動向やコミュニティの要請に応じて、ChatGLM2-6BやLlama2などのオープンソースモデルが次々と無料の商用利用に向けて推進されました。 オープンソース コミュニティの火花が業界に活気をもたらし、大規模モデルの実用化のハードルをさらに下げると信じています。 |
<<: Alibaba Cloudは、Llama2トレーニングの展開を全面的にサポートする最初の企業であり、企業が独自の大規模モデルを迅速に構築できるように支援します。
>>: Nature の論文が xAI の目標を検証、人間の認知 AI が宇宙の本質を探る、マスク氏: 黙ってろ、金やるぞ!
12年後の2030年、現在の小中学生が就職を控える頃の世界は、1.現在の職業の多くが消滅し、2.2...
AlphaGoとイ・セドルの世紀のマンマシン対決で、ついにAlphaGoが勝利した。では、人工知能の...
旅行のピーク時に都市環境衛生がより大きな圧力に耐えられるか?清掃車両と清掃作業員をより適切に管理する...
日本音楽著作者協会連合会(FCA)は6月15日、AIによる著作権の活用についての見解を公式サイトで発...
[[375724]]開発状況近年、デジタル経済の継続的な進歩を背景に、人工知能は急速に発展し、さまざ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
機械学習をマスターするための 100 日 | 1 日目から 62 日目までのコレクションみなさんこん...
数年前なら、コンピューターが 10,000 個のニューロンの活動を同時に記録していたらニュースになっ...