20B大型モデルの性能はLlama2-70Bに匹敵します！完全にオープンソースで、ベースからツールまですべてが明確に整理されています

たった今、国産オープンソースモデルのパラメータ数の記録がまた更新されました！

9月20日、上海人工知能研究所（上海AI実験室）とセンスタイムは、香港中文大学、復旦大学と共同で、200億パラメータのInternLM-20Bモデルを正式にオープンソース化した。

プロジェクトアドレス: https://github.com/InternLM/InternLM

モデルスコープコミュニティ: https://modelscope.cn/organization/Shanghai_AI_Laboratory

今回、Shusheng Pu Yu 大型モデルの 200 億パラメータバージョンは、「数量を増やしても価格は上げない」と言えます。パラメータ数は 3 分の 1 以下ですが、そのパフォーマンスは今日のオープンソースモデルのベンチマークである Llama2-70B に挑戦できます。現在主流となっているオープンソースの 13B モデルは、あらゆる面で InternLM-20B に遅れをとっています。

それだけでなく、大型モデルの研究開発と応用のためのフルチェーンツールシステムもアップグレードされました。

今回、上海AI実験室は、オープンソースモデル自体からチェーン全体のオープンソースツールに至るまで、自社の大規模モデルの研究開発から蓄積したすべての宝物を取り出し、研究者、機関、社会実践者が極めて低いコストと閾値で大規模モデルがもたらすこの技術革命に参加できるようにしたいと考えています。

「クラス最高のパフォーマンス」と「箱から出してすぐに使用可能」を備えた InternLM-20B は、大型モデルがさまざまな業界に参入するための触媒であり、新たな支点です。

この大規模モデルの波はすべての人に利益をもたらすでしょう。

私たちが使用するものはすべてオープンソースです

ご存知のとおり、大型モデルの研究開発システム全体には、複数のリンクが接続されており、非常に複雑な閉ループになっています。

より標準化された方法で整理するにはどうすればよいでしょうか?ベースモデルの使い方は？段階的な実装プロセス中に注意すべき点は何ですか?どこにでも問題があります。

上海AI研究所のチームは、日々の業務で実践を重ね、貴重な経験を積み重ねてきました。

現在、オープンソースエコシステムを繁栄させるために、データの準備、事前トレーニング、展開、評価、アプリケーションに至るまで、モデルプロセス全体に関係するすべてのツールをオープンソース化しました。

「独自の公式」を解読する

データは、ビッグモデルにとって、生産のための原材料と同じくらい重要です。電源がなければ、インテリジェントな AI システムの動作を駆動することは不可能です。特に、高品質なデータは、大規模モデルの産業化において重要な要素の一つです。

収集の面では、Web ページ、書籍、専門レポート、論文など、さまざまなチャネルからクロールされた元の資料を効果的にフィルタリングしてクリーンアップするだけでなく、モデル内部テストユーザーから提供されるフィードバックを最大限に活用する必要があります。

しかし、LLMで理解力、プログラミング力、論理的推論力などの重要な能力を身につけ、真の「六角戦士」になるためには、データを自分で構築することがより重要です。

この点では、学術研究も非常に活発です。たとえば、Microsoft の「Textbooks Are All You Need」は、データトレーニング済みモデル phi-1 を構築することで、ベンチマークで相対的にリードすることができました。

上海AI研究所チームは、単一の点からデータを構築するのではなく、「完全な次元」からデータを構築し、知識システム全体を整理してからコーパスを構築することを選択しました。

したがって、これらのコーパスの知識とロジックの密度は非常に高くなります。

大量の通常のコンテンツに少量の「触媒」を追加すると、LLM の主要な機能をよりよく刺激できるだけでなく、モデルが関連情報を吸収して理解する能力も向上します。

上海AIラボの主任科学者であるリン・ダーファ氏は、「ある意味では、ここでのトークン1つは、従来のトークン10個、あるいは100個分の効力に相当する可能性がある」と述べている。

コンピューティング能力に関して言えば、豊富なリソースを持つ大規模なインターネット企業を除いて、オープンソースコミュニティのほとんどの開発者にとって、より多くのコンピューティング能力を得ることは困難です。

「モデルを利用できる軽量なツールが登場することを期待しています。」これは、上海 AI ラボが受け取ったコミュニティからの最も一般的なフィードバックです。

オープンソースの軽量微調整ツールである XTuner を使用すると、ユーザーは 8GB のコンシューマーグレード GPU 上で独自のデータを使用して、上海 AI 研究所のオープンソースモデルを微調整できます。

さらに、モデルの応用という点では、「チャットダイアログ」は依然としてモデルの機能の非常に重要な部分です。

上海 AI ラボが強調したいもう 1 つの点は、コードインタープリターがツールを呼び出すのと同様に、大規模モデルが中央ハブとして機能し、ツールを使用して問題を解決することです。

同時に、このプロセスにおいて、大型モデルは自分自身を振り返ることもできます。これが、LLM によって実証されたインテリジェントボディの巨大な可能性です。

Lin Dahua 氏は、エージェントは長期的に探求する必要がある非常に価値のある方向性になると考えています。

究極の知的存在の世界では、組織全体の分業が継続的にアップグレードされ、進化していきます。将来的には、それぞれが専門分野を持つ多数の知的存在が共存し、それらの間のコミュニケーションを促進できるテクノロジーが数多く存在するようになるでしょう。

それで、今回はツールチェーンのどこがアップグレードされるのでしょうか?

- データ: OpenDataLab は「Shusheng Wanjuan」の事前学習済みコーパスをオープンソース化しました

データ面では、Shusheng Wanjuan 1.0 マルチモーダルトレーニングコーパスが 8 月 14 日に正式にオープンソース化されました。データの総量は 2TB を超え、テキストデータセット、画像とテキストデータセット、ビデオデータセットの 3 つの部分が含まれています。

Shusheng シリーズのモデルは、高品質のコーパスを「消化」することで、意味理解、知識質問応答、視覚理解、視覚質問応答などのさまざまな生成タスクで優れたパフォーマンスを発揮しました。

これまでに約10万回ダウンロードされています。

- 事前トレーニング: InternLM の効率的な事前トレーニングフレームワーク

事前トレーニングフェーズでは、InternLM リポジトリは事前トレーニングフレームワーク InternLM-Train もオープンソース化しました。

一方で、Transformer モデル演算子はトレーニング効率を向上させるために深く統合されています。他方では、コンピューティングと通信の効率的なオーバーラップを実現し、トレーニング中のノード間の通信トラフィックを大幅に削減する独自の Hybrid Zero テクノロジが提案されています。

究極のパフォーマンス最適化により、このオープンソースシステムは数千の並列コンピューティングの高効率を実現し、トレーニングパフォーマンスは業界をリードするレベルに達します。

- 微調整: InternLM フルパラメータ微調整、XTuner 軽量微調整

低コストの大規模モデル微調整ツールボックス XTuner も最近オープンソース化され、Llama などのさまざまなオープンソースの大規模モデルや、LoRA や QLoRA などの微調整アルゴリズムをサポートしています。

ハードウェア要件に関して言えば、XTuner は 7B モデルで低コストの微調整を実行するために少なくとも 8GB のビデオメモリのみを必要とし、20B モデルの微調整も 24G のビデオメモリを搭載したコンシューマーグレードのグラフィックカードで完了できます。

XTunerは、さまざまなオープンソースモデル向けのさまざまな微調整フレームワークを提供します。

- デプロイメント: LMDeployは、数十億から数千億のパラメータを持つ言語モデルの効率的な推論をサポートします。

デプロイメントの面では、LMDeploy は、大規模モデル向けの軽量な推論デプロイメントおよびサービスソリューションの完全なセットをカバーします。

数十億から数千億のパラメータからの効率的なモデル推論をサポートし、スループットやその他のパフォーマンスの点で、FasterTransformer、vLLM、Deepspeed などのコミュニティの主流のオープンソースプロジェクトを上回っています。

- 評価: OpenCompassは、ワンストップの総合的な大規模モデル評価プラットフォームです。

評価に関しては、オープンソースの大規模モデル評価プラットフォーム OpenCompass が、規律、言語、知識、理解、推論の 5 つの側面で評価システムを提供します。

同時に、50 以上の評価データセット、30 万の評価質問、ゼロサンプル、小サンプル、思考連鎖評価もサポートしており、現在最も包括的なオープンソース評価プラットフォームとなっています。

- アプリケーション: Lagent 軽量で柔軟なインテリジェントエージェントフレームワーク

最終応用段階では、上海AI研究所チームはインテリジェントエージェントに焦点を当て、軽量で柔軟なインテリジェントエージェントフレームワーク「Lagent」を開発し、オープンソース化しました。

大規模な言語モデルをさまざまな種類のエージェントに迅速に変換できるようにユーザーをサポートし、大規模な言語モデルを強化するための一般的なツールを提供します。

このオープンソースフレームワークは、従来の ReAct、AutoGPT、ReWoo など、複数の種類のインテリジェントエージェントの機能を統合します。

このフレームワークのコード構造は明確であるだけでなく、シンプルでもあります。開発者は 20 行未満のコードで独自のインテリジェントエージェントを作成できます。

さらに、Lagent は InternLM、Llama、ChatGPT などの複数の大規模モデルをサポートしています。

Lagent の助けを借りて、これらのインテリジェントエージェントは、推論とツール呼び出しを計画するために大規模な言語モデルを呼び出し、実行プロセス中にタイムリーに反映して自己修正することができます。

中国初の16Kコンテキスト、Llama2-70Bに相当する200億パラメータ

上海 AI 研究所は、大規模なモデルツールチェーンの完全なセットに加えて、最大 200 億のパラメータを備えた InternLM-20B も新たにオープンソース化しました。

評価結果によると、同レベルのオープンソースモデルの中で、総合的なパフォーマンスの点では InternLM-20B が間違いなく最高です。

- 非常に長いコンテキストのサポート

まず、コンテキストの長さに関して、InternLM-20B は最大 16K のコンテキストウィンドウをサポートできます。

下の図に示すように、有名なコーヒーブランドに関する長いニュース記事を読んだ後、InternLM-20B は 3 つの質問に正確に答えることができました。

InternLM-20B は、非常に長い論文やレポートから要約を正確に抽出することもできます。

たとえば、古典的な ResNet 論文を入力すると、ResNet の核となるアイデアと実験結果を正確に要約した概要がすぐに作成されました。

- ツールを使って自分で学ぶ

第二に、長いコンテキストのサポートにより、モデルの機能が大幅に拡張され、ツールの呼び出し、コードの解釈、反映と修正の余地が広がります。これは、InterLM-20B に基づくインテリジェントエンティティを構築するための重要なテクノロジにもなっています。

現在、InternLM-20B は、日付、天気、旅行、スポーツなど数十方向のコンテンツ出力や数万種類の異なる API をサポートできるだけでなく、コードインタープリターと同様の方法でツールを呼び出すこともできます。

同時に、このプロセスでは、反映や修正も行われ、現実のシナリオとのつながりも確立されます。

清華大学などが共同で発表した大規模モデルツール呼び出し評価セット「ToolBench」において、InternLM-20BはChatGPTと比較して63.5%の勝率を達成し、リストで最高の結果を達成しました。

さらに、InternLM-20B モデルは、特定のゼロサンプル一般化機能も示します。モデルはトレーニング中に一部のツールを学習していませんが、ツールの説明とユーザーの質問に基づいてツールを呼び出すことができます。

下の図に示すように、いくつかの AI ツールを提供することで、ユーザーの問題を解決するために自ら計画し、推論できるようになります。

- すべての階級でトップ

さまざまな次元の 50 個の主流評価モデルのセットにおいて、InternLM-20B は、同レベルのオープンソースモデルの中で最高の総合パフォーマンスを達成しました。

同時に、その平均スコアはより大きなLlama-33Bを大幅に上回り、いくつかのテストではLlama2-70Bをわずかに上回りました。

具体的には、InternLM-20Bは、MMLU、C-Eval、AGIEvalの総合的な被験者評価において優れた成績を達成し、同レベルのオープンソースモデルの中でトップの地位を占めています。

特に中国語科目試験を含む C-Eval および AGIEval では、Llama2-70B よりもパフォーマンスが大幅に優れています。

事実の知識をテストするテストでは、InterLM-20B は 13B モデルを完全に上回り、Llama-33B と競合することができました。

しかし、Llama-65B や Llama2-70B と比べると、まだ一定のギャップが残っています。

理解能力の点では、InternLM-20B はさらに優れたパフォーマンスを発揮し、Llama2-70B を含むすべてのオープンソースモデルを上回ります。

推論は多くのモデルにとって障害となります。推論は大規模モデルの真の力をテストし、モデルが実用的なアプリケーションをサポートできるかどうかを大きく左右します。

次の 4 つの推論評価セットでは、InternLM-20B のパフォーマンスが主流の 13B オープンソースモデルを上回り、Llama-65B の推論能力に近づきました。

プログラミング機能の面でも、InternLM-20B は大幅に改善されました。 2 つの一般的な評価セットである HumanEval と MBPP では、Llama2-70B に近い値になります。

注: 上記のスクリーンショットの太字の項目は、13B-33B 重量クラスでの最高の結果です。

HuggingFace が発表した最新の Open LLM Leaderboard 評価リストでは、InternLM-20B は 60B 未満のパラメータを持つ基本モデルの中で平均パフォーマンスでトップに立ち、Llama-65B も上回っています。

- より安全なオープンソースモデル

最後に、価値の整合という点でも、InternLM-20B はより完全で安全です。

偏った質問をすると、すぐに不安を特定し、正しい価値観のガイダンスを提供します。

大型モデルは決して大手メーカーの独占領域ではない

ビッグモデルの波が到来する中、私たちが注力すべきことは、評価リストのトップに立つ方法だけでなく、ビッグモデルを「AIの至宝」から何千もの業界で活用できる「新しい生産性」へと進化させる方法でもあります。

歴史を通じて、真に時代をリードするテクノロジーは、破壊的なイノベーションであるだけでなく、より重要なのは、低コストで、敷居が低く、誰もが利用できることです。しかし、OpenAIやGoogleのような大企業は具体的な詳細を決して公表しないだろう。

そして、これこそが上海AI研究所の本来の目的なのです。

Shusheng Pu Yu は 6 月の最初のリリース以来、複数回のアップグレードを完了し、オープンソースコミュニティと業界に幅広い影響を与えてきました。

さらに、上海AI研究所では、GitHubでコードを公開し、HuggingFaceやMoDaのコミュニティにモデルを掲載するだけでなく、専任の人員を派遣してコミュニティのフィードバックを毎日確認し、ユーザーの質問に丁寧に答えています。

以前、Meta の LLaMA モデルはオープンソース化されており、ChatGPT を置き換えるブームが巻き起こり、大規模テキストモデルに安定した拡散の瞬間をもたらしました。

今日のアルパカ一家の豊かな生態系と同様に、上海 AI ラボのオープンソースの取り組みは、コミュニティに計り知れない価値をもたらすことは間違いありません。

世界中のアクティブな開発者や研究者にとって、Shusheng Pu Yu は中規模でありながら非常に強力な基盤を提供します。

ほとんどの企業、特に中小企業では、大規模モデルへの傾向が見られますが、大企業のようにコンピューティングパワーを購入し、最高の人材を引き付けるために多額の費用を費やす可能性は低いです。

実際、7月6日の人工知能カンファレンス以来、上海AI研究所はチェーン全体にわたってオープンソースに取り組んできました。たとえば、XTuner を使用すると、ユーザーは独自のデータの一部のみを使用して、非常に軽量な方法で独自のモデルをトレーニングできます。

それだけでなく、チームはオープンソースコミュニティの質問、コーパス、ドキュメント、XTuner モデルを組み合わせて、オープンソースコミュニティのカスタマーサービスをトレーニングしました。これはオープンソースコミュニティへの真の貢献です。

上海 AI ラボは、その技術システム全体 (つまり、前述のフルチェーンツールシステム) をコミュニティと共有しました。

社会全体の多くの業界、多くの企業、多くの機関や研究者がビッグモデルの価値を真に理解することができれば、それは非常に重要な力となるでしょう。

彼らには無限の創造力があり、唯一欠けているのはリソースです。

上海AI研究所からのタイムリーな支援により、この大規模モデルは実装分野で大きな役割を果たすことができるようになるでしょう。

リン・ダーファが言ったように -

研究所として、私たちは、データとモデルの機能にさまざまな業界のノウハウを統合した基本モデルと一連のツールを提供することができます。また、それらを非常に使いやすくし、より多くの人々にその使い方を教えることで、さまざまな業界で活躍できるようにします。

ツールチェーン全体のオープンソースリンク

「学者と一万冊」の事前トレーニングコーパス：

https://github.com/opendatalab/WanJuan1.0

InternLM 事前トレーニングフレームワーク:

https://github.com/InternLM/InternLM

XTuner 微調整ツールボックス:

https://github.com/InternLM/xtuner

LMDeploy推論ツールチェーン:

https://github.com/InternLM/lmdeploy

OpenCompas 大規模モデル評価プラットフォーム:

オープンコンパス

Lagent エージェントフレームワーク:

https://github.com/InternLM/lagent

<<: Microsoft が Copilot の統合バージョンをリリース、Windows、Edge、その他のプラットフォームにも近日登場

>>: AI が公共安全活動を支援する独創的な方法

ハイエナが次世代トランスフォーマーになる？ StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

20B大型モデルの性能はLlama2-70Bに匹敵します！完全にオープンソースで、ベースからツールまですべてが明確に整理されています

私たちが使用するものはすべてオープンソースです

中国初の16Kコンテキスト、Llama2-70Bに相当する200億パラメータ

大型モデルは決して大手メーカーの独占領域ではない

ツールチェーン全体のオープンソースリンク

ハイエナが次世代トランスフォーマーになる？ StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

1 つの記事でクラスタリングアルゴリズムを理解する

Ctrip旅行言語モデルシステムの紹介と応用

バックアップと災害復旧のための生成AIツールはまだ初期段階にある

その光景は衝撃的だ！「世界最強」のロボット9台が国連AIロボット会議のステージに登場

自動化された機械学習は AI 研究の次の主流となるでしょうか?データサイエンティストの意見

Pythonディープラーニングフレームワークの比較の詳細な分析

人工知能は転移学習を使用して、自然画像から抽出した特徴を使用してイラスト分類の精度を向上させます

推薦する

AI開発と倫理におけるリアリズムの役割

中国科学院コンピューティング技術研究所の孫暁明氏：多項式レベルの加速の実現、量子探索アルゴリズムの利点と課題

TensorFlow 2.0「開発者プレビュー」が利用可能になりました

ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

人工知能に関するよくある質問10選への回答

中国の科学者によるこの命を救うAIは海外のホットリストに載った

製薬業界を覆すAIは「仕掛け」か「希望」か？

中国のLMM体格に適したベンチマークであるCMMMUがここにあります：30以上のサブ分野、12Kの専門家レベルの質問

人工知能とは何ですか?米Googleが正式発表！

スタートアップがAIを活用している3つの分野

推奨される自動化およびオーケストレーションツール10選

ビジネスに適したRPAソフトウェアの選び方