20B大型モデルの性能はLlama2-70Bに匹敵します!完全にオープンソースで、ベースからツールまですべてが明確に整理されています

20B大型モデルの性能はLlama2-70Bに匹敵します!完全にオープンソースで、ベースからツールまですべてが明確に整理されています

たった今、国産オープンソースモデルのパラメータ数の記録がまた更新されました!

9月20日、上海人工知能研究所(上海AI実験室)とセンスタイムは、香港中文大学、復旦大学と共同で、200億パラメータのInternLM-20Bモデルを正式にオープンソース化した。

プロジェクトアドレス: https://github.com/InternLM/InternLM

モデルスコープコミュニティ: https://modelscope.cn/organization/Shanghai_AI_Laboratory

今回、Shusheng Pu Yu 大型モデルの 200 億パラメータ バージョンは、「数量を増やしても価格は上げない」と言えます。パラメータ数は 3 分の 1 以下ですが、そのパフォーマンスは今日のオープンソース モデルのベンチマークである Llama2-70B に挑戦できます。現在主流となっているオープンソースの 13B モデルは、あらゆる面で InternLM-20B に遅れをとっています。

それだけでなく、大型モデルの研究開発と応用のためのフルチェーンツールシステムもアップグレードされました。

今回、上海AI実験室は、オープンソースモデル自体からチェーン全体のオープンソースツールに至るまで、自社の大規模モデルの研究開発から蓄積したすべての宝物を取り出し、研究者、機関、社会実践者が極めて低いコストと閾値で大規模モデルがもたらすこの技術革命に参加できるようにしたいと考えています。

「クラス最高のパフォーマンス」と「箱から出してすぐに使用可能」を備えた InternLM-20B は、大型モデルがさまざまな業界に参入するための触媒であり、新たな支点です。

この大規模モデルの波はすべての人に利益をもたらすでしょう。

私たちが使用するものはすべてオープンソースです

ご存知のとおり、大型モデルの研究開発システム全体には、複数のリンクが接続されており、非常に複雑な閉ループになっています。

より標準化された方法で整理するにはどうすればよいでしょうか?ベースモデルの使い方は?段階的な実装プロセス中に注意すべき点は何ですか?どこにでも問題があります。

上海AI研究所のチームは、日々の業務で実践を重ね、貴重な経験を積み重ねてきました。

現在、オープンソース エコシステムを繁栄させるために、データの準備、事前トレーニング、展開、評価、アプリケーションに至るまで、モデル プロセス全体に関係するすべてのツールをオープンソース化しました。

「独自の公式」を解読する

データは、ビッグモデルにとって、生産のための原材料と同じくらい重要です。電源がなければ、インテリジェントな AI システムの動作を駆動することは不可能です。特に、高品質なデータは、大規模モデルの産業化において重要な要素の一つです。

収集の面では、Web ページ、書籍、専門レポート、論文など、さまざまなチャネルからクロールされた元の資料を効果的にフィルタリングしてクリーンアップするだけでなく、モデル内部テスト ユーザーから提供されるフィードバックを最大限に活用する必要があります。

しかし、LLMで理解力、プログラミング力、論理的推論力などの重要な能力を身につけ、真の「六角戦士」になるためには、データを自分で構築することがより重要です。

この点では、学術研究も非常に活発です。たとえば、Microsoft の「Textbooks Are All You Need」は、データトレーニング済みモデル phi-1 を構築することで、ベンチマークで相対的にリードすることができました。

上海AI研究所チームは、単一の点からデータを構築するのではなく、「完全な次元」からデータを構築し、知識システム全体を整理してからコーパスを構築することを選択しました。

したがって、これらのコーパスの知識とロジックの密度は非常に高くなります。

大量の通常のコンテンツに少量の「触媒」を追加すると、LLM の主要な機能をよりよく刺激できるだけでなく、モデルが関連情報を吸収して理解する能力も向上します。

上海AIラボの主任科学者であるリン・ダーファ氏は、「ある意味では、ここでのトークン1つは、従来のトークン10個、あるいは100個分の効力に相当する可能性がある」と述べている。

コンピューティング能力に関して言えば、豊富なリソースを持つ大規模なインターネット企業を除いて、オープンソース コミュニティのほとんどの開発者にとって、より多くのコンピューティング能力を得ることは困難です。

「モデルを利用できる軽量なツールが登場することを期待しています。」これは、上海 AI ラボが受け取ったコミュニティからの最も一般的なフィードバックです。

オープンソースの軽量微調整ツールである XTuner を使用すると、ユーザーは 8GB のコンシューマーグレード GPU 上で独自のデータを使用して、上海 AI 研究所のオープンソース モデルを微調整できます。

さらに、モデルの応用という点では、「チャットダイアログ」は依然としてモデルの機能の非常に重要な部分です。

上海 AI ラボが強調したいもう 1 つの点は、コード インタープリターがツールを呼び出すのと同様に、大規模モデルが中央ハブとして機能し、ツールを使用して問題を解決することです。

同時に、このプロセスにおいて、大型モデルは自分自身を振り返ることもできます。これが、LLM によって実証されたインテリジェント ボディの巨大な可能性です。

Lin Dahua 氏は、エージェントは長期的に探求する必要がある非常に価値のある方向性になると考えています。

究極の知的存在の世界では、組織全体の分業が継続的にアップグレードされ、進化していきます。将来的には、それぞれが専門分野を持つ多数の知的存在が共存し、それらの間のコミュニケーションを促進できるテクノロジーが数多く存在するようになるでしょう。

それで、今回はツールチェーンのどこがアップグレードされるのでしょうか?

- データ: OpenDataLab は「Shusheng Wanjuan」の事前学習済みコーパスをオープンソース化しました

データ面では、Shusheng Wanjuan 1.0 マルチモーダルトレーニングコーパスが 8 月 14 日に正式にオープンソース化されました。データの総量は 2TB を超え、テキストデータセット、画像とテキストデータセット、ビデオデータセットの 3 つの部分が含まれています。

Shusheng シリーズのモデルは、高品質のコーパスを「消化」することで、意味理解、知識質問応答、視覚理解、視覚質問応答などのさまざまな生成タスクで優れたパフォーマンスを発揮しました。

これまでに約10万回ダウンロードされています。

- 事前トレーニング: InternLM の効率的な事前トレーニング フレームワーク

事前トレーニング フェーズでは、InternLM リポジトリは事前トレーニング フレームワーク InternLM-Train もオープン ソース化しました。

一方で、Transformer モデル演算子はトレーニング効率を向上させるために深く統合されています。他方では、コンピューティングと通信の効率的なオーバーラップを実現し、トレーニング中のノード間の通信トラフィックを大幅に削減する独自の Hybrid Zero テクノロジが提案されています。

究極のパフォーマンス最適化により、このオープンソース システムは数千の並列コンピューティングの高効率を実現し、トレーニング パフォーマンスは業界をリードするレベルに達します。

- 微調整: InternLM フルパラメータ微調整、XTuner 軽量微調整

低コストの大規模モデル微調整ツールボックス XTuner も最近オープンソース化され、Llama などのさまざまなオープンソースの大規模モデルや、LoRA や QLoRA などの微調整アルゴリズムをサポートしています。

ハードウェア要件に関して言えば、XTuner は 7B モデルで低コストの微調整を実行するために少なくとも 8GB のビデオ メモリのみを必要とし、20B モデルの微調整も 24G のビデオ メモリを搭載したコンシューマー グレードのグラフィック カードで完了できます。

XTunerは、さまざまなオープンソースモデル向けのさまざまな微調整フレームワークを提供します。

- デプロイメント: LMDeployは、数十億から数千億のパラメータを持つ言語モデルの効率的な推論をサポートします。

デプロイメントの面では、LMDeploy は、大規模モデル向けの軽量な推論デプロイメントおよびサービス ソリューションの完全なセットをカバーします。

数十億から数千億のパラメータからの効率的なモデル推論をサポートし、スループットやその他のパフォーマンスの点で、FasterTransformer、vLLM、Deepspeed などのコミュニティの主流のオープンソース プロジェクトを上回っています。

- 評価: OpenCompassは、ワンストップの総合的な大規模モデル評価プラットフォームです。

評価に関しては、オープンソースの大規模モデル評価プラットフォーム OpenCompass が、規律、言語、知識、理解、推論の 5 つの側面で評価システムを提供します。

同時に、50 以上の評価データセット、30 万の評価質問、ゼロサンプル、小サンプル、思考連鎖評価もサポートしており、現在最も包括的なオープンソース評価プラットフォームとなっています。

- アプリケーション: Lagent 軽量で柔軟なインテリジェントエージェントフレームワーク

最終応用段階では、上海AI研究所チームはインテリジェントエージェントに焦点を当て、軽量で柔軟なインテリジェントエージェントフレームワーク「Lagent」を開発し、オープンソース化しました。

大規模な言語モデルをさまざまな種類のエージェントに迅速に変換できるようにユーザーをサポートし、大規模な言語モデルを強化するための一般的なツールを提供します。

このオープンソース フレームワークは、従来の ReAct、AutoGPT、ReWoo など、複数の種類のインテリジェント エージェントの機能を統合します。

このフレームワークのコード構造は明確であるだけでなく、シンプルでもあります。開発者は 20 行未満のコードで独自のインテリジェント エージェントを作成できます。

さらに、Lagent は InternLM、Llama、ChatGPT などの複数の大規模モデルをサポートしています。

Lagent の助けを借りて、これらのインテリジェント エージェントは、推論とツール呼び出しを計画するために大規模な言語モデルを呼び出し、実行プロセス中にタイムリーに反映して自己修正することができます。

中国初の16Kコンテキスト、Llama2-70Bに相当する200億パラメータ

上海 AI 研究所は、大規模なモデル ツール チェーンの完全なセットに加えて、最大 200 億のパラメータを備えた InternLM-20B も新たにオープンソース化しました。

評価結果によると、同レベルのオープンソース モデルの中で、総合的なパフォーマンスの点では InternLM-20B が間違いなく最高です。

- 非常に長いコンテキストのサポート

まず、コンテキストの長さに関して、InternLM-20B は最大 16K のコンテキスト ウィンドウをサポートできます。

下の図に示すように、有名なコーヒーブランドに関する長いニュース記事を読んだ後、InternLM-20B は 3 つの質問に正確に答えることができました。


InternLM-20B は、非常に長い論文やレポートから要約を正確に抽出することもできます。

たとえば、古典的な ResNet 論文を入力すると、ResNet の核となるアイデアと実験結果を正確に要約した概要がすぐに作成されました。

- ツールを使って自分で学ぶ

第二に、長いコンテキストのサポートにより、モデルの機能が大幅に拡張され、ツールの呼び出し、コードの解釈、反映と修正の余地が広がります。これは、InterLM-20B に基づくインテリジェント エンティティを構築するための重要なテクノロジにもなっています。

現在、InternLM-20B は、日付、天気、旅行、スポーツなど数十方向のコンテンツ出力や数万種類の異なる API をサポートできるだけでなく、コードインタープリターと同様の方法でツールを呼び出すこともできます。

同時に、このプロセスでは、反映や修正も行われ、現実のシナリオとのつながりも確立されます。

清華大学などが共同で発表した大規模モデルツール呼び出し評価セット「ToolBench」において、InternLM-20BはChatGPTと比較して63.5%の勝率を達成し、リストで最高の結果を達成しました。


さらに、InternLM-20B モデルは、特定のゼロサンプル一般化機能も示します。モデルはトレーニング中に一部のツールを学習していませんが、ツールの説明とユーザーの質問に基づいてツールを呼び出すことができます。

下の図に示すように、いくつかの AI ツールを提供することで、ユーザーの問題を解決するために自ら計画し、推論できるようになります。

- すべての階級でトップ

さまざまな次元の 50 個の主流評価モデルのセットにおいて、InternLM-20B は、同レベルのオープンソース モデルの中で最高の総合パフォーマンスを達成しました。

同時に、その平均スコアはより大きなLlama-33Bを大幅に上回り、いくつかのテストではLlama2-70Bをわずかに上回りました。

具体的には、InternLM-20Bは、MMLU、C-Eval、AGIEvalの総合的な被験者評価において優れた成績を達成し、同レベルのオープンソースモデルの中でトップの地位を占めています。

特に中国語科目試験を含む C-Eval および AGIEval では、Llama2-70B よりもパフォーマンスが大幅に優れています。

事実の知識をテストするテストでは、InterLM-20B は 13B モデルを完全に上回り、Llama-33B と競合することができました。

しかし、Llama-65B や Llama2-70B と比べると、まだ一定のギャップが残っています。

理解能力の点では、InternLM-20B はさらに優れたパフォーマンスを発揮し、Llama2-70B を含むすべてのオープンソース モデルを上回ります。

推論は多くのモデルにとって障害となります。推論は大規模モデルの真の力をテストし、モデルが実用的なアプリケーションをサポートできるかどうかを大きく左右します。

次の 4 つの推論評価セットでは、InternLM-20B のパフォーマンスが主流の 13B オープンソース モデルを上回り、Llama-65B の推論能力に近づきました。

プログラミング機能の面でも、InternLM-20B は大幅に改善されました。 2 つの一般的な評価セットである HumanEval と MBPP では、Llama2-70B に近い値になります。

注: 上記のスクリーンショットの太字の項目は、13B-33B 重量クラスでの最高の結果です。

HuggingFace が発表した最新の Open LLM Leaderboard 評価リストでは、InternLM-20B は 60B 未満のパラメータを持つ基本モデルの中で平均パフォーマンスでトップに立ち、Llama-65B も上回っています。

- より安全なオープンソースモデル

最後に、価値の整合という点でも、InternLM-20B はより完全で安全です。

偏った質問をすると、すぐに不安を特定し、正しい価値観のガイダンスを提供します。

大型モデルは決して大手メーカーの独占領域ではない

ビッグモデルの波が到来する中、私たちが注力すべきことは、評価リストのトップに立つ方法だけでなく、ビッグモデルを「AIの至宝」から何千もの業界で活用できる「新しい生産性」へと進化させる方法でもあります。

歴史を通じて、真に時代をリードするテクノロジーは、破壊的なイノベーションであるだけでなく、より重要なのは、低コストで、敷居が低く、誰もが利用できることです。しかし、OpenAIやGoogleのような大企業は具体的な詳細を決して公表しないだろう。

そして、これこそが上海AI研究所の本来の目的なのです。

Shusheng Pu Yu は 6 月の最初のリリース以来、複数回のアップグレードを完了し、オープンソース コミュニティと業界に幅広い影響を与えてきました。

さらに、上海AI研究所では、GitHubでコードを公開し、HuggingFaceやMoDaのコミュニティにモデルを掲載するだけでなく、専任の人員を派遣してコミュニティのフィードバックを毎日確認し、ユーザーの質問に丁寧に答えています。

以前、Meta の LLaMA モデルはオープンソース化されており、ChatGPT を置き換えるブームが巻き起こり、大規模テキスト モデルに安定した拡散の瞬間をもたらしました。

今日のアルパカ一家の豊かな生態系と同様に、上海 AI ラボのオープンソースの取り組みは、コミュニティに計り知れない価値をもたらすことは間違いありません。

世界中のアクティブな開発者や研究者にとって、Shusheng Pu Yu は中規模でありながら非常に強力な基盤を提供します。

ほとんどの企業、特に中小企業では、大規模モデルへの傾向が見られますが、大企業のようにコンピューティングパワーを購入し、最高の人材を引き付けるために多額の費用を費やす可能性は低いです。

実際、7月6日の人工知能カンファレンス以来、上海AI研究所はチェーン全体にわたってオープンソースに取り組んできました。たとえば、XTuner を使用すると、ユーザーは独自のデータの一部のみを使用して、非常に軽量な方法で独自のモデルをトレーニングできます。

それだけでなく、チームはオープンソース コミュニティの質問、コーパス、ドキュメント、XTuner モデルを組み合わせて、オープンソース コミュニティのカスタマー サービスをトレーニングしました。これはオープンソース コミュニティへの真の貢献です。

上海 AI ラボは、その技術システム全体 (つまり、前述のフルチェーン ツール システム) をコミュニティと共有しました。

社会全体の多くの業界、多くの企業、多くの機関や研究者がビッグモデルの価値を真に理解することができれば、それは非常に重要な力となるでしょう。

彼らには無限の創造力があり、唯一欠けているのはリソースです。

上海AI研究所からのタイムリーな支援により、この大規模モデルは実装分野で大きな役割を果たすことができるようになるでしょう。

リン・ダーファが言ったように -

研究所として、私たちは、データとモデルの機能にさまざまな業界のノウハウを統合した基本モデルと一連のツールを提供することができます。また、それらを非常に使いやすくし、より多くの人々にその使い方を教えることで、さまざまな業界で活躍できるようにします。

ツールチェーン全体のオープンソースリンク

「学者と一万冊」の事前トレーニングコーパス:

https://github.com/opendatalab/WanJuan1.0

InternLM 事前トレーニング フレームワーク:

https://github.com/InternLM/InternLM

XTuner 微調整ツールボックス:

https://github.com/InternLM/xtuner

LMDeploy推論ツールチェーン:

https://github.com/InternLM/lmdeploy

OpenCompas 大規模モデル評価プラットフォーム:

オープンコンパス

Lagent エージェント フレームワーク:

https://github.com/InternLM/lagent

<<:  Microsoft が Copilot の統合バージョンをリリース、Windows、Edge、その他のプラットフォームにも近日登場

>>:  AI が公共安全活動を支援する独創的な方法

ブログ    
ブログ    

推薦する

機械学習モデルの解釈可能性について

2019年2月、ポーランド政府は銀行法に改正を加え、信用判定に否定的な結果が出た場合に顧客に説明を求...

「コピー+貼り付け」に別れを告げ、ディープラーニングOCRに基づくPDFからテキストへの変換を実現

[[403226]]従来の講義には通常、PDF スライドのセットが付属します。一般的に、このような講...

...

Pythonでシンプルだが強力な顔認識システムを書く

face_recognition は、強力でシンプル、使いやすい顔認識オープンソース プロジェクトで...

AIとクラウドワークロードがデータセンターの需要を牽引

JLLの新しいレポートでは、人工知能とエッジコンピューティングの採用が増加するにつれて、データセンタ...

ChatGPT が作成した履歴書が人事部の心を動かし、彼は卒業後すぐに夢のオファーを獲得しました。

こんにちは、最近卒業した人が ChatGPT を使用してカバーレターを作成し、数分で履歴書のスクリー...

人工知能について知っておくべきことすべて

人工知能とは何でしょうか? この質問に対する答えは、誰に尋ねるかによって異なります。 1950 年代...

Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

危険なAIアルゴリズムを識別し、倫理原則に従ったビッグデータモデルを作成する方法

人工知能がもたらす脅威について議論するとき、スカイネット、マトリックス、ロボットによる終末の世界とい...

AIが絵の描き方を教えてくれる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習が自閉症の「非コード変異」の秘密を解明

新たな研究によると、遺伝子間の自然発生的な突然変異は、生まれつきの遺伝子と同じくらい自閉症において重...

AI産業化が深海域に入る中、コンピューティングパワーのボトルネックをどうやって打破するのか?

AI技術の応用は、一部の業界からあらゆる分野へ、一部のシーンからあらゆるシーンへ、ローカルな探索か...

VRとAI: 融合しようとしている2つの技術

テクノロジーは私たちの生活に常に影響を与えています。社会として私たちはテクノロジーに大きく依存するよ...

Google UFOGen は、非常に高速なサンプリング速度で高品質の画像を生成できます。

過去1年間、Stable Diffusionに代表される一連の文化イメージ拡散モデルは、ビジュアル創...