国内オープンソースモデルのベンチマークが大幅にアップグレードされ、その主要機能はChatGPTに匹敵します。 Shusheng Puyu 2.0 がリリース、無料の商用利用をサポート

1月17日、新世代の大規模言語モデルShusheng Puyu 2.0（InternLM2）が正式にリリースされ、オープンソース化されました。

2 つのパラメータ仕様、3 つのモデルバージョン、合計 6 つのモデルがあり、すべて商用利用は無料です。

200K の超長いコンテキストをサポートし、200 ページの財務レポートを簡単に読み取ることができます。 20万件のテキスト全体の重要情報の想起精度は95.62%に達しました。

外部ツールの助けを借りなくても、本質的な数学的能力は ChatGPT を上回ります。コードインタープリターと組み合わせると、GPT-4 と同等のレベルに到達できます。

また、複数回のツール呼び出しやより高い共感などの機能ももたらされます。

これらすべては、Shusheng Pu Yu 2.0 の基本的なモデリング機能が大幅にアップグレードされ、コーパスの品質が向上し、情報密度が高まったことによるものだと理解されています。

それで、Shusheng Pu Yu 2.0 はどのようなアップグレードをもたらすのでしょうか?これはどうやって行うのですか?

上海AI研究所の第一人者である林大華教授が、その秘密を私たちに明かしてくれました。

ChatGPTに匹敵する主な機能

Shusheng Puyu 2.0 には、7B と 20B の 2 つのパラメータ仕様が含まれています。

7B は軽量の研究とアプリケーションを対象としており、20B は総合的なパフォーマンスがより強力で、より複雑な使用シナリオをサポートできます。

各仕様には 3 つのモデルバージョンが含まれます。

インターンLM2ベース
インターンLM2
インターンLM2チャット

ベースバージョンは、2.0 で追加された新しいバージョンです。機能が強化される前の InternLM2 の標準バージョンです。より基本的で柔軟性が高いため、探索的な研究に適しています。

InternLM2 の標準バージョンは Base をベースにしており、複数の機能が強化されています。優れた一般的な言語機能を維持しながら、テストスコアも向上しており、ほとんどのアプリケーションに適しています。

Chat バージョンは、Base をベースに SFT および RLHF の後に会話機能が強化されており、指示に従う機能、共感、呼び出しツールなどの機能が優れています。

具体的な機能面では、前世代と比較して、InterLM2 コアは基本的な言語モデリング機能が強化されています。

大規模で高品質な検証コーパス上での2世代モデルの損失分布を見ることができます。第2世代の分布は全体的に左にシフトしており、言語モデリング能力が大幅に強化されたことがわかります。

これにより、次のような下流タスクが全面的に改善されます。

実質的に20万トークンの長いコンテキストをサポート
複雑なインテリジェントエージェントの構築と複数回のツール呼び出しをサポート
内在する数学的能力がChatGPTを上回る
全体的なパフォーマンスは、同規模のオープンソースモデルの中でトップレベルです。

InternLM2 は、高い情報想起成功率を維持しながら、200,000 語の超長いコンテキストを効果的にサポートするようになりました。これは、前世代に比べて大幅に改善されています。

InternLM2 では、「干し草の山の中の針」のような実験が行われました。長いテキストのさまざまな位置に重要な情報をランダムに挿入して質問を作成し、モデルが長いテキストから重要な情報を抽出できるかどうかをテストしました。

結果は、InternLM2-Chat の再現精度が依然として高く、16K 以内での平均精度は 95.65% であることを示しています。

実際のシナリオでは、InternLM2 は最大 3 時間の会議議事録と最大 212 ページの財務レポートを処理できます。

内部コンピューティング能力も大幅に向上しました。

InternLM2 は、計算機などの外部ツールに頼ることなく計算を実行し、いくつかの複雑な数学の問題を解決することができます。

100 以内の数学演算ではほぼ 100% の精度を達成でき、1000 以内では精度は 80% に達します。

コードインタープリターと併用すると、20B モデルは積分などの大学レベルの数学の問題を解くことができます。

ツール呼び出しに関しては、コマンド理解、ツールスクリーニング、結果反映などのより強力で一般化された機能に基づいて、InternLM2 は複雑なインテリジェントエージェントの構築をより確実にサポートし、ツールが効果的なマルチラウンド呼び出しを実行し、複雑なタスクを完了できるようにします。

総合的なパフォーマンスの点では、InternLM2 は推論、数学、コードにおいて優れたパフォーマンスを発揮します。

前世代と比べて大幅に改善されただけでなく、標準評価セットではいくつかの指標が ChatGPT を上回りました。

たとえば、InternLM2-Chat-20B は、MATH および GSM8K で ChatGPT よりも優れたパフォーマンスを発揮します。コードインタープリターと組み合わせると、GPT-4 と同等のレベルに到達できます。

推論能力に対する要件が高い AGIEval や BigBench-Hard (BBH) などの評価では、新世代の 20B モデルは ChatGPT よりも優れたパフォーマンスを発揮します。

同時に、InternLM2 は他のオープンソースモデルとの包括的なパフォーマンス比較も行います。

同様の仕様を持つベースモデルと対話モデルを比較すると、結果は次のようになります。

6B-7Bベースモデルの比較

13B-20Bベースモデルの比較

注: Mixtral-8x7B は推論ごとに約 13B のパラメータをアクティブにします。このモデルは最近注目を集めているため、参考としてそのパフォーマンスもここに記載します。

6B-7B対話モデルの比較

13B-20B対話モデルの比較

データから判断すると、InternLM2 は全面的なアップグレードを完了し、オープンソースコミュニティに「ChatGPT レベル」の大規模モデルオプションをもたらしました。

それで、これはどうやって実現されるのでしょうか?どのような技術革新がありましたか?

鍵はデータ品質の向上にある

多くの大規模モデルの反復アップグレードルートとは異なり、InternLM2 はパラメータスケールを拡張せず、代わりにデータに重点を置いています。

上海AI研究所の主任科学者である林大華教授は、これは全体的な戦略的考慮に基づいたものだと述べた。

非常に優れたバージョンのデータが抽出されると、さまざまな仕様のモデルのトレーニングをサポートできます。したがって、まず第一に、データを最先端レベルに保つために、データの反復に多大な労力を費やす必要があります。中重量モデルと軽量モデルのデータを反復処理することで、より迅速に作業を進めることができます。

この目的のために、上海 AI 研究所は、主に次の 3 つの側面に重点を置いた新世代のデータクリーニングおよびフィルタリングシステムを開発しました。

多次元データ価値評価
高品質なコーパス駆動型データエンリッチメント
ターゲットデータの補完

まず、データ価値評価では、言語品質や情報密度などの側面からデータ価値を総合的に評価し、向上させます。たとえば、研究チームは、フォーラムページへのコメントによってモデル機能が大幅に改善されるだけであることを発見しました。

そこで、研究チームは、高品質なコーパスの特性を活用して、現実世界、インターネット、コーパスからさらに類似したコーパスを充実させました。

これにより、シードデータをガイドして、真に知識のあるデータを収集し、その割合を増やすことができます。

最後に、世界知識、数学、コーディングなどのコア能力の強化に重点を置いて、コーパスを重点的に補完します。

新世代のデータクリーニングシステムを構築するために、研究チームは3桁の数のモデルをトレーニングしました。システムの各反復では、検証のために少なくとも 70 億規模の大規模モデルをトレーニングする必要があるためです。

新世代のデータクリーニング技術のサポートにより、トレーニングデータの約60％のみを使用して、以前のバージョンのデータでトレーニングされた1Tトークンのパフォーマンスを達成できます。

さらに、データ汚染による評価結果の歪みを回避するために、InternLM2 は、より厳密なトレーニングセット構築プロセスを通じて各テストセットを除外し、最小ハッシュ重複排除を通じてテストセットに近いトレーニングコーパスの部分を削除します。

もちろん、InternLM2 はモデルベースの機能に重点を置くだけでなく、現在のアプリケーショントレンドの要件に基づいて、いくつかの下流タスク機能も改善します。

たとえば、最近の超長いコンテキストの傾向。Lin Dahua 教授は、ツール呼び出しや数学的推論などのシナリオでは、より長いコンテキストウィンドウが必要であることを紹介しました。

そのため、InternLM2 はトレーニングウィンドウのサイズと位置エンコーディングの改善を拡大し、トレーニングに十分な長さ、高品質、構造化されたデータを見つけ、トレーニングシステムを最適化してコンテキストウィンドウのサポートを 200,000 トークンまで拡張します。

大規模モデルの対話エクスペリエンスに関しては、InternLM2 は Online RLHF を使用して、報酬モデルと対話モデルに対して 3 ラウンドの反復更新を実行します。各ラウンドの更新では、前のラウンドのモデルの好みデータとトレーニングプロンプトが更新されます。

報酬モデルのトレーニングと PPO ステージの両方でさまざまなプロンプトがバランスよく使用されるため、モデルのセキュリティがさらに向上し、会話の主観的なエクスペリエンスが大幅に向上します。

研究チームが、コミュニティが RLHF 前後のモデルの変化を分析および比較できるように、InternLM2-Chat SFT のみと SFT + RLHF の重みを同時にオープンソース化したことは注目に値します。

要約すると、上海AI実験室は、InterLM2のアップグレードと反復において、モデルベースの機能に重点を置いています。同時に、大規模なモデルアプリケーショントレンドのニーズに合わせて、いくつかの下流タスクの改善にも重点を置いています。

急速に進化するトレンドの中で、このような明確な思考は稀です。

チームはテクノロジーに対する深い理解とトレンドの正確な判断力を持つ必要があり、これにより大規模モデル開発の効率が大幅に向上し、モデルの反復とアップグレードが加速されます。

上海AI研究所がこのようなアイデアを思いついたのは、大きなモデルを開発するという当初の意図と関係がある。

本当に高品質なオープンソースを実現する

2023年の世界人工知能会議で、Shusheng Pu Yuモデルが正式にオープンソース化されました。

Shusheng Puyu の高品質でオールラウンドなオープンソースを通じて、ビッグモデルの革新と応用を促進し、より多くの分野と業界がビッグモデルの変化の波から恩恵を受けられるようにしたいと考えています。

要約すると、Shusheng Pu Yu の過去 7 か月間の一連のオープンソース作業は徹底的かつ包括的なものでした。

対象範囲は、一般的な大規模モデル、特殊タスクの大規模モデル（Shusheng·Pu Yulingbi）、フルチェーンツールシステム（データ、事前トレーニング、微調整、展開、評価、アプリケーションを通じて）、マルチモーダル事前トレーニングコーパス（Shusheng·Wanjuan）などです。

なぜこれをするのですか?

上海AI研究所の第一人者である林大華教授は、2つの理由を挙げた。

直接的な理由は、大規模モデルの応用のトレンドがすぐに到来し、オープンソースの高品質なベースの大規模モデルによって実装プロセスの中間チェーンを短縮できるためです。

林大華教授は、公共部門であれビジネス部門であれ、大規模モデルに対する忍耐力には限界があると分析した。 2024年には、このビッグモデルを実際の応用に向けて推進するために全力を尽くします。

高品質の基本大型モデルを作成することで、基本大型モデルが特定のシーンで期待されるレベルに到達できるようになり、より便利で高速になります。

より根本的な理由は、中国が独自の高品質なオープンソースのビッグモデルを必要としていることです。

大規模モデルのトレンドは ChatGPT によって始まりましたが、第 2 のクライマックスは Meta オープンソース LLaMA によってもたらされました。これにより、より多くの個人、機関、企業がビッグモデルの分野に参入し、豊富なアプリケーションを開発し、テクノロジーエコシステム全体に大きな影響を与えることができるようになります。

しかし、LLaMA の中国語の理解やその他のコンプライアンス上の考慮事項の限界により、中国には中国語ネイティブの高品質なオープンソースベースが必要です。

すべての要素を考慮すると、学術コミュニティはこのタスクをよりうまく達成できるようになります。

オープンソースベースモデルは、高品質を保証するだけでなく、さらに重要なことに、長期的に持続可能でなければなりません。企業もオープンソースに取り組むことができますが、企業には本質的に商業的な要求があり、焦点は基盤技術から商業アプリケーションへと徐々に移っていきます。これはそれ自体理解できることなので、上海人工知能研究所はここでその価値を発揮できる必要があります。

さらに、学術界は商業的な障壁の構築を考慮する必要がないため、オープンソースはより徹底したものになります。

林大華教授は、上海AI研究所は、大規模なモデルを作成する際に、アプリケーションに必要な機能を考慮し、ToC商用アプリケーションを作成するのではなく、パートナーと協力して、本質的に先駆的で模範的な革新的なアプリケーションを作成すると紹介しました。。

例えば、最近アップグレードされリリースされた医療マルチモーダル基本モデル群「Puyi 2.0」。これは、上海AI実験室と上海交通大学医学部付属瑞金病院などのパートナーが共同でリリースしたもので、「クロスドメイン、クロス疾患、クロスモダリティ」のAI医療アプリケーションの機能サポートを提供することを目指しています。現在、インテリジェント画像診断、デジタル病理部門の構築、デジタルヒューマン仮想手術、スマート臨床意思決定、革新的な医療研究を含む 5 つの主要な応用シナリオが構築されています。

この作品もオープンソースです。最新のアップグレードでは、いくつかの主要な医療ビッグモデルが追加されただけでなく、5つの新しいオープンソースデータセットと新しい評価モジュールも追加され、医療ビッグモデルグループの「制作、学習、研究、使用、評価」のワンストップオープンソースが実現されました。

△Puyi 2.0の基本医療モデルは、病理学、超音波、CT、MR、心電図など複数の医療分野をカバーしています。

これらの実際のオープンソースのステップを通じて、現在のトレンドの変化と、上海 AI ラボがそのトレンドをどのように理解しているかについての洞察を得ることができます。

業界では2024年が大型モデルの適用初年とみなされています。今年の初め、上海AI実験室の活動は、よりアプリケーションレベルに重点を置いていました。

林大華教授は、2024年のビッグモデル分野の鍵は、ビッグモデルが最も持続可能な応用価値を持つシナリオを誰が見つけられるかだと考えています。

このアプリケーションの価値は、チャットアプリなど、私たちがよく目にする対話型の形式ではないかもしれません。
私の携帯電話には、10 個以上の大型会話アプリがインストールされていますが、特に必要なアプリではないため、平均 2 時間しか使用していません。
そのため、業界全体にとって、誰もが認める、本当に役立つシナリオをいかに見つけるかが大きな課題です。
発見されれば、大型模型技術革命はまさに歴史に残るものとなるでしょう。 ”

このステップに到達するためには、基礎となる基本モデルが最も基本的かつ重要な影響要因となります。

テクノロジーの発展に戻ると、林大華教授は2024年についてもいくつかの予測と判断を下しました。