1月17日、新世代の大規模言語モデルShusheng Puyu 2.0(InternLM2)が正式にリリースされ、オープンソース化されました。 2 つのパラメータ仕様、3 つのモデルバージョン、合計 6 つのモデルがあり、すべて商用利用は無料です。 200K の超長いコンテキストをサポートし、200 ページの財務レポートを簡単に読み取ることができます。 20万件のテキスト全体の重要情報の想起精度は95.62%に達しました。 外部ツールの助けを借りなくても、本質的な数学的能力は ChatGPT を上回ります。コードインタープリターと組み合わせると、GPT-4 と同等のレベルに到達できます。 また、複数回のツール呼び出しやより高い共感などの機能ももたらされます。 これらすべては、Shusheng Pu Yu 2.0 の基本的なモデリング機能が大幅にアップグレードされ、コーパスの品質が向上し、情報密度が高まったことによるものだと理解されています。 それで、Shusheng Pu Yu 2.0 はどのようなアップグレードをもたらすのでしょうか?これはどうやって行うのですか? 上海AI研究所の第一人者である林大華教授が、その秘密を私たちに明かしてくれました。 ChatGPTに匹敵する主な機能Shusheng Puyu 2.0 には、7B と 20B の 2 つのパラメータ仕様が含まれています。 7B は軽量の研究とアプリケーションを対象としており、20B は総合的なパフォーマンスがより強力で、より複雑な使用シナリオをサポートできます。 各仕様には 3 つのモデル バージョンが含まれます。
ベースバージョンは、2.0 で追加された新しいバージョンです。機能が強化される前の InternLM2 の標準バージョンです。より基本的で柔軟性が高いため、探索的な研究に適しています。 InternLM2 の標準バージョンは Base をベースにしており、複数の機能が強化されています。優れた一般的な言語機能を維持しながら、テストスコアも向上しており、ほとんどのアプリケーションに適しています。 Chat バージョンは、Base をベースに SFT および RLHF の後に会話機能が強化されており、指示に従う機能、共感、呼び出しツールなどの機能が優れています。 具体的な機能面では、前世代と比較して、InterLM2 コアは基本的な言語モデリング機能が強化されています。 大規模で高品質な検証コーパス上での2世代モデルの損失分布を見ることができます。第2世代の分布は全体的に左にシフトしており、言語モデリング能力が大幅に強化されたことがわかります。 これにより、次のような下流タスクが全面的に改善されます。
InternLM2 は、高い情報想起成功率を維持しながら、200,000 語の超長いコンテキストを効果的にサポートするようになりました。これは、前世代に比べて大幅に改善されています。 InternLM2 では、「干し草の山の中の針」のような実験が行われました。長いテキストのさまざまな位置に重要な情報をランダムに挿入して質問を作成し、モデルが長いテキストから重要な情報を抽出できるかどうかをテストしました。 結果は、InternLM2-Chat の再現精度が依然として高く、16K 以内での平均精度は 95.65% であることを示しています。 実際のシナリオでは、InternLM2 は最大 3 時間の会議議事録と最大 212 ページの財務レポートを処理できます。 内部コンピューティング能力も大幅に向上しました。 InternLM2 は、計算機などの外部ツールに頼ることなく計算を実行し、いくつかの複雑な数学の問題を解決することができます。 100 以内の数学演算ではほぼ 100% の精度を達成でき、1000 以内では精度は 80% に達します。 コードインタープリターと併用すると、20B モデルは積分などの大学レベルの数学の問題を解くことができます。 ツール呼び出しに関しては、コマンド理解、ツールスクリーニング、結果反映などのより強力で一般化された機能に基づいて、InternLM2 は複雑なインテリジェントエージェントの構築をより確実にサポートし、ツールが効果的なマルチラウンド呼び出しを実行し、複雑なタスクを完了できるようにします。 総合的なパフォーマンスの点では、InternLM2 は推論、数学、コードにおいて優れたパフォーマンスを発揮します。 前世代と比べて大幅に改善されただけでなく、標準評価セットではいくつかの指標が ChatGPT を上回りました。 たとえば、InternLM2-Chat-20B は、MATH および GSM8K で ChatGPT よりも優れたパフォーマンスを発揮します。コードインタープリターと組み合わせると、GPT-4 と同等のレベルに到達できます。 推論能力に対する要件が高い AGIEval や BigBench-Hard (BBH) などの評価では、新世代の 20B モデルは ChatGPT よりも優れたパフォーマンスを発揮します。 同時に、InternLM2 は他のオープンソース モデルとの包括的なパフォーマンス比較も行います。 同様の仕様を持つベースモデルと対話モデルを比較すると、結果は次のようになります。 6B-7Bベースモデルの比較13B-20Bベースモデルの比較注: Mixtral-8x7B は推論ごとに約 13B のパラメータをアクティブにします。このモデルは最近注目を集めているため、参考としてそのパフォーマンスもここに記載します。 6B-7B対話モデルの比較13B-20B対話モデルの比較データから判断すると、InternLM2 は全面的なアップグレードを完了し、オープンソース コミュニティに「ChatGPT レベル」の大規模モデル オプションをもたらしました。 それで、これはどうやって実現されるのでしょうか?どのような技術革新がありましたか? 鍵はデータ品質の向上にある多くの大規模モデルの反復アップグレード ルートとは異なり、InternLM2 はパラメータ スケールを拡張せず、代わりにデータに重点を置いています。 上海AI研究所の主任科学者である林大華教授は、これは全体的な戦略的考慮に基づいたものだと述べた。 非常に優れたバージョンのデータが抽出されると、さまざまな仕様のモデルのトレーニングをサポートできます。したがって、まず第一に、データを最先端レベルに保つために、データの反復に多大な労力を費やす必要があります。中重量モデルと軽量モデルのデータを反復処理することで、より迅速に作業を進めることができます。 この目的のために、上海 AI 研究所は、主に次の 3 つの側面に重点を置いた新世代のデータクリーニングおよびフィルタリング システムを開発しました。
まず、データ価値評価では、言語品質や情報密度などの側面からデータ価値を総合的に評価し、向上させます。たとえば、研究チームは、フォーラム ページへのコメントによってモデル機能が大幅に改善されるだけであることを発見しました。 そこで、研究チームは、高品質なコーパスの特性を活用して、現実世界、インターネット、コーパスからさらに類似したコーパスを充実させました。 これにより、シード データをガイドして、真に知識のあるデータを収集し、その割合を増やすことができます。 最後に、世界知識、数学、コーディングなどのコア能力の強化に重点を置いて、コーパスを重点的に補完します。 新世代のデータクリーニングシステムを構築するために、研究チームは3桁の数のモデルをトレーニングしました。システムの各反復では、検証のために少なくとも 70 億規模の大規模モデルをトレーニングする必要があるためです。 新世代のデータクリーニング技術のサポートにより、トレーニングデータの約60%のみを使用して、以前のバージョンのデータでトレーニングされた1Tトークンのパフォーマンスを達成できます。 さらに、データ汚染による評価結果の歪みを回避するために、InternLM2 は、より厳密なトレーニング セット構築プロセスを通じて各テスト セットを除外し、最小ハッシュ重複排除を通じてテスト セットに近いトレーニング コーパスの部分を削除します。 もちろん、InternLM2 はモデルベースの機能に重点を置くだけでなく、現在のアプリケーション トレンドの要件に基づいて、いくつかの下流タスク機能も改善します。 たとえば、最近の超長いコンテキストの傾向。Lin Dahua 教授は、ツール呼び出しや数学的推論などのシナリオでは、より長いコンテキスト ウィンドウが必要であることを紹介しました。 そのため、InternLM2 はトレーニング ウィンドウのサイズと位置エンコーディングの改善を拡大し、トレーニングに十分な長さ、高品質、構造化されたデータを見つけ、トレーニング システムを最適化してコンテキスト ウィンドウのサポートを 200,000 トークンまで拡張します。 大規模モデルの対話エクスペリエンスに関しては、InternLM2 は Online RLHF を使用して、報酬モデルと対話モデルに対して 3 ラウンドの反復更新を実行します。各ラウンドの更新では、前のラウンドのモデルの好みデータとトレーニング プロンプトが更新されます。 報酬モデルのトレーニングと PPO ステージの両方でさまざまなプロンプトがバランスよく使用されるため、モデルのセキュリティがさらに向上し、会話の主観的なエクスペリエンスが大幅に向上します。 研究チームが、コミュニティが RLHF 前後のモデルの変化を分析および比較できるように、InternLM2-Chat SFT のみと SFT + RLHF の重みを同時にオープンソース化したことは注目に値します。 要約すると、上海AI実験室は、InterLM2のアップグレードと反復において、モデルベースの機能に重点を置いています。同時に、大規模なモデルアプリケーショントレンドのニーズに合わせて、いくつかの下流タスクの改善にも重点を置いています。 急速に進化するトレンドの中で、このような明確な思考は稀です。 チームはテクノロジーに対する深い理解とトレンドの正確な判断力を持つ必要があり、これにより大規模モデル開発の効率が大幅に向上し、モデルの反復とアップグレードが加速されます。 上海AI研究所がこのようなアイデアを思いついたのは、大きなモデルを開発するという当初の意図と関係がある。 本当に高品質なオープンソースを実現する2023年の世界人工知能会議で、Shusheng Pu Yuモデルが正式にオープンソース化されました。
要約すると、Shusheng Pu Yu の過去 7 か月間の一連のオープンソース作業は徹底的かつ包括的なものでした。 対象範囲は、一般的な大規模モデル、特殊タスクの大規模モデル(Shusheng·Pu Yulingbi)、フルチェーンツールシステム(データ、事前トレーニング、微調整、展開、評価、アプリケーションを通じて)、マルチモーダル事前トレーニングコーパス(Shusheng·Wanjuan)などです。 なぜこれをするのですか? 上海AI研究所の第一人者である林大華教授は、2つの理由を挙げた。 直接的な理由は、大規模モデルの応用のトレンドがすぐに到来し、オープンソースの高品質なベースの大規模モデルによって実装プロセスの中間チェーンを短縮できるためです。 林大華教授は、公共部門であれビジネス部門であれ、大規模モデルに対する忍耐力には限界があると分析した。 2024年には、このビッグモデルを実際の応用に向けて推進するために全力を尽くします。 高品質の基本大型モデルを作成することで、基本大型モデルが特定のシーンで期待されるレベルに到達できるようになり、より便利で高速になります。 より根本的な理由は、中国が独自の高品質なオープンソースのビッグモデルを必要としていることです。 大規模モデルのトレンドは ChatGPT によって始まりましたが、第 2 のクライマックスは Meta オープンソース LLaMA によってもたらされました。これにより、より多くの個人、機関、企業がビッグモデルの分野に参入し、豊富なアプリケーションを開発し、テクノロジー エコシステム全体に大きな影響を与えることができるようになります。 しかし、LLaMA の中国語の理解やその他のコンプライアンス上の考慮事項の限界により、中国には中国語ネイティブの高品質なオープンソース ベースが必要です。 すべての要素を考慮すると、学術コミュニティはこのタスクをよりうまく達成できるようになります。 オープンソース ベース モデルは、高品質を保証するだけでなく、さらに重要なことに、長期的に持続可能でなければなりません。企業もオープンソースに取り組むことができますが、企業には本質的に商業的な要求があり、焦点は基盤技術から商業アプリケーションへと徐々に移っていきます。これはそれ自体理解できることなので、上海人工知能研究所はここでその価値を発揮できる必要があります。 さらに、学術界は商業的な障壁の構築を考慮する必要がないため、オープンソースはより徹底したものになります。 林大華教授は、上海AI研究所は、大規模なモデルを作成する際に、アプリケーションに必要な機能を考慮し、ToC商用アプリケーションを作成するのではなく、パートナーと協力して、本質的に先駆的で模範的な革新的なアプリケーションを作成すると紹介しました。 。 例えば、最近アップグレードされリリースされた医療マルチモーダル基本モデル群「Puyi 2.0」。これは、上海AI実験室と上海交通大学医学部付属瑞金病院などのパートナーが共同でリリースしたもので、「クロスドメイン、クロス疾患、クロスモダリティ」のAI医療アプリケーションの機能サポートを提供することを目指しています。現在、インテリジェント画像診断、デジタル病理部門の構築、デジタルヒューマン仮想手術、スマート臨床意思決定、革新的な医療研究を含む 5 つの主要な応用シナリオが構築されています。 この作品もオープンソースです。最新のアップグレードでは、いくつかの主要な医療ビッグモデルが追加されただけでなく、5つの新しいオープンソースデータセットと新しい評価モジュールも追加され、医療ビッグモデルグループの「制作、学習、研究、使用、評価」のワンストップオープンソースが実現されました。 △Puyi 2.0の基本医療モデルは、病理学、超音波、CT、MR、心電図など複数の医療分野をカバーしています。これらの実際のオープンソースのステップを通じて、現在のトレンドの変化と、上海 AI ラボがそのトレンドをどのように理解しているかについての洞察を得ることができます。 業界では2024年が大型モデルの適用初年とみなされています。今年の初め、上海AI実験室の活動は、よりアプリケーションレベルに重点を置いていました。 林大華教授は、2024年のビッグモデル分野の鍵は、ビッグモデルが最も持続可能な応用価値を持つシナリオを誰が見つけられるかだと考えています。
このステップに到達するためには、基礎となる基本モデルが最も基本的かつ重要な影響要因となります。 テクノロジーの発展に戻ると、林大華教授は2024年についてもいくつかの予測と判断を下しました。
つまり、2024 年はオープンソースのビッグ モデルの最高潮を迎える可能性が高いということです。 さて、新年最初の一発は上海AI研究所から発射されました。 Shusheng Puyu 2.0 のオープンソース リンクは https://github.com/InternLM/InternLM です。 無料の商用ライセンス申請: https://wj.qq.com/s2/12725412/f7c1。 |
<<: Google 数学 AI が Nature に発表: IMO 金メダルの幾何学レベル、定理証明は呉文軍の 1978 年の法則を上回る
>>: Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上
機械学習におけるモデルのデプロイメントとは、機械学習モデルを既存の運用環境に統合し、入力を受け入れて...
01データセットの準備使用されるデータセットは、30 次元の特徴と 569 個のサンプルを含む、sk...
ソレダッド・ガリ翻訳者:趙青棠企画丨孫淑娇、梁策インターネットで「特徴選択」を検索してみると、特徴選...
最近、マイクロソフトリサーチアジアの公式サイトから、同社の研究チームが、同社が開発した最新の機械翻訳...
中国自動車工程協会と国家インテリジェントコネクテッドビークルイノベーションセンターは、「2021年第...
エッジ コンピューティングのパフォーマンスの向上により、メモリの設計、タイプの選択、構成に課題が生じ...
最近、「JD.comが今後10年間で8万人の従業員を解雇する」というニュースがネット上で広まった。こ...
画像背景除去プログラムは、画像内の被写体と背景を自動的に分割し、背景を除去することによって機能します...
AI は、建設業界が大規模なインフラ プロジェクトを計画、実行、管理する方法に革命をもたらし、組織が...
編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)過去 2 ...
[[414082]]画像ソース: https://pixabay.com/images/id-592...
データ注釈業界では、「知能と同じくらい人工知能も存在する」という有名な格言があります。ラベル付けが必...