200億の「Shusheng·Puyu 2.0」が正式にオープンソース化されました！データプッシュのパフォーマンスはChatGPTに匹敵し、20万の超長コンテキストを完璧に再現します。

ちょうど本日、上海人工知能研究所とSenseTimeは、香港中文大学および復旦大学と共同で、次世代大規模言語モデルScholar Puyu 2.0（InternLM2）を正式にリリースしました。

GitHub: https://github.com/InternLM/InternLM

ハギングフェイス: https://huggingface.co/internlm

モデルスコープ: https://modelscope.cn/organization/Shanghai_AI_Laboratory

新世代の InternLM2 は、2.6 兆トークンの高品質コーパスでトレーニングされており、7B と 20B の 2 つのパラメータ仕様と、ベースバージョンとダイアログバージョンが含まれています。

20 万の超長コンテキスト、約 30 万語のテキストをサポートし、「干し草の山の中の針」実験で完璧な再現率を達成しました。

第 1 世代の InternLM と比較すると、新世代の大型モデル、軽量 (7B)、中量 (20B) は、同じサイズのモデルよりも優れたパフォーマンスを発揮します。特に数学的推論においては、20B パラメータモデルは GSM8K および MATH 評価で ChatGPT (GPT-3.5) よりも優れています。

研究チームによると、InternLM2の中核概念は「言語モデリングの本質に戻る」ことであり、コーパスの品質と情報密度を向上させることで、モデルベースの言語モデリング機能の質的向上を達成することに尽力しているという。

InternLM2の軽量版と中量版は、同レベルのオープンソースモデルよりも優れています。

InternLM2は数学、コード、対話、創造などの面で大きな進歩を遂げ、その総合的なパフォーマンスは同レベルのオープンソースモデルの最高レベルに達していることがわかります。上海 AI 研究所も「高品質のオープンソースでイノベーションを推進する」というコンセプトを堅持し、InterLM2 の無料商用ライセンスを継続的に提供しています。

また、AIエコシステムの発展を促進し、各業界での大規模モデルの応用を促進するため、同日、Shusheng Puyuan Large Model Challengeが開始されました。

このコンテストは、上海市経済情報化委員会、上海市科学技術委員会、徐匯区人民政府が共同で主導し、上海人工知能実験室（上海AI実験室）が主催し、上海人工知能産業協会が担当する。第1回コンテストには、産業応用とイノベーション・創造性の2つのトラックがあり、本日より世界中からシーンとチームが募集されている。

言語モデルの本質に立ち返り、大規模モデル機能の強固な基盤を構築する

過去数年間、国内外の機関が数多くの優れた大規模言語モデルをオープンソース化し、豊富な下流アプリケーションを生み出し、世界的な大規模モデルオープンソースエコシステムの繁栄を効果的に促進してきました。大規模モデルアプリケーションエコシステムの発展と繁栄は、モデルベースの強力な一般的な基本機能に基づいています。

上海AI実験室の共同チームは、大規模モデルの性能向上の基盤は言語モデリング能力の強化にあると考えています。大規模モデルの研究では、言語モデリングの本質に立ち返り、より高品質なコーパスとより高い情報密度を通じて、大規模モデル能力の強固な基礎を築く必要があります。

この目的のために、共同チームは、主に以下の側面における技術的手法を開発し、新世代のデータクリーニングおよびフィルタリング技術を提案しました。

- 多次元データ価値評価：言語品質、情報密度などの次元に基づいてデータ価値を総合的に評価し、向上させます。

- 高品質コーパスによるデータの拡充:高品質コーパスの特性を利用して、現実世界、インターネット、コーパスからの類似のコーパスをさらに拡充します。

- ターゲットを絞ったデータの補完:現実世界の知識、数学、コーディングなどのコア能力の強化に重点を置いた、ターゲットを絞ったデータの補完。

現在、PuYu のデータクリーニングおよびフィルタリング技術は、3 回の反復アップグレードを経ており、トレーニングデータの約 60% のみを使用して第 2 世代データを使用して 1T トークンをトレーニングするパフォーマンスを実現し、モデルトレーニングの効率が大幅に向上しています。

第3世代のデータクリーニングおよびフィルタリング技術により、モデルのトレーニング効率が大幅に向上

第 3 世代のデータクリーニングおよびフィルタリング技術に基づいて、InternLM2 の言語モデリング機能が大幅に強化されました。

第 1 世代の InternLM と比較すると、大規模で高品質な検証コーパスにおける InternLM2 の損失分布は左にシフトしており、言語モデリング機能が大幅に強化されていることがわかります。

200K の長いコンテキストをサポートし、干し草の山から針を見つけるのにほぼ最適です。

ロングコンテキストの入力と理解機能により、実際のシナリオでの大規模なドキュメントの処理、複雑な推論計算、ツール呼び出しのサポートなど、大規模モデルのアプリケーションシナリオを大幅に拡張できます。

しかし、大規模モデルのコンテキストの長さが限られていることは、学界と産業界が直面している大きな課題のままです。

このため、InternLM2 は、トレーニングウィンドウのサイズを拡大し、位置エンコーディングを改善することで、20 万個のトークンコンテキストをサポートします。一度に約 30 万個の漢字 (約 500 ～ 600 ページの文書) の入力コンテンツを受け入れて処理し、重要な情報を正確に抽出して、長いテキストから「干し草の山から針を見つける」ことを実現します。

研究者らは業界の例を参考に、InterLM2 で「干し草の山の中の針」のような実験を実施しました。つまり、長いテキスト内のさまざまな位置に重要な情報がランダムに挿入され、モデルがそこから重要な情報を抽出できるかどうかをテストするための質問が設定されました。

InternLM2「干し草の山の中の針」テスト結果

上の図は、異なる長さのコンテキスト (横軸) とコンテキスト内の異なる位置 (縦軸) における重要な情報を思い出す際の InternLM2 の精度 (再現率) を示しています。赤は再現精度が低いことを表し、緑は再現精度が高いことを表します。

実験結果によると、コンテキストの長さが 200K に拡張された場合でも、InternLM2 はほぼ完璧なリコール成功率を維持し、超長いコンテキストに対する InternLM2 の堅牢なサポート能力を検証しています。

InternLM2 が実際の長いテキストを処理する能力をテストするために、研究者は公開会議の録音の 3 時間のトランスクリプトをモデルに入力し、そこから重要な情報を抽出するよう InternLM2 に依頼しました。

テスト結果によると、校正されていないテキストには多くのタイプミスがあるにもかかわらず、InternLM2 は重要な情報を正確に抽出し、話者の要点を要約しています。

InternLM2は「2023年10月2日に開催された国連貿易開発会議の議事録」を正確に要約しています

包括的なパフォーマンスの改善と最先端の包括的な機能を備えたオープンソースモデル

InternLM2 は、機能のあらゆる面で総合的な進歩を遂げました。第 1 世代の InternLM と比較すると、推論、数学、コードなどの改善が特に顕著であり、その総合的な機能は同レベルのオープンソースモデルを上回っています。

研究者らは、大規模言語モデルの適用方法とユーザーの主要関心領域に基づいて、言語、知識、推論、数学、コード、試験の 6 つの能力次元を定義し、55 の主流評価セットで同じレベルの複数のモデルのパフォーマンスを総合的に評価しました。

結果は、InterLM2 の軽量 (7B) および中重量 (20B) バージョンが、同じサイズのモデルよりも優れていることを示しています。

InternLM2の軽量版と中量版は、同レベルのオープンソースモデルよりも優れています。

以下の表は、典型的な評価セットにおけるInternLM2のさまざまなバージョンとChatGPT（GPT-3.5）およびGPT-4のパフォーマンスを比較したものです。 InternLM2 は中規模の 20B パラメータのみを使用していることがわかります。つまり、全体的なパフォーマンスは ChatGPT と同等です。

中でも、推論能力に対する要求が高いAGIEval、BigBench-Hard (BBH)、GSM8K、MATHなどの評価では、InternLM2はChatGPTよりもさらに優れたパフォーマンスを発揮します。

InternLM2とChatGPTの評価結果の比較

同時に、総合的なパフォーマンスの向上により、下流タスクの能力が全面的に向上します。新しくリリースされた InternLM2 は、優れた会話と作成エクスペリエンスを提供し、複数ラウンドのタスク計画とツール呼び出しをサポートし、実用的なデータ分析機能を提供します。

対話と創造：より優しさとより想像力を

InternLM2 は、客観的なパフォーマンス指標が大幅に改善されただけでなく、主観的なエクスペリエンスも明らかに改善され、ユーザーに優れた会話とインタラクションのエクスペリエンスを提供します。

研究テストでは、InternLM2-Chat はユーザーの意図を正確に理解して従うことができ、強い共感力と構造化された豊かな創造力を備えていることが示されています。以下にいくつか例を挙げます。

1. 厳格なフォーマット要件に従ってコース概要を準備する

InternLM2 が設計したコース概要は、ユーザーの要件 (形式、量、内容など) に正確に従います。

2. 人間味のある回答でユーザーを啓発する

InternLM2は会話の中でユーザーと「共感」できる

3. 想像力を駆使して『流浪の地球3』の脚本を書いてみよう

InternLM2 は、エイリアンの遺物や量子もつれの導入など、豊かな想像力で設計されています。同時に、物語全体を通して、危機に直面した人間の勇気と連帯が描かれています。

会話や創造的体験の向上は、一方では基本的な言語スキルの大幅な向上によるものであり、他方では微調整技術の向上によるものです。

微調整プロセス中、InternLM2 は第 3 世代のデータクリーニングおよびフィルタリング技術によって処理された命令微調整コーパスを使用するだけでなく、より強力なオンライン RLHF も採用しました。

この期間中、研究者らは報酬モデルと対話モデルに対して 3 回の反復更新も実行しました。各更新ラウンドでは、前のラウンドのモデルのパフォーマンスに基づいて、好みデータとプロンプトワードが更新されました。

報酬モデルトレーニング（RM）と近似ポリシー最適化（PPO）の段階で、研究者はさまざまなプロンプトワードをバランスよく使用しました。これにより、会話のセキュリティが向上しただけでなく、ユーザーエクスペリエンスも向上しました。

ツール呼び出し: 機能のアップグレード、より正確なツール選択、より信頼性の高いマルチステップ計画

InternLM2 は、コマンド理解、ツールスクリーニング、結果反映などのより強力で一般化された機能に基づいて、複雑なインテリジェントエンティティの構築をサポートし、複数回の効果的なツール呼び出しと複数ステップの計画をサポートし、複雑なタスクを完了できます。

評価を容易にするために、共同チームはさまざまなタスク用のきめ細かいツール呼び出し評価セット T-Eval を構築しました。

プロジェクトアドレス: https://open-compass.github.io/T-Eval/

結果は、この評価セットにおける InternLM2-Chat-7B のパフォーマンスが Claude-2.1 および現在のオープンソースモデルを上回り、そのパフォーマンスが GPT-3.5 に近いことを示しています。

InternLM2ツール呼び出し機能が全面的に改善されました

ツールを呼び出すことで、大規模な言語モデルは検索、計算、コードインタープリターなどを使用して知識を獲得し、より複雑な問題を処理できるため、アプリケーションの境界が広がります。

モデル呼び出しツールのプロセスについては、研究者らはきめ細かな分解と分析も実装し、計画、推論、ツールの選択、理解、実行、反映などのステップを対象にした機能強化と最適化を実施しました。

オープンソースエージェントフレームワーク Lagent を通じて InternLM2 に基づいて構築されたユーザーアシスタントエージェントは、マップクエリ、ルート計画、電子メール送信などのタスクを 1 つのコマンド応答で完了できます。

数学的推論：問題を解決し、視覚的な分析も行うことができる

数学的能力は、大規模な論理的思考力と推論能力の重要な現れです。

この目的のために、上海AI研究所は、より科学的な事前トレーニングコーパスを構築することで、InternLM2の数学的機能を包括的に改善し、現在のオープンソースモデルのベンチマークレベルにまで引き上げました。

電卓などの外部ツールに頼ることなく、極めて強力な内生的計算能力を持つInterLM2は、100以内の簡単な数学演算ではほぼ100%の精度率を達成し、1000以内では約80%の精度率を達成できます。

GSM8K および MATH テストでは、InternLM2-20B のパフォーマンスは ChatGPT (GPT-3.5) を上回りました。

InternLM2 は、100 以内の単純な数学演算でほぼ 100% の精度を達成できます。

さまざまな複雑な計算に対処するために、InternLM2-Chat はコードインタープリターを使用して計算用のコードを記述したり、推論結果の形式検証を実行したりすることもできます。これにより、計算要件が高い問題や計算プロセスがより複雑な問題を解決できます。

一般的な数学ベンチマークセット GSM8K および MATH では、InternLM2 はコードインタープリターを使用してより高いスコアを達成しました。

中でも、より難しいMATHデータセットでは、InternLM2の計算精度が32.5から51.2に大幅に向上し、GPT-4の性能を上回りました。

InternLM2とChatGPTの数学能力評価結果の比較

次の例は、InternLM2 をコードインタープリターと組み合わせて使用して、より複雑で高度な数学の問題を解決する方法を示しています。

InternLM2は積分などの高度な数学の問題を解くことができます

InternLM2 は、コンピューティングとツール呼び出しにおける強力な基本機能に基づいて、ユーザーシナリオに近い言語モデルでの実用的なデータ分析と視覚化機能を備えています。

国家統計局が発表した「2023年3月から11月までの指定規模以上の工業企業の主な財務指標（業種別）」をInternLM2に入力すると、InternLM2はデータを分析し、折れ線グラフを描くことができます。

<<:

>>: Stability AI が新しいコードモデル Stable Code 3B をリリースしました。 70億のCode Llamaに匹敵し、GPUなしでも実行可能

ブログ

200億の「Shusheng·Puyu 2.0」が正式にオープンソース化されました！データプッシュのパフォーマンスはChatGPTに匹敵し、20万の超長コンテキストを完璧に再現します。

言語モデルの本質に立ち返り、大規模モデル機能の強固な基盤を構築する

200K の長いコンテキストをサポートし、干し草の山から針を見つけるのにほぼ最適です。

包括的なパフォーマンスの改善と最先端の包括的な機能を備えたオープンソースモデル

対話と創造：より優しさとより想像力を

ツール呼び出し: 機能のアップグレード、より正確なツール選択、より信頼性の高いマルチステップ計画

数学的推論：問題を解決し、視覚的な分析も行うことができる

2021 年の自然言語処理 (NLP) のトレンドトップ 10

自動運転車は交通事故のほとんどをなくすことはできないかもしれない

Versius手術ロボットが英国泌尿器科手術に登場

旅行業界における機械学習と AI: 5 つの重要な業界ユースケース

ブックマークにおける不正行為の特定におけるグラフィカルモデルの応用

ACオートマトンとベイズ法に基づくスパム識別

スマートシティ技術の未来: AI、ビッグデータ、クラウド

推薦する

アリババクラウド＋新たな実体経済データ、人工知能の第二の60年を巡る戦い

AI導入によるエッジインテリジェンスの強化

Javaは4つのWeChat赤い封筒をつかむアルゴリズムを実装し、感謝せずにそれを受け取ります

ビッグデータと人工知能の関係

ワンクリックでコード化からコード化なしに変更できますか? AIブラックテクノロジーは本当にモザイクを除去できるのか？

AI を活用した検索と推奨はどれほど強力でしょうか?

自動運転：「乗っ取り」という言葉を恐れるのをやめよう

世界情報会議が開幕、ロビン・リー、ジャック・マー、劉伝志ら著名人が集結

毎日のアルゴリズム: 完全順列問題

人間の仕事が危機に瀕しているか？この時代にいかに目立つかが非常に重要です

Pudu Technology、新製品「Hulu」をリリース、4月19日より先行販売開始

ユーザー投票に基づくランキングアルゴリズム: Delicious と Hacker News

チャットボットが消費者と企業に役立つ6つの方法