一度に35万字の漢字を読める世界最強の長文モデル「Baichuan2-192K」がオンラインに

国内の大型モデルスタートアップがテクノロジーの最前線で新記録を打ち立てている。

10月30日、百川知能は、大規模言語モデル（LLM）コンテキストウィンドウの長さを192Kトークンに増加した「百川2-192Kロングウィンドウ大規模モデル」を正式にリリースしました。

これは、大規模モデルが一度に約35万字の中国語文字を処理できるようにすることに相当し、これはGPT-4（32Kトークン、約25,000文字）の14倍の長さ、Claude 2.0（100Kトークン、約80,000文字）の4.4倍の長さに相当します。

つまり、Baichuan2-192K は『三体2』を一冊丸ごと一気に読むことができ、処理コンテキストウィンドウが最も長い世界最大のモデルとなります。さらに、テキスト生成品質、コンテキスト理解、質問応答機能など、複数の側面の評価においても競合他社を大きくリードしています。

非常に長いテキストを一度に理解できる大規模なモデルでは何ができるでしょうか? Baichuan Intelligence が簡単なデモンストレーションを行いました。

「三体2 暗い森」全体の PDF ファイルをアップロードすると、Baichuan Model は 30 万語あると計算しました。次に、小説について何か質問すると、ビッグモデルは簡潔かつ正確な答えを返すことができます。

時には、想像力を使うためではなく、正確な情報を抽出するために AI の助けを求めることもあります。 Baichuan2-192Kを使用すると、数十ページまたは数百ページに及ぶ契約文書を迅速に解釈できるため、AIは簡潔な要約をすばやく提供でき、量子速度の読み取りが可能になります。

では、突然新しいタスクが与えられ、大量の文書を確認する必要が生じた場合はどうすればよいでしょうか?

それらをパッケージ化してアップロードするだけです。Baichuan の大きなモデルでは、5 つのニュース記事を 1 つに簡単に統合できます。

大規模モデルが理解できるコンテンツが長くなるにつれて、適用方向もますます多様化していきます。ご存知のとおり、長いテキストをモデル化する機能は、多くのシナリオの適用の前提条件です。今回、Baichuan が業界をリードしました。

数万語から数十万語まで、大手スタートアップ企業は「長い窓」をつかもうと奮闘している

テキスト理解におけるビッグモデルの応用に注目すると、ある現象に気付くかもしれません。当初、モデルの能力を評価するために使用されるテキストは、財務レポートや技術レポートである可能性があります。これらのテキストは通常、数十ページから数十ページに及び、単語数は通常数万に過ぎません。しかし、その後、試験のテキストは徐々に数時間の会議の議事録や数十万語の小説に発展し、競争はますます激しくなり、難易度はますます高くなりました。

同時に、より長いコンテキストを理解していると主張する大手モデル企業が勢いを増しています。たとえば、少し前、10 万トークンのコンテキストウィンドウの大規模モデルを実現できると主張していた Claude の開発元である Anthropic 社は、Microsoft と Google から数十億ドルの資金提供を受け、大規模モデルの軍拡競争を新たなレベルに押し上げました。

なぜこれらの企業は長いテキストに挑戦しているのでしょうか?

まず、アプリケーションの観点から見ると、弁護士、アナリスト、コンサルタントなど、生産性を向上させるためにビッグモデルを使用する多くの労働者は、必然的に非常に長いテキストを処理する必要があります。コンテキストウィンドウが大きいほど、これらの人々がビッグモデルでできることが増えます。次に、技術的な観点から見ると、ウィンドウに収容できる情報が多いほど、モデルが次の単語を生成するときに参照できる情報が多くなり、「幻覚」が発生する可能性が低くなり、生成される情報の精度が高くなります。これは、ビッグモデルテクノロジーの実装に必要な条件です。そのため、モデルのパフォーマンスを向上させる方法を模索する一方で、より多くのシナリオに適用できるようにコンテキストウィンドウを大きくできるかどうかを競う企業も存在します。

上記のいくつかの例からわかるように、Baichuan2-192K はテキスト生成品質とコンテキスト理解の両方で優れたパフォーマンスを発揮します。さらに、これらの定性的な結果を超えて、いくつかの定量的な評価データからもこれを確認できます。

Baichuan2-192K: ファイルが長いほど、利点は明らかになります

テキスト生成の品質評価において、非常に重要な指標は「パープレキシティ」です。人間の自然言語習慣に適合した高品質の文書をテストセットとして使用する場合、モデルがテストセットでテキストを生成する確率が高くなるほど、モデルのパープレキシティは小さくなり、モデルの品質が向上します。

Baichuan モデルの難解さをテストするために使用されるテストセットは PG-19 と呼ばれます。このデータセットは DeepMind の研究者によって作成され、データセットの作成に使用された素材は Project Gutenberg の書籍から取得されているため、PG-19 であり、書籍レベルの品質を備えています。

テスト結果を下の図に示します。初期段階（横軸の左側、コンテキスト長が比較的短い段階）では、Baichuan2-192Kの困惑度は比較的低いレベルにあることがわかります。コンテキストの長さが長くなるにつれて、その利点はますます明白になり、困惑が継続的に減少する状態さえ示します。これは、長いコンテキストのシナリオでは、Baichuan2-192K が書籍レベルのテキスト生成品質をよりよく維持できることを示しています。

文脈理解能力の点でも、Baichuan2-192K は非常に優れた性能を発揮します。

この機能は、信頼性の高いロングウィンドウテキスト理解ベンチマーク LongEval を使用して評価されます。 LongEval は、カリフォルニア大学バークレー校などが発表したロングウィンドウモデル評価のランキングリストです。主に、ロングウィンドウコンテンツを記憶して理解するモデルの能力を測定します。モデルのスコアが高いほど、優れています。

下図の評価結果から、コンテキスト長が増加するにつれて、 Baichuan2-192Kはウィンドウ長が100Kを超えた後でも安定して高いパフォーマンスを維持できていることがわかります。対照的に、Claude 2 の全体的なパフォーマンスは、ウィンドウの長さが 80K を超えると大幅に低下します。

さらに、このモデルは、Dureader、NarrativeQA、TriviaQA、LSHT などの複数の中国語と英語の長文質問回答および要約評価セットでテストされています。結果は、Baichuan2-192K も優れたパフォーマンスを示し、ほとんどの長文評価タスクで他のモデルをはるかに上回っていることを示しています。

つまり、処理されるコンテンツが長くなるほど、Baichuan の大規模モデルの相対的なパフォーマンスは向上します。

192K の超長いコンテキスト、Baichuan はどうやってそれを実現したのでしょうか?

コンテキストウィンドウを拡張すると、大規模モデルのパフォーマンスが効果的に向上するというのは人工知能業界のコンセンサスですが、コンテキストウィンドウが非常に長くなると、必要なコンピューティング能力が高まり、ビデオメモリの負荷も大きくなります。

このプレッシャーを軽減するために、モデルを小さくする、スライディングウィンドウなどを通じてモデルが以前のコンテキストを積極的に破棄し、最新の入力に対してのみ注意メカニズムを保持できるようにする、コンテキストのダウンサンプリングまたは RAG (検索拡張生成) を通じて、入力の一部に対してのみ注意メカニズムを保持するなどの妥協案が業界で登場しています。

これらの方法はコンテキストウィンドウの長さを増やすことができますが、いずれもモデルのパフォーマンスをさまざまな程度に低下させます。言い換えれば、これらはすべて、コンテキストウィンドウの長さと引き換えに、モデルのパフォーマンスの他の側面を犠牲にしています。たとえば、モデルはフルテキスト情報に基づいて複雑な質問に答えることができず、複数のテキストにわたる回答を包括的に考慮することは困難です。

今回百川が発表した百川2-192Kは、アルゴリズムとエンジニアリングの極限の最適化により、ウィンドウ長とモデル性能のバランスを実現し、ウィンドウ長とモデル性能の同時向上を実現した。

アルゴリズムの面では、Baichuan Intelligence は RoPE と ALiBi の動的位置エンコーディングのための外挿スキームを提案しました。このスキームでは、解像度を確保しながら、長いシーケンスの依存関係をモデル化するモデルの能力を強化し、異なる解像度の ALiBi_mask に対して Attention-mask をさまざまな程度に動的に補間できます。

エンジニアリングの面では、Baichuan Intelligence は独自に開発した分散トレーニングフレームワークに基づいて、テンソル並列処理、パイプライン並列処理、シーケンス並列処理、再計算、オフロード機能など、現在市場にあるすべての高度な最適化テクノロジを統合し、包括的な 4D 並列分散ソリューションを作成しました。このソリューションは、特定の負荷条件に基づいて最適な分散戦略を自動的に見つけることができるため、長いウィンドウの推論中のメモリ使用量が大幅に削減されます。

ビッグモデルバトルを戦うにはスピードが求められる

今年4月に設立されたBaichuan Intelligenceは、業界で最も速い技術革新を誇る大規模モデルスタートアップ企業と言えるでしょう。同社は設立からわずか半年で、商用利用が無料のオープンソース大型モデル「Baichuan-7B/13B」、「Baichuan2-7B/13B」4機種と、クローズドソース大型モデル「Baichuan-53B」、「Baichuan2-53B」2機種をリリースした。

平均すると、毎月新しい主要モデルがリリースされます。

Baichuan シリーズの大規模モデルは、意図理解、情報検索、強化学習技術を統合し、教師ありの微調整と人間の意図との整合を組み合わせており、知識質問応答とテキスト作成の分野で優れたパフォーマンスを発揮します。これらの大型モデルは、その性能の高さから業界でも高い支持を得ており、主要なオープンソースコミュニティにおけるBaichuanシリーズのオープンソースモデルの累計ダウンロード数は600万回を超えています。Baichuan 2はあらゆる面でLlama 2を上回っており、中国のオープンソースエコシステムの発展をリードしています。

8月31日、百川知能は「生成型人工知能サービス管理暫定弁法」を最初に通過し、第一陣8社の中で今年設立された唯一の大規模モデル企業となった。 9月25日、百川インテリジェンスは百川APIインターフェースをオープンし、正式にTo B分野に参入し、商用化プロセスを開始しました。

技術研究開発から実装まで、Baichuan のスピードは十分に速いと言えます。

新しくリリースされた Baichuan2-192K は正式に内部テストを開始しており、API 呼び出しを通じてコアパートナーに公開される予定です。 Baichuanは、金融メディア、法律事務所などの機関と協力関係を築き、Baichuan2-192Kの優れたロングコンテキスト機能をメディア、金融、法律などの具体的なシナリオに適用し、まもなくAPI呼び出しとプライベート展開の形で企業ユーザーに提供される予定だと述べた。

Baichuan2-192KはAPIの形で完全にオープン化された後、多数の垂直シナリオと深く統合され、人々の仕事、生活、学習において役割を果たし、業界ユーザーの効率を大幅に向上させるのに役立ちます。 Baichuan2-192K は、一度に数百ページの資料を処理および分析することができ、長い文書から重要な情報を抽出して分析したり、長い文書を要約したり、長い文書を確認したり、長い記事やレポートを書いたり、複雑なプログラミングを支援したりするなど、実際のシナリオで大きな役割を果たします。

以前、百川知能の創業者兼CEOの王小川氏は、今年下半期に百川が数千億元規模の大型モデルを発売し、来年にはCエンドにスーパーアプリケーションが展開されると明らかにした。

OpenAIとのギャップに直面して、王小川氏は、理想の面で我々とOpenAIの間には確かにギャップがあることを認めた。OpenAIの目標は知能の限界を探ることであり、1000万個のGPUを接続する技術を設計することさえ望んでいる。しかし、応用面では、私たちは米国よりも速く動いています。インターネット時代に蓄積された応用と生態学的経験は、私たちがより速く、より遠くまで進むことを可能にします。したがって、百川の大型モデル構築の概念は、「理想では一歩遅く、実行では三歩速い」と呼ばれています。

この観点から見ると、Baichuan2-192Kはこの概念の延長であり、世界最長のコンテキストウィンドウは間違いなくBaichuanのインテリジェントな大規模モデル技術の実装を加速するでしょう。

<<: AIアラインメントを説明する4万語：北京大学と複数の大学チームがアラインメントの包括的なレビューを発表

>>: ホワイトハウスのAIに関する大統領令がサイバーセキュリティリーダーに何を意味するか

一度に35万字の漢字を読める世界最強の長文モデル「Baichuan2-192K」がオンラインに

数万語から数十万語まで、大手スタートアップ企業は「長い窓」をつかもうと奮闘している

Baichuan2-192K: ファイルが長いほど、利点は明らかになります

192K の超長いコンテキスト、Baichuan はどうやってそれを実現したのでしょうか?

ビッグモデルバトルを戦うにはスピードが求められる

ついに誰かが「組み込み人工知能」を明らかにした

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

OpenAIの最新製品が企業ビジネスにもたらす意味

Google がバトルロワイヤルで 3 万人の従業員を解雇、数百人の従業員が AI によって排除される! IMF議長は、世界の雇用の40％が影響を受け、プログラマーの5分の1が困難に直面していると主張

人工知能の役割がクローズアップ！ロボットが増えると雇用に影響が出るでしょうか?

マイクロマシンラーニングは、マイクロプロセッサにディープラーニングを組み込むことを約束する

ChatGPTに「カスタムコマンド」機能が追加されました

AIがセキュリティの自動化、分析、対応にどのように役立つか

学者は大喜び！MetaがPDFと数式を変換できるOCRツールをリリース

推薦する

AIキーストロークパターン検出によるパスワードの認識を防ぐ方法

コンサルタントは AI に置き換えられるでしょうか?主流のコンサルティング会社：心配するよりも受け入れる

Sora がインターネット上で話題になるバイラル動画を作成、OpenAI は TikTok の競合製品を立ち上げようとしているのか?専門家は推測する：これは計画の一部である

業界の競争が激化する中、人工知能が経済のデジタル化をどう推進するかを見てみましょう。

トニー先生に別れを告げる：海外の専門家が流行中に独自の美容ロボットを製作

アルゴリズム学習実践ガイド

文勝ビデオの次の目的地であるメタはすでにビデオ制作を開始している

スーパー人工知能とは何ですか?

マインドコントロールが現実に：話したり手を動かさずに、ただ横たわっているだけでゲームをプレイできる

大規模なモデルを効率的に展開するにはどうすればよいでしょうか? CMU の最新の LLM 推論と MLSys 最適化テクノロジーに関する 10,000 語のレビュー

AI を活用することで、銀行は年間 1 兆ドルの追加収益を得ることができる | マッキンゼーの最新調査レポート

AI産業化が深海域に入る中、コンピューティングパワーのボトルネックをどうやって打破するのか？

分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法