最も強力なオープンソースのビッグモデルの所有者が変わりました。李開復はチームを率いて多くの世界チャートでトップに躍り出、40万件のテキストを処理して記録を破った。

最も強力なオープンソースのビッグモデルの所有者が変わりました。李開復はチームを率いて多くの世界チャートでトップに躍り出、40万件のテキストを処理して記録を破った。

百人一首コンテストの最注目出場者がついに正式デビュー!

これは、李開復博士が設立した AI 2.0 企業Zero One Everythingの最初のオープンソース ビッグモデルであるYiシリーズ ビッグモデルです。

Yi-34BYi-6B

Yiシリーズの大型モデルは比較的遅れて登場したが、その効果から判断すると、間違いなく後発車といえよう。

たった一つの動きで、多くの世界初を達成しました

  • ハギングフェイスは、34Bサイズでラマ2 70Bやファルコン180Bなどの大型モデルを圧倒し、英国のテストリストで1位を獲得しました。
  • ハギングフェイスの頂点に立つことに成功した唯一の国産大型モデル。
  • C-Eval は中国語能力ランキングで 1 位となり、世界中のすべてのオープンソース モデルを上回りました。
  • MMLU、BBHを含む全8つの総合成績で優勝。
  • 世界最長の 200K に達するコンテキスト ウィンドウを持ち、40 万文字の中国語の超長いテキスト入力を直接処理できます。

ゼロワンエブリシングとその大型模型は一気に完成したわけではなく、半年以上かけて練り上げられたものであることは注目に値する。

必然的に多くの疑問が生じます。

たとえば、なぜ彼らは大きな動きを半年も控えて、年末に開始することにしたのでしょうか?

例えば、リリース後すぐにこれほど多くの1位を獲得できたのはなぜでしょうか?

これらの質問について、Zero One Everythingと独占インタビューを行い、その答えを一つずつ明らかにしていきます。

1000億パラメータの大規模モデルを破る

具体的には、Zero One Everything がリリースした最新のオープンソースYi シリーズの大規模モデルには、主に次の 2 つのハイライトがあります。

  • 「小さな勝利は大きな勝利」は数千億のパラメータを持つモデルを打ち負かす
  • 世界最長のコンテキストウィンドウは40万語をサポート

Hugging Face Englishテスト公開シングル事前トレーニング済みオープンソースモデルランキングでは、 Yi-34Bが70.72のスコアでLLaMA-70BとFalcon-180Bを上回り、世界1位になりました

Yi-34B のパラメータは後者の1/2 と 1/5に過ぎないことを知っておく必要があります。 「小さなことで大きな勝利」でトップに立っただけでなく、数百億規模の大型モデルを打ち負かすという桁違いの逆転も達成した。

MMLU (Massive Multi-Task Language Understanding) と TruthfulQA (真実性ベンチマーク) の点では、Yi-34B は他の大規模モデルを大幅に上回っています。

△Hugging Face Open LLM Leaderboard(事前トレーニング済み)大型モデルランキング、Yi-34Bがトップに(2023年11月5日)

中国語機能に重点を置いた Yi-34B は、C-Eval 中国語機能ランキングですべてのオープンソース モデルを上回ります。

同様にオープンソースの Yi-6B も、同じサイズのすべてのオープンソース モデルを上回っています。

△C-Evalランキング:公開モデル、Yi-34Bが世界第1位(2023年11月5日)

CMMLU、E-Eval、Gaokaoの3つの主要な中国指標では、 GPT-4を大幅に上回っており、中国の強力な優位性を示し、私たちをよりよく理解しています。

2つの質問応答指標であるBooIQとOBQAに関しては、GPT-4と同等のレベルです。

また、大規模モデルの最も重要な評価指標であるMMLU(Massive Multitask Language Understanding)やBBHなど、モデルの総合的な能力を反映する評価セットにおいて、Yi-34Bは一般能力、知識推論、読解力など複数の指標で総合的に上回り、Hugging Face評価との整合性も高かった。

△ 各評価セットのスコア: Yi モデルと他のオープンソース モデルの比較

しかし、ゼロワンはリリースの中で、YiシリーズのモデルはGSM8kとMBPPの数学テストとコードテストにおいてGPTモデルほど優れたパフォーマンスを発揮しなかったとも述べています。

これは、チームが事前トレーニング段階でモデルの一般的な機能を可能な限り保持することを望んでいるため、トレーニング データにあまり多くの数学データやコード データが追加されないからです。

チームは現在、数学の分野で研究を行っており、一般的な数学の問題を解決できる大規模モデル MammoTH を提案しています。これは、CoT と PoT を使用して数学の問題を解決し、すべてのスケール バージョンと内部および外部のテスト セットで SOTA モデルよりも優れたパフォーマンスを発揮します。その中で、MammoTH-34BはMATHで44%の精度を達成し、GPT-4のCoT結果を上回りました。

後続の Yi シリーズでも、コードと数学に特化した継続的なトレーニング モデルがリリースされる予定です

Yi-34B は、印象的なランキング結果に加えて、大規模モデルコンテキストウィンドウの長さを 200K に増加し約 40 万字の中国語の超長いテキスト入力を処理できるようになりました。

これは、一度に2 冊の「三体 1」小説を処理し1,000 ページを超えるPDF ドキュメントを理解し、外部知識ベースを構築するためにベクター データベースに依存する多くのシナリオを置き換えることと同等です。

非常に長いコンテキスト ウィンドウは、大規模モデルの強みを反映する重要な側面です。コンテキスト ウィンドウが長くなると、より豊富な知識ベース情報を処理し、より一貫性のある正確なテキストを生成できるほか、大規模モデルをサポートして、ドキュメントの要約や質問と回答などのタスクをより適切に処理できるようになります。

大規模モデルの多くの垂直業界アプリケーション (金融、法律、財務など) では、ドキュメント処理機能が厳格な要件となっていることを知っておく必要があります。

たとえば、GPT-4 は 32K、つまり約 25,000 個の中国語文字をサポートでき、Claude 2 は 100K、つまり約 200,000 個の文字をサポートできます。

Zero One Everythingは業界記録を破っただけでなく、オープンソースコミュニティに超ロングコンテキストウィンドウを開いた初の大規模モデル企業でもあります。

それで、Yiシリーズはどのように作られたのですか?

超強力なInfra+自社開発トレーニングプラットフォーム

Zero One Everything によると、Yi シリーズの成功の秘訣は次の 2 つの側面にあるとのことです。

  • 自社開発の大規模訓練実験プラットフォーム
  • 超強力なインフラチーム

上記 2 つを組み合わせることで、大規模モデルのトレーニング プロセスをより効率的、正確、かつ自動化することができます。現在のマルチモードの乱闘では、貴重な時間、コンピューティング、および人的コストを節約します。

これらは、Yi シリーズの大型モデルが「遅い」理由の 1 つですが、これがあるからこそ、「遅いことは速い」のです。

まず、モデルのトレーニング部分を見てみましょう

これは、大規模モデルの機能の基盤となるリンクです。トレーニング データと方法の品質は、モデルの最終的な効果に直接関係します。

そこで、ゼロワンエブリシングは独自のインテリジェントデータ処理パイプラインと大規模なトレーニング実験プラットフォームを構築しました。

インテリジェントなデータ処理パイプラインは効率的、自動化、評価可能、スケーラブルであり、チームは元 Google のビッグデータおよびナレッジグラフの専門家によって率いられています。

大規模トレーニング実験プラットフォーム」は、モデルの設計と最適化をガイドし、モデルのトレーニング効率を向上させ、コンピューティングリソースの無駄を減らすことができます。

このプラットフォームに基づいて、Yi-34Bの各ノードの予測誤差は0.5%以内に制御され、データマッチング、ハイパーパラメータ検索、モデル構造などの実験はすべてこの上で実行できます。

そのため、これまでの「大規模な錬金術」の訓練と比較して、易シリーズの大型モデルの訓練は「モデル訓練科学」に進歩しており、より詳細かつ科学的になり、実験結果はより安定し、将来のモデル規模のさらなる拡大の速度も速くなる可能性があります。

インフラ部分を見てみましょう

AIインフラとは、人工知能の基本的なフレームワーク技術を指し、プロセッサ、オペレーティングシステム、ストレージシステム、ネットワークインフラストラクチャ、クラウドコンピューティングプラットフォームなど、大規模モデルのトレーニングと展開のためのさまざまな基礎技術設備を含み、大規模モデルの分野では絶対に難しい技術です

トレーニング フェーズがモデル品質の基盤を築くものである場合、AI インフラはこのフェーズを保護して基盤をより強固にするとともに、大規模モデルの最下層にも直接関連します。

Zero One Thing チームは、より鮮明な比喩を使って説明しました。

大規模モデルのトレーニングが山登りのようなものだとすると、インフラの機能は大規模モデルのトレーニング アルゴリズムとモデルの機能を定義し、それが「登山の高さ」の上限にもなります。

特に、業界内のコンピューティング リソースが逼迫している現在、大規模モデルの開発をより迅速かつ着実に進めることが重要です。

これが、Zero One Everythingがインフラ部分を非常に重視している理由です。

李開復氏はまた、大規模モデルインフラに取り組んだ経験のある人材は、アルゴリズム開発の才能を持つ人材よりもさらに少ないと述べた。

Zero One Everythingのインフラチームは、数千億のモデルの大規模なトレーニングのサポートに参加してきました。

彼らの支援により、 Yi-34Bモデルの訓練コストは40%低下したと測定され、兆単位のシミュレーション訓練のコストは最大50%削減できます。実際のトレーニング完了時間と予測される時間誤差は 1 時間未満です。業界では一般的に数日を誤差として見込んでいる点に注意してください。

チームによると、現時点でZero One Everything Infraは、障害予測精度90%以上、障害早期検出率99.9%、人的介入なしの障害自己修復率95%以上を達成しており、モデルトレーニングの円滑な進行を効果的に保証できるという。

李開復氏は、易34Bの事前訓練が完了した一方で、零一万物の兆レベルパラメータモデルの訓練が正式に開始されたことを明らかにした。

そして、より大きなモデルがリリースされるスピードは、すべての人の予想を上回る可能性があることを示唆しています。

Zero One Wanwu のデータ処理パイプライン、アルゴリズム研究、実験プラットフォーム、GPU リソース、AI インフラはすべて準備が整っており、今後さらにスピードアップしていきます

ゼロワンエブリシング

最後に、冒頭で述べた質問に答えましょう。

ゼロワン万武が年末に市場に参入するために「遅れた列車」に乗ることを選択した理由は、実は自社の目標と密接に関係しています。

リー・カイフー氏はリリースの中で次のように述べている。

ゼロワンは、目標である世界一の階層に入ることを決意しています。最初に採用した人から、最初に書いたコード行、最初に設計したモデルまで、常に「世界一」になるという初心と決意を持ち続けています。

最高になるためには、デビューしたときに大きな成果を出せるように、忍耐強く、確かなスキルを磨くことに専念しなければなりません。

それだけでなく、ゼロワンエブリシングが設立されたとき、その出発点は他の大手模型メーカーとは根本的に異なっていました。

ゼロワンは、ゼロから1までのデジタル世界全体、さらには宇宙のあらゆるものを表します。いわゆるタオは1を生み、すべてのものを生み出します。これは、「ゼロワンの知性がすべてのものに力を与える」という野望を意味します。

これは、AI 2.0 に関する李開復氏の考え方や判断とも一致しています。ChatGPT が大規模モデルの流行を引き起こした後、彼は次のように公に述べました。

AI 2.0時代は、大規模なベースモデルのブレークスルーにより、テクノロジーからプラットフォーム、アプリケーションまで、複数のレベルで革命をもたらすでしょう。 Windows が PC の普及を促進し、Android がモバイル インターネット エコシステムを生み出したように、AI 2.0 はモバイル インターネットの 10 倍のプラットフォーム チャンスを生み出します。既存のソフトウェア、ユーザー インターフェイス、アプリケーションを書き換え、一連の新しい AI ファースト アプリケーションを生み出し、AI が主導するビジネス モデルを生み出します。

コンセプトはAIファースト、原動力はテクノロジービジョン、優れた中国のエンジニアリング基盤に支えられ、突破口は大規模なベースモデル、そしてカバー範囲はテクノロジー、プラットフォームからアプリケーションまで複数のレベルに及びます。

この目的のために、ゼロワンワンウーが設立以来選択してきた起業の道は、独自の大型モデルを開発することです。

発売時期は遅いですが、スピードは決して遅くありません。

例えば、ゼロワンワンウーは最初の3か月で、パラメータ規模100億のモデルの内部テストをすでに達成しており、3か月後にはパラメータ規模340億で世界一の座を獲得することができました。

このようなスピードと高い目標は、Zero One Everything の背後にある強力なチーム力と切り離せないものであることは間違いありません。

李開復博士はZero One EverythingのCEOです

初期段階では、Zero One Everythingは数十人のコアメンバーからなるチームを集め、大規模モデル技術、人工知能アルゴリズム、自然言語処理、システムアーキテクチャ、コンピューティングパワーアーキテクチャ、データセキュリティ、製品開発などの分野に重点を置いています。

共同創立チームのメンバーには、アリババ元副社長、百度元副社長、グーグル中国元上級幹部、マイクロソフト・SAP・シスコ元副社長らが参加。アルゴリズムや製品チームの経歴も国内外の大企業出身者がそろっている。

アルゴリズムとモデルのチームメンバーを例に挙げると、 GPT-4で論文が引用されたアルゴリズムマスターや、Microsoft社内研究賞を受賞した優秀な研究者、Alibaba CEO特別賞を受賞したスーパーエンジニアなどがいます。合計で、ICLR、NeurIPS、CVPR、ICCVなどの著名な学術会議で、大規模モデルに関連する100件以上の学術論文が発表されています

さらに、ゼロワンエブリシングは設立当初から実験プラットフォームの構築を開始し、トレーニング、チューニング、推論用の数千枚のカードを備えたGPUクラスターを構築しました。データに関しては、有効なパラメータの量と、使用される高品質のデータの密度を高めることに重点が置かれています。

このことから、ゼロワン万能シリーズの大型モデルが反撃に出る自信が伺える。

Zero One Everythingは、Yiシリーズの大規模モデルを基盤として、より定量的なバージョン、対話モデル、数学モデル、コードモデル、マルチモーダルモデルを迅速に反復し、オープンソース化することもわかっています。

つまり、ダークホースであるゼロワンエブリシングの参入により、百式戦争はより激しく、より活発なものになったのです。

今後、Yiシリーズの大型モデルがいくつの「世界初」を打ち破るのか、楽しみだ。

もう一つ

なぜ「Yi」という名前なのですか?

名前の由来は「一」のピンインです。「Yi」の「Y」が逆さまになっていて、漢字の「人」と同じ形をしています。AIの「i」と組み合わせると、Human + AIを表します。

Zero One Everythingは、AIが人類社会に力を与え、前進させると信じています。AIは人間中心で、人類に大きな価値を生み出すべきです。

<<: 

>>: 

ブログ    

推薦する

自動運転はトラック運転手の失業を加速させている

上海深水港物流園区を出発し、東シナ海大橋を通り、陽山港ターミナルまで、往復72キロの有名な地元物流環...

[AI開発] ディープラーニングに基づくビデオマルチターゲットトラッキングの実装

複数のターゲットを追跡するには、次の 2 つの方法があります。オプション1初期化フレームの追跡に基づ...

機械学習に関する7つの誤解

ディープラーニングを学ぶ過程では、私たちが当たり前だと思っているさまざまな噂やさまざまな「こだわり」...

大手企業が人工知能への投資を増やす一方で、フェイスブックはトレンドに逆らって減速している

現在、GoogleやAmazonなどの大手テクノロジー企業は人工知能技術に多額の投資を行っており、人...

...

Go言語で遺伝的アルゴリズムを実装する方法

ただの楽しみのために、Go 言語を学ぶことにしました。新しい言語を学ぶ最良の方法は、深く学び、できる...

NatureがAIGC禁止令を発令!ビジュアルコンテンツにAIを使用した投稿は受け付けられません

最も権威のある科学雑誌の一つであるネイチャー誌は最近、明確な声明を発表しました。 生成型人工知能 (...

海外の科学者が「AI漢方」を開発:舌診断システムの精度は最大94%

10月23日、中国医学では2000年以上もの間、人の舌の色や形を観察して病気を診断してきたと報じら...

初心者向けガイド: 自然言語処理のためのニューラル ネットワーク

この記事を読むと、次のことがわかります。自然言語処理の分野に最も大きな影響を与えたニューラル ネット...

...

...

...

この中国のAIスタートアップはトップカンファレンスのコンペティションで優勝し、そのコードはオープンソース化された。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

清華大学がJittorをオープンソース化:国内初の大学開発のディープラーニングフレームワーク、PyTorchへのワンクリック変換が可能

Theano、Caffeに続き、大学主導のディープラーニングフレームワークがオープンソース化され、国...