10人が2か月かけて大型模型を製作しました! 1年間でトップカンファレンスで発表された16本の論文: 市場で最も優れた論文はどれもオープンソースではない

10人が2か月かけて大型模型を製作しました! 1年間でトップカンファレンスで発表された16本の論文: 市場で最も優れた論文はどれもオープンソースではない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今年5月に深センに設立された、10人未満のチームを持つ会社です。

彼らがしなければならないことは、 AGI に挑戦するという、決して小さなことではありません。

その自信はどこから来るのでしょうか?まず、過去の記録を見て、次に現在のトラックの結果を見てください。

この1年間で、彼らはCVPR、ICML、ECCVなどのトップカンファレンスで合計16本のモデル関連の大型論文を発表しており、そのうち1本はトップカンファレンスACL 2023の最優秀論文にノミネートされました。

事業を開始してからの成果はいかがですか?設立から2か月後、トレーニング済みのモデルはC-Evalリストのトップ3に入り、その中国語能力はChatGPTとClaude-v1.3に勝ちました。

これが共生マトリックスが示すものです。

さらに、同社のモデル GS-LLM は 7 月末以来初めてリストに載っており、C-Eval リストの 65 社の中では常に第 1 層に位置している。

それで、共生マトリックスとは誰でしょうか?

10人がAGIに挑戦

共生マトリックスは、自社開発のAGI技術をベースにした産業データ精製工場の構築を目指しています。

チームは主に自社開発の大型モデル GS-LLM を活用しています。

モデルパラメータスケールは7B から 130B の範囲で、ユーザーの実際のニーズに応じて調整できます。

C-Eval には GS-LLM をベースにした 2 つのバージョンがあり、1 つは数百億のパラメータを持つ GS-LLM-Beta で、もう 1 つは数百億未満のパラメータを持つミニバージョンの GS-LLM-Beta-Mini です。

ミニバージョンをリリースした理由は、多くのユーザーにとって、元のオペレーティング環境(クラウド環境であっても)では大規模なローカル展開をサポートするのに不十分であることがわかったためです。

テスト結果によると、GS-LLM-Beta の数十億のバージョンが優れたパフォーマンスを発揮し、最高ランクは C-Eval で 6 位に達しました。

Symbiosis Matrix が常に C-Eval リストのトップに留まることができる理由の 1 つは、Symbiosis Matrixが完全に独立したトレーニング フレームワークを構築し、トレーニング全体にわたって比較的完全な技術サポートを提供していることです。

2点目は、同社が特に重視しているデータです。

Symbiosis Matrix の CEO である Zhang Lin 氏は、簡単な例を挙げました。

モデルのトレーニングを人の成長プロセスに例えてみましょう。子どもの頃から意味のない小説を読んでいた人は、総合的な能力があまり高くないでしょう。

昨年、研究チームは実験で、モデルデータが一定の桁に達すると、データ品質の飛躍的な向上によって実際に質的な変化が生じる可能性があることを発見しました。

「つまり、比較的小規模なモデル(数百億のデータポイントなど)に高品質のデータを入力すれば、トレーニング結果は数千億のデータポイントの場合の結果に非常に近くなる」と張林氏は述べた。

この実験により、チームはデータの品質と、高品質のデータを取得するための体系的な方法にさらに注意を払うようになりました。

実は、この点は最近、各界からますます注目を集めています。マイクロソフトは新しい調査「必要なのは教科書だけ」を発表し、規模が大きくなることだけが解決策ではなく、高品質のデータが重要であることを示しています。

そこで、Symbiosis チームは、24 時間継続的にデータをクリーニングするデータ クリーニング エンジニアリング システムを構築しました。

チームは現在、トレーニングに使用できる約 20 TB のテキスト データをクリーンアップしました。「この量であれば、非常に大規模なシステムのモデル トレーニングをサポートできます。」

しかし、張林氏は、短期的にはSymbiosis Matrixがチームによってクリーニングされたデータを公開しないことも明らかにした。

では、チームが構築したいデータ精製工場のコンセプトは何でしょうか?

張林氏は、大規模モデルを「情報の圧縮」として理解すれば、それ自体が大規模なパラメータデータベースであると説明した。

データ精製工場が行う必要があるのは、モデルがトレーニングされた後にパラメータ データを共有および取引することです。

ビッグモデルの機能はパラメータによって実行され、取引パラメータは実際にはスイッチング機能であることを知っておく必要があります。ビッグモデルの機能の多様性が必要であり、「パラメータ取引が最も効率的なパス」です。

ここで言うデータは、誰でも見ることができるようなデータではなく、パラメータデータです。私たちがよく参照するデータはテキストや画像ですが、工場が持つデータはトレーニングされたモデルのパラメータであり、商業的に取引されています。

「生データの直接取引は、量が多くプライバシーの問題によって制約されています。」張林氏は、データ取引の概念は長年提案されてきたが、市場に完全に受け入れられていないと説明した。チームは、データが本当に流通するには、より合理的で安全かつ効果的である必要があると考え、最終的にパラメータレベルでのデータ取引を決定した。

チームは、データ精製工場が稼働すると、一部のデータは繰り返しトレーニングする必要がなくなり、効率が向上し、コストが削減されると考えています。

より少ない人員とリソースで大規模なモデルシステムを構築

ビッグモデルブームの中で、ビッグモデルをどのように評価するかが重要な問題となり、さまざまなリストが登場した理由でもあります。

共生マトリックスが C-Eval に掲載された後、外部の世界は次の 2 つの点に注目しました。

好成績に加えて、注目すべきもう 1 つの点は、このリストに載っているチームの中では珍しい小規模チームであるということです。

チームは、このリストが世界で最も権威のある唯一のリストではないが、作成から1か月間リストに掲載され、上位3位以内に入っていることは、 「より少ない人員とリソースで優れた大規模モデルシステムを構築できた」ことの表れだとしている。

そうです、Symbiosis Matrix チームは 10 人未満です。

人数は多くないですが、みんな戦闘が得意です。

CEOの張林氏やCTOの王俊傑氏を含むチームの中核メンバーは、全員がIDEA研究所出身で、中国の風神坊の事前トレーニング済みモデルのオープンソースシステムに関する豊富な実践経験を持っています(風神坊には現在、98を超えるオープンソースの事前トレーニング済みモデルがあると報告されています)。

張林氏自身はニューヨーク州立大学で博士号を取得しており、トップクラスの国際コンピュータカンファレンスで30本以上の論文を発表している。以前は広東・香港・マカオ大湾区デジタル経済研究所(IDEA)の上級研究員を務めていた。

王俊傑は早稲田大学でコンピューターサイエンスの博士号を取得しており、以前は『封神演義』モデルチームの中核メンバーでした。

張林

現在のAI市場を見ると、小規模チームがAIで成功する前例がないわけではありません。最も有名な文勝図モデルMidjourneyはメンバーがわずか11人であり、新時代の組織のベンチマークとして知られています。 AI 2.0時代を迎え、国内外で「小さく美しく」を重視する大型スタートアップチームが多数登場しています。

もちろん、張林氏は、より深い理由は、大型モデルは単に人材を積み上げればよいプロジェクトではなく、効率を確保するために少数精鋭のチームを必要とすることだと述べた。

同氏は、モデルのトレーニング時には、演算子の最適化、混合精度などの技術的な側面や、数百枚のカードが同時にサポートされる場合の通信の問題など、すべてがエンジニアリング能力をテストすると述べました。小規模なチームが遭遇するエンジニアリングの問題を解決し、効率を向上できる場合、その解決に大規模なチームに頼る必要はありません。

さらに、技術コアチームが小規模であれば、慣習に固執することなく、独立した思考を維持し、より多くの可能性を模索することが容易になります。人員を積み上げると、全体的な効率が低下する傾向があります。

同氏は、国内の大型モデル分野のトップクラスの人材は「合計で100人程度しかいないだろう」と推定しており、大規模なチームを編成する余地はあまりないという。

そのため、一定期間、チームは「10人未満」の規模のままとなります。

結局のところ、これは AI 2.0 時代と AI 1.0 時代の背後にあるパラダイムと概念の理解の違いです。

張林氏はコミュニケーションの中で、別のレベルで主流の声とは異なるチームの認識を直接表明し、それがオープンソースとクローズドソースの概念に反映されていると述べた。

以前、無料で商用利用可能な LLaMA-2 がリリースされたとき、LLaMA-2 は低コストとパーソナライゼーションを求めるほとんどの企業のニーズを満たすことができるため、市場のスタートアップ企業にとって大きな打撃になるだろうと多くの人が言っていました。

「LLaMA-2 は市場の状況を変えていません。」Symbiosis チームの目には、真に優れたチームはコア技術をオープンソース化しないように見えます。

張林氏はまた、現段階ではオープンソースの重要性は商業化の促進よりもむしろ市場を教育することにあると付け加えた。

Raspberry Pi が電子機器愛好家にとっては意味があるものの、モバイル コンピュータ市場を変えることはないのと同様に、LLAMA 2 は初心者ユーザーにとってはより価値があるものの、それを商品化したいユーザーにはほとんど影響を与えません。

このような「非主流」の見解や理解を持つ共生マトリックスは数多く存在します。

たとえば、私は大規模モデルが汎用 AI の最終目標だとは思っていませんし、ChatGPT が究極の方向性を表しているとは思っていません。

また、ユニコーンのような急速な拡大には慎重であり、チームの結束と技術の蓄積にさらに注意を払っています。

今後の開発方針としては、Symbiosis Matrix は短期的にはソースコードをクローズし、将来的に機会があれば適宜オープンソース化することを選択します。

オープンソースには、明確なビジネス主導の目標が必要です。現在、大規模モデル技術は依然として急速な反復と競争の段階にあり、オープンソースのコア技術は先行者利益を失うリスクがあります。

<<:  GoogleからNvidiaまで、テクノロジー大手はAIモデルを解読するためにレッドチームハッカーを採用している

>>:  企業におけるビッグデータ活用のための実践的AI技術

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

人工知能は242万件の医療記録の分析を支援した

人工知能は242万件の医療記録の分析を支援した1月26日、iFLYTEKは最前線の防疫・管理を支援す...

感染症の流行に直面して、AIがいかに有用であるかを実感した

インターネット時代では、テクノロジーの発展により、私たちの生活で利用できる手段が大幅に強化されました...

人工知能が製造業のデジタル変革を推進

製造業における人工知能がデジタル変革を推進製造業における人工知能はデジタル変革を可能にし、より効果的...

...

...

人工知能タスクに知っておくべき 11 個の Python ライブラリ

[[399295]]この記事はWeChatのパブリックアカウント「Python Society」から...

マイクロソフトの面接アルゴリズムに関する 4 つの質問

(1)要素が0から65535までの任意の数値であり、同じ値が繰り返し出現しない整数列。 0 は例外で...

...

カーリー:プロのカーリング選手に匹敵するスポーツロボット

海外メディアの報道によると、ロボットは多くのスポーツや活動で優れているが、1つのタスクだけを実行する...

...

...

...