清華大学特別賞焦建涛のビッグモデル起業:GPT-4ツールの使用における画期的進歩、オープンソースのシードラウンドで7000万ドルの資金調達

清華大学特別賞焦建涛のビッグモデル起業:GPT-4ツールの使用における画期的進歩、オープンソースのシードラウンドで7000万ドルの資金調達

清華大学の卒業生 2 人によって作成されたこのツールは、ツールの使用においてGPT-4 の主要な利点の 1 つを上回ります。

HuggingFaceのCEOも宣伝に来ました。

これは「 NexusRaven 」と呼ばれ、パラメータはわずか130 億個です。

ネットユーザーでさえ、並列化とネスト化の両方が可能な優れた関数呼び出し機能を賞賛せずにはいられませんでした。

その背後にあるチームはさらに印象的です:

創業者は全部で3人。清華大学卒業生2人(うち1人は清華大学特別賞を受賞)に加え、業界で15年間勤務したAI専門家もいます。

彼らが設立した会社(モデルが所属する会社)は、シードラウンドですでに1,060万米ドル(約7,600万人民元)を調達している。

私たちは、このような著名なモデルとチームについてさらに深く調べずにはいられませんでした。

清華大学特別賞受賞者による共同設立

この会社は Nexusflow と呼ばれています。今年 9 月にデビューしたばかりで、すぐに数千万ドルのシードラウンドの資金調達を発表しました。

同社は3か月足らずで2世代の大型モデル「Nexus Raven」をリリースしました。第2世代はGPT-4を直接突破し、オープンソースコミュニティから大きな注目を集めました。

NexusRaven はオープンソースで市販されており、トレーニングには独自の LLM (GPT-4 など)によって生成されたデータは一切含まれないため、著作権侵害を心配する必要はありません。

もちろん、プライバシーデータについて心配する必要はありません。NexusRaven は、そのセキュリティは GPT-4 よりも 21 パーセントポイント高いと主張しています。

3人の創業者のうち、焦建涛氏がCEOを務めている。

清華大学電子工学科を卒業し、2018年にスタンフォード大学で博士号を取得し、カリフォルニア大学バークレー校に助教授として着任しました。

バークレーでは、BAIRのメンバーとして、焦建涛はマイケル・ジョーダン、ヤオ・クラスの卒業生である朱晨光らとコラボレーションしてきました。

焦建涛氏は2011年に清華大学特別賞を受賞した人物であり、「清華大学の学問の神」として知られる後輩の韓延軍氏との「継承」物語があることも特筆に値する。

韓延軍氏はかつて、アメリカ留学中に焦建涛氏から多大な影響を受けたと語ったことがある。

Nexusflow は Jiao Jiantao 氏にとって初めての起業ではありません。彼は博士号取得を目指しながら、同じく清華大学電子工学部卒業生の張文竹氏とともに「AI+教育」企業であるQingfan Technologyを共同設立した。

CTO のJian Zhang は清華大学電子工学部の卒業生でもあり、2020 年にスタンフォード大学でコンピューターサイエンスの学位を取得して卒業しました。

Nexusflow スタートアップ チームに参加する前、Jian Zhang は、評価額が 50 億ドルを超える人工知能チップのスタートアップである SambaNova Systems で機械学習のディレクターを務めていました。

最後の創設者であるKurt Keutzert氏は、カリフォルニア大学バークレー校の教授です。彼の h 指数は 100 で、彼の論文は 50,000 回以上引用されています。彼の研究は、並列および分散コンピューティングを使用して、ディープ ニューラル ネットワークのトレーニング、コンピューター ビジョン、およびその他の AI 方向を加速することに重点を置いています。

彼はベル研究所のメンバーであり、その後 1991 年から 1998 年まで EDA 企業 Synopsys の CTO 兼上級副社長を務めました。 1997年、カリフォルニア大学バークレー校で教職に就き、学問の世界へ進出した。

興味深いことに、Keutzert 氏は実際には業界を去っておらず、常にエンジェル投資家およびコンサルタントとして活動してきました。

博士課程の学生フォレスト・イアンドラ氏と共同設立し、自動運転車の認識システム技術を研究する会社、ディープスケールは2019年にテスラに買収された。

強力な経歴を持つ3人の大物によって設立された企業であるNexusflowは、ネットワークセキュリティにおけるビッグモデルの応用を目標としています。

公式の言葉によれば、それは「生成 AI を使用してサイバーセキュリティに革命を起こす」ことであり、次のようなことが含まれます。

統合されたダイアログ インターフェイスを使用して、ソフトウェアの構成、統合、および使用を簡素化し、ネットワーク セキュリティ操作における検出、調査、対応、修復の各側面を簡素化するソリューションを提供し、大規模モデルの時代におけるプロンプト インジェクションやデータ漏洩などの新しいセキュリティ問題からユーザーを保護します。

つまり、プロセスの面でサイバーセキュリティの専門家を解放するのです。

リリースから 2 か月後、NexusRaven-V2 がリリースされました。これは、3 人の創設者 Jiao Jiantao、Kurt Keutzer、Jian Zhang の目標の最初の具体化でもあります。

よりコスト効率の高いモデルを使用して、より強力な「ツール」呼び出し機能を実現します。

では、その「主力製品」である Nexus Raven-V2 はどのようなものなのでしょうか?

より小さなモデルとより強力な関数呼び出し機能

NexusRaven-V2 は完全にオープン データ セットに基づいて構築されており、 CodeLlama-13B-instructに基づいて微調整されていると報告されています。

その主な機能は、人間が与えた自然言語の指示を実行可能なコードに変換し、そのコードを使用してツールを自動的に使用してタスクを完了することです。

これは、以前人気があったAutoGPTと非常によく似ています。

公式デモから判断すると、最も単純な「近くの食べ物」検索を実行できます。

「近くでおいしい食事ができる場所を教えてもらえますか?」と尋ねるだけで、数行のコードを即座に書き込んで都市の位置を特定し、都市の座標を経度と緯度に変換し、ターゲットタスク(レストランの提案 20 件)を選択して、遠いものから近いものへと距離順に並べ替えます。

最後に、各レストランの Google マップが表示され、クリックすると詳細な評価やその他の情報が表示されます。

最後にテキストによる要約もあります。

サンフランシスコ市庁舎から20マイル以内で1泊200ドル以上のホテルを探すといった、もう少し複雑なタスクも用意されています。

同じプロセス: コードを記述し、タスクを実行し、マップや最終リストの概要を含む結果を出力します。

もちろん、詳細な比較を行って、複数のレストランのそれぞれの利点を評価することもできます。

一般的に、タスクが何であれ、ロボットは、人間による指示を正確なソフトウェア ツール操作に変換してタスクを完了するために、ロボットが記述したコードに依存します。全体のプロセスも非常に高速で、約 1 分です

人工的に生成された 9 つのベンチマーク全体で、わずか 130 億のパラメータを持つ NexusRaven-V2 は、平均呼び出し成功率 58.2% を達成し、GPT-4 (ゼロショットの場合)よりも 4 パーセントポイント高い結果となりました。

これらのうち、単一または並列関数呼び出しなどの単純なタスクでは、2 つは同様に動作します。

しかし、複雑にネストされた関数呼び出しタスクだけを見ると、NexusRaven-V2 のパフォーマンスは GPT-4 よりも 7 パーセントポイント高くなっています。

さらに、能力テストには実際のソフトウェアを操作する 9 つのタスクも含まれており、その結果、NexusRaven-V2 はそのうち 6 つで GPT-4 を上回りました。

さらに、チームは、関数の変数が変化したときに NexusRaven-V2 が GPT-4 よりも強力な堅牢性を示したことも紹介しました。

再現可能な結果を​​確保し、関数呼び出しの評価メトリックを標準化するために、上記のテスト ベンチマークも公開されるようになったことは注目に値します。

以下は、単一、並列、ネストされた操作を含む関数タイプの 3 つの例です。

Huggingface で入手できます(具体的な入り口は NexusRaven-V2 の GitHub インターフェースから入手できます)

NexusRaven-V2 モデル自体に興味がある場合、チームは専用の Python パッケージ「nexusraven」もリリースしており、これを使用してモデルを既存のコパイロットまたはエージェント ツールとシームレスに統合できます(Colab にチュートリアルがあります)

もう一つ

最後に、Llama 以来、オープンソースのビッグ モデル トラックにはスターが続々と登場するようになったと言わざるを得ません。

ここでの130億パラメータモデルはGPT-4と競合しています。ヨーロッパでは、「OpenAIのヨーロッパ版」であるMistral AIの最新の評価額が20億ドルを超え、わずか6か月で7倍以上に増加しました。

つい最近、Mistral AI はマグネットリンクで大規模モデルコミュニティ全体にセンセーションを巻き起こしました。噂によると、GPT-4 で使用されるソリューションである最初の MoE 大規模モデルをオープンソース化したのです。

これにより、人々は疑問に思うでしょう。オープンソース モデルは今後増加するのでしょうか?

<<: 

>>: 

ブログ    
ブログ    

推薦する

シリコンバレーの天才たちの没落: 才能から始まり、利益に転落し、「賢さ」のせいで失敗した

若い才能、輝かしい経歴、上司からの評価、順調なキャリア、明るい未来...これらは、2016 年初頭に...

Transformer 機械学習モデルとは何ですか?

翻訳者 | 李睿校正:孫淑娟近年、Transformer 機械学習モデルは、ディープラーニングとディ...

AIを活用した自動化はエンタープライズレベルの自動化2.0です

新たな常態に対応するために自動化プロセスを拡大多くの企業は、ニューノーマルに対処するための重要な技術...

...

ディープラーニングはフロントエンド開発ツールになりました:UI設計図に基づいてコードを自動生成します

UI デザイナーとフロントエンド エンジニアの間にニューラル ネットワークが必要になる場合があります...

Google は、MLM 損失で直接事前トレーニングされた 24 個の小さな BERT モデルをリリースしました。

[[318598]] Google は最近、24 個の合理化された BERT モデルをダウンロード...

AI に適切なデータ戦略を構築するにはどうすればよいでしょうか?

適切なデータ戦略を使用して人工知能 (AI) を実装すると、データがシステムにシームレスに流れ込み、...

Java ソートアルゴリズムの概要 (パート 3): バブル ソート

バブル ソートは、計算時間が O(n^2) のコンピュータ ソート方法です。ヒープ ソートやクイック...

人工知能の過去と現在を1つの記事で理解する(おすすめコレクション)

はじめに:人工知能の開発プロセスは、多くの紆余曲折を伴う、3 つの上昇と 2 つの下降として説明でき...

機械学習における正規化とはどういう意味ですか?

[[279210]]正則化はさまざまな記事や資料でよく見られます。たとえば、一般的な目的関数には次...

このデータ サイエンスの間違いに注意し、30 時間以上の無駄な作業を回避しましょう...

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

これまで見たことのないアルゴリズムのダンス(ビデオ)

[[21488]]サピエンティア大学の以下のビデオをご覧ください。学生たちが中央ヨーロッパの民族舞...

ゲーム依存症対策は年々厳しくなり、顔認証対策は厳しすぎるとの報道も

[[415155]]未成年者のゲームプレイの問題に関しては、依存症防止システムが厳しすぎると不満を言...

インドは天気予報の精度を向上させ、異常気象に対処するためにAIをテストしている

ロイター通信は現地時間12月24日、インドが天気予報の精度向上のため、気候モデルの構築にAIの使用を...

BOE の革新的なテクノロジーは、国際的な氷上および雪上イベントを強化し、世界クラスのスポーツイベントをより華やかにします。

春の始まりの2月4日、世界の注目は北京に集まった。音楽、光、影が流れる中、オリーブの枝に囲まれた巨大...