清華大学特別賞焦建涛のビッグモデル起業：GPT-4ツールの使用における画期的進歩、オープンソースのシードラウンドで7000万ドルの資金調達

清華大学の卒業生 2 人によって作成されたこのツールは、ツールの使用においてGPT-4 の主要な利点の 1 つを上回ります。

HuggingFaceのCEOも宣伝に来ました。

これは「 NexusRaven 」と呼ばれ、パラメータはわずか130 億個です。

ネットユーザーでさえ、並列化とネスト化の両方が可能な優れた関数呼び出し機能を賞賛せずにはいられませんでした。

その背後にあるチームはさらに印象的です:

創業者は全部で3人。清華大学卒業生2人（うち1人は清華大学特別賞を受賞）に加え、業界で15年間勤務したAI専門家もいます。

彼らが設立した会社（モデルが所属する会社）は、シードラウンドですでに1,060万米ドル（約7,600万人民元）を調達している。

私たちは、このような著名なモデルとチームについてさらに深く調べずにはいられませんでした。

清華大学特別賞受賞者による共同設立

この会社は Nexusflow と呼ばれています。今年 9 月にデビューしたばかりで、すぐに数千万ドルのシードラウンドの資金調達を発表しました。

同社は3か月足らずで2世代の大型モデル「Nexus Raven」をリリースしました。第2世代はGPT-4を直接突破し、オープンソースコミュニティから大きな注目を集めました。

NexusRaven はオープンソースで市販されており、トレーニングには独自の LLM (GPT-4 など)によって生成されたデータは一切含まれないため、著作権侵害を心配する必要はありません。

もちろん、プライバシーデータについて心配する必要はありません。NexusRaven は、そのセキュリティは GPT-4 よりも 21 パーセントポイント高いと主張しています。

3人の創業者のうち、焦建涛氏がCEOを務めている。

清華大学電子工学科を卒業し、2018年にスタンフォード大学で博士号を取得し、カリフォルニア大学バークレー校に助教授として着任しました。

バークレーでは、BAIRのメンバーとして、焦建涛はマイケル・ジョーダン、ヤオ・クラスの卒業生である朱晨光らとコラボレーションしてきました。

焦建涛氏は2011年に清華大学特別賞を受賞した人物であり、「清華大学の学問の神」として知られる後輩の韓延軍氏との「継承」物語があることも特筆に値する。

韓延軍氏はかつて、アメリカ留学中に焦建涛氏から多大な影響を受けたと語ったことがある。

Nexusflow は Jiao Jiantao 氏にとって初めての起業ではありません。彼は博士号取得を目指しながら、同じく清華大学電子工学部卒業生の張文竹氏とともに「AI+教育」企業であるQingfan Technologyを共同設立した。

CTO のJian Zhang は清華大学電子工学部の卒業生でもあり、2020 年にスタンフォード大学でコンピューターサイエンスの学位を取得して卒業しました。

Nexusflow スタートアップチームに参加する前、Jian Zhang は、評価額が 50 億ドルを超える人工知能チップのスタートアップである SambaNova Systems で機械学習のディレクターを務めていました。

最後の創設者であるKurt Keutzert氏は、カリフォルニア大学バークレー校の教授です。彼の h 指数は 100 で、彼の論文は 50,000 回以上引用されています。彼の研究は、並列および分散コンピューティングを使用して、ディープニューラルネットワークのトレーニング、コンピュータービジョン、およびその他の AI 方向を加速することに重点を置いています。

彼はベル研究所のメンバーであり、その後 1991 年から 1998 年まで EDA 企業 Synopsys の CTO 兼上級副社長を務めました。 1997年、カリフォルニア大学バークレー校で教職に就き、学問の世界へ進出した。

興味深いことに、Keutzert 氏は実際には業界を去っておらず、常にエンジェル投資家およびコンサルタントとして活動してきました。

博士課程の学生フォレスト・イアンドラ氏と共同設立し、自動運転車の認識システム技術を研究する会社、ディープスケールは2019年にテスラに買収された。

強力な経歴を持つ3人の大物によって設立された企業であるNexusflowは、ネットワークセキュリティにおけるビッグモデルの応用を目標としています。

公式の言葉によれば、それは「生成 AI を使用してサイバーセキュリティに革命を起こす」ことであり、次のようなことが含まれます。

統合されたダイアログインターフェイスを使用して、ソフトウェアの構成、統合、および使用を簡素化し、ネットワークセキュリティ操作における検出、調査、対応、修復の各側面を簡素化するソリューションを提供し、大規模モデルの時代におけるプロンプトインジェクションやデータ漏洩などの新しいセキュリティ問題からユーザーを保護します。

つまり、プロセスの面でサイバーセキュリティの専門家を解放するのです。

リリースから 2 か月後、NexusRaven-V2 がリリースされました。これは、3 人の創設者 Jiao Jiantao、Kurt Keutzer、Jian Zhang の目標の最初の具体化でもあります。

よりコスト効率の高いモデルを使用して、より強力な「ツール」呼び出し機能を実現します。

では、その「主力製品」である Nexus Raven-V2 はどのようなものなのでしょうか?

より小さなモデルとより強力な関数呼び出し機能

NexusRaven-V2 は完全にオープンデータセットに基づいて構築されており、 CodeLlama-13B-instructに基づいて微調整されていると報告されています。

その主な機能は、人間が与えた自然言語の指示を実行可能なコードに変換し、そのコードを使用してツールを自動的に使用してタスクを完了することです。

これは、以前人気があったAutoGPTと非常によく似ています。

公式デモから判断すると、最も単純な「近くの食べ物」検索を実行できます。

「近くでおいしい食事ができる場所を教えてもらえますか？」と尋ねるだけで、数行のコードを即座に書き込んで都市の位置を特定し、都市の座標を経度と緯度に変換し、ターゲットタスク（レストランの提案 20 件）を選択して、遠いものから近いものへと距離順に並べ替えます。

最後に、各レストランの Google マップが表示され、クリックすると詳細な評価やその他の情報が表示されます。

最後にテキストによる要約もあります。

サンフランシスコ市庁舎から20マイル以内で1泊200ドル以上のホテルを探すといった、もう少し複雑なタスクも用意されています。

同じプロセス: コードを記述し、タスクを実行し、マップや最終リストの概要を含む結果を出力します。

もちろん、詳細な比較を行って、複数のレストランのそれぞれの利点を評価することもできます。

一般的に、タスクが何であれ、ロボットは、人間による指示を正確なソフトウェアツール操作に変換してタスクを完了するために、ロボットが記述したコードに依存します。全体のプロセスも非常に高速で、約 1 分です。

人工的に生成された 9 つのベンチマーク全体で、わずか 130 億のパラメータを持つ NexusRaven-V2 は、平均呼び出し成功率 58.2% を達成し、GPT-4 (ゼロショットの場合)よりも 4 パーセントポイント高い結果となりました。

これらのうち、単一または並列関数呼び出しなどの単純なタスクでは、2 つは同様に動作します。

しかし、複雑にネストされた関数呼び出しタスクだけを見ると、NexusRaven-V2 のパフォーマンスは GPT-4 よりも 7 パーセントポイント高くなっています。

さらに、能力テストには実際のソフトウェアを操作する 9 つのタスクも含まれており、その結果、NexusRaven-V2 はそのうち 6 つで GPT-4 を上回りました。

さらに、チームは、関数の変数が変化したときに NexusRaven-V2 が GPT-4 よりも強力な堅牢性を示したことも紹介しました。

再現可能な結果を確保し、関数呼び出しの評価メトリックを標準化するために、上記のテストベンチマークも公開されるようになったことは注目に値します。

以下は、単一、並列、ネストされた操作を含む関数タイプの 3 つの例です。

Huggingface で入手できます(具体的な入り口は NexusRaven-V2 の GitHub インターフェースから入手できます) 。

NexusRaven-V2 モデル自体に興味がある場合、チームは専用の Python パッケージ「nexusraven」もリリースしており、これを使用してモデルを既存のコパイロットまたはエージェントツールとシームレスに統合できます(Colab にチュートリアルがあります) 。

もう一つ

最後に、Llama 以来、オープンソースのビッグモデルトラックにはスターが続々と登場するようになったと言わざるを得ません。

ここでの130億パラメータモデルはGPT-4と競合しています。ヨーロッパでは、「OpenAIのヨーロッパ版」であるMistral AIの最新の評価額が20億ドルを超え、わずか6か月で7倍以上に増加しました。

つい最近、Mistral AI はマグネットリンクで大規模モデルコミュニティ全体にセンセーションを巻き起こしました。噂によると、GPT-4 で使用されるソリューションである最初の MoE 大規模モデルをオープンソース化したのです。

これにより、人々は疑問に思うでしょう。オープンソースモデルは今後増加するのでしょうか?

<<:

>>:

ブログ

Mistral と Microsoft が「小さな言語モデル」の波を起こしました。 Mistralのコーディング能力はGPT-4より優れており、コストは2/3に削減されます

清華大学特別賞焦建涛のビッグモデル起業：GPT-4ツールの使用における画期的進歩、オープンソースのシードラウンドで7000万ドルの資金調達

清華大学特別賞受賞者による共同設立

より小さなモデルとより強力な関数呼び出し機能

もう一つ

Mistral と Microsoft が「小さな言語モデル」の波を起こしました。 Mistralのコーディング能力はGPT-4より優れており、コストは2/3に削減されます

人工知能の登場で、自動化は恐怖に震えるべきでしょうか?

「ハードコア」AIが私たちの家庭に導入されるまでにはどれくらいの時間がかかるのでしょうか? 最先端技術には依然としてブレークスルーが必要

自然言語処理のためのオープンソースツール12選

科学者らが病気の早期発見と治療のための埋め込み型人工知能システムを開発

エッジでの機械学習を活用して生産ラインの品質を向上させる方法

2021年のスマートシティの変革と再構築のトレンド

Google Cloud の共有: AI を活用して企業価値を生み出す方法

推薦する

シリコンバレーの天才たちの没落: 才能から始まり、利益に転落し、「賢さ」のせいで失敗した

Transformer 機械学習モデルとは何ですか?

AIを活用した自動化はエンタープライズレベルの自動化2.0です

ディープラーニングはフロントエンド開発ツールになりました：UI設計図に基づいてコードを自動生成します

Google は、MLM 損失で直接事前トレーニングされた 24 個の小さな BERT モデルをリリースしました。

AI に適切なデータ戦略を構築するにはどうすればよいでしょうか?

Java ソートアルゴリズムの概要 (パート 3): バブルソート

人工知能の過去と現在を1つの記事で理解する（おすすめコレクション）

機械学習における正規化とはどういう意味ですか?

このデータサイエンスの間違いに注意し、30 時間以上の無駄な作業を回避しましょう...

これまで見たことのないアルゴリズムのダンス（ビデオ）

ゲーム依存症対策は年々厳しくなり、顔認証対策は厳しすぎるとの報道も

インドは天気予報の精度を向上させ、異常気象に対処するためにAIをテストしている

BOE の革新的なテクノロジーは、国際的な氷上および雪上イベントを強化し、世界クラスのスポーツイベントをより華やかにします。