GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!

GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!

執筆者 | Yan Zheng

制作:51CTO テクノロジースタック(WeChat ID:blog)

今日の大規模言語モデル (LLM) は歯磨き粉のようなもので、正しい量の歯磨き粉 (答え) を得るには、強く絞る必要があります (正しいヒントを与える)。

アルトマン氏は現在の GPT4 について次のように説明しています。「GPT-4 にほとんどの質問を 10,000 回尋ねると、その 10,000 回のうち 1 回は適切な回答が得られるかもしれませんが、必ずしもそれがどの質問であったかはわかりません。」

つまり、大型の歯ブラシを取り出して歯磨きを始めると、すでに歯が虫歯になっている可能性があるのです。

この問題は解決不可能な問題のようです。しかし、一昨日、ダークホースが現れました!大規模言語モデルを直接上回り、誰もが「スーパー製品」に期待を抱くようになりました。

「ほぼウサギのスピードで、既存の大規模言語モデルの10倍の速さです」と、AIスタートアップ企業Rabbitの創業者ジェシー・リュ氏はCESで語った。

写真

ジェシーは、この問題を解決できると思われる新しいモデル、Large Action Model (LAM) を提案しました。歯磨き粉を絞り出すのと同じ方法(テキストまたは音声プロンプト経由)を使用して、大型モデルでは完了までに長い時間を要するタスクを迅速に実行できます。

1. 爆発的に売れた小さなガジェット

ポケットサイズのオレンジ色のデバイス「Rabbit R1」は火曜日に話題となり、正式発売から24時間以内に1万台が完売した。

この小さなデバイスは、「Subor」携帯ゲーム機とほぼ同じサイズで、タッチスクリーン、回転カメラ、スクロールホイールを備えています。ただし、指示に関しては、キーボードやメニューよりも直感的なジェスチャーと音声コマンドが優先されます。具体的なパラメータとしては、次の点を確認する必要があります。

写真

Rabbit R1 には 2.88 インチのタッチスクリーン ディスプレイがあり、強力な 2.3GHz MediaTek プロセッサと 4GB の RAM、128GB のストレージを搭載しています。

さらに、同社が独自に開発したRabbit OSオペレーティングシステムを搭載しており、自分で何もしなくてもすべてのアプリケーションを迅速かつ効率的に操作できます。

経験の観点から見ると、Rabbit には 2 つの素晴らしい機能があります。

まず第一に、これは人々と携帯電話の間の非常にスマートなインターフェースとして機能します。アプリケーションを切り替えたりログインしたりする必要はありません。必要なものを伝えるだけで、それが役立ちます。タクシーを呼ぶ、食べ物を注文する、メッセージを送信する、音楽を聴くなど、すべてが 1 つのインターフェースで実行でき、価格も 199 ドルと非常に手頃です。

興味深いことに、Rabbit はアップグレードされた「ティーチ モード」も導入しました。これにより、ユーザーはワークフローを 1 回デモンストレーションするだけで、さまざまなインターフェイスを通じて進化し、新しいスキルを習得できるようになります。ミーティングでは、ジェシーがラビットにミッドジャーニーを使って絵を描く方法を教える方法を実演しました。

写真

写真

ジェシー氏は、同社の使命は使い方を学ぶ必要すらないほどシンプルなコンピューターを作ることだと語った。そのための最善の方法は、現在スマートフォンで使用されているアプリベースのオペレーティング システムから移行することです。代わりに、私たちは自然言語を中心としたアプローチを構想しています。 」と彼は付け加えた。

これはどうやって行うのですか?

2. 自社開発のLarge Action Model (LAM)はGPTに依存せず、10倍高速です。

まず、Rabbit は OpenAI のモデルに頼るのではなく、LAM (Large Action Model) と呼ばれる独自のベースモデルを作成しました。

「私たちが LAM と呼んでいる大規模アクション モデルは、コンピューター上で人間の意図を理解し、実行するための新しい基礎モデルです」とジェシーは述べています。

写真

このモデルの背後にある研究は、ニューラル シンボリック システムに基づいており、「基本的には、大規模なアクション モデルを通じて、アプリケーション、API、またはエージェントが直面する課題を解決する方法を見つけます。」

具体的な原則は何ですか? LLM とは異なり、LAM のモデリング アプローチは模倣、つまりデモンストレーションによる学習に基づいており、AI システムが人間のようにアプリケーションを認識して操作できるようにすることを目的としています。 「観察と複製」により、アプリケーションプログラミングインターフェース(API)に頼ることなく、ユーザーが日常的にアプリケーションやサービスをどのように使用しているかを把握できます。

つまり、LAM はほとんどのインターネット アプリのインタラクションを観察して学習しており、ユーザーがより多くの行動データを提供するにつれて、その機能は進化して強化されます。

これが、LAM が LLM よりも速く応答する理由です。

プレゼンテーションが提供されると、新しく合成された命令は、「観察」や「思考」の忙しいループを必要とせずに、ターゲット アプリケーション上で直接実行できるためです。 LAM は、時間の経過とともにデモンストレーションから知識を蓄積し、アプリケーションによって公開されるインターフェースのあらゆる側面を深く理解し、アプリケーションによって提供される基礎となるサービスの「概念的な青写真」を作成します。 LAM は、アプリケーションのインターフェースを通じてユーザーとこれらのサービスを接続するブリッジと考えることができます。

写真

さらに、「LAM は、どのプラットフォームで実行されていても、あらゆるソフトウェアのあらゆるインターフェースを学習できます。つまり、LLM はユーザーの言うことを理解し、LAM モデルがそれを実行に移します。私たちは LAM を使用して AI を言語からアクションに変換します」とジェシー氏は述べました。

LLMと比較した場合、LAMの画期的な点は、言語処理の域を超え、テキスト指示に基づいて現実世界での操作を実行することを目指していることです。指示を受け取り、言語理解を活用してデジタル環境をナビゲートし、フライトの予約、食べ物の注文、スマートホームデバイスの制御などのタスクを完了します。

「ChatGPT などの大規模言語モデルは、AI が自然言語を理解できる可能性を示しています。そして、私たちの大規模アクション モデルはさらに一歩進んで、人間の入力に基づいてテキストを生成するだけでなく、ユーザーに代わってアクションを生成してタスクの完了を支援します」とジェシーは述べています。

LAM は、安全なクラウド上でアプリケーションを実行するオペレーティング システムである Rabbit OS と連携します。 Rabbit Hole は、Rabbit OS および関連デバイスとのあらゆる関係を管理するために設計されたオールインワンの Web ポータルです。たとえば、音楽を聴きたい人は、Rabbit Hole ウェブポータルにアクセスして、Spotify などのサードパーティ アプリにログインできます。

写真

具体的には、意図、インターフェース、インタラクションの 3 つのステップに分かれています。

意図: Rabbit OS はまず、あなたが言った言葉の意味を理解します。人間の意図は非常に個人的かつ階層的であり、不完全であったり、気まぐれに変化したりすることがあります。 Rabbit OS は、ユーザーの長期記憶を使用して、ユーザーのリクエストを LAM がリアルタイムで活用できる実行可能な手順と応答に変換します。

インターフェース: LAM は、アプリケーション プログラミング インターフェース (API) に依存せずに、アプリケーションとサービスが日常的にどのように使用されているかを理解します。 LAM は人間と同じように世界を見て行動することを学ぶことができます。

インタラクション: LAM は、フライトや予約の予約などの基本的なタスクから、Photoshop での画像編集や音楽や映画のストリーミングなどの複雑なタスクまで、クラウド内の仮想環境でこれらのタスクを実行します。アプリや Chrome プラグインのインストール、コマンド ラインでのコードの入力など、複雑なローカル セットアップは必要ありません。 Rabbit OS に話しかけるだけです。

3. 大規模モデルの欠点: 生のテキストを理解するのが苦手なアプリ

Rabbit は、GPT-4 と同じくらい強力な大規模言語モデルであっても、生のテキストを理解するアプリケーションでは依然として不十分であることを示す研究を行いました。

Rabbit は、さまざまな HTML スナップショットで一般的な Web アプリケーションを表すために必要なトークンの数を測定します。 GPT-4 の既存のトークナイザーを使用しても、元のテキスト アプリケーションの表現をコンテキスト ウィンドウに適応させることは困難です。

写真

ニューラル言語モデルは、これらのタスクを単独で実行するようには設計されていません。アプリケーション プログラミング インターフェイスを理解して利用する能力は実証されていますが、ユーザー インターフェイスはテキストと大きく異なり、本質的に互換性がありません。

つまり、ユーザー インターフェイスで動作するニューラル言語モデルは、アプリケーションとアプリケーションで実行される操作を、生のテキスト、ラスタライズされた画像、またはトークンのシーケンスの遷移表現に変換するための前処理手順を実行する必要があります。次に、テスト時の適応型プロンプト テンプレート、命令駆動型、または強化学習ベースの微調整を使用した何らかの形式の推論が使用されます。

これは、言語モデルをエンドツーエンド(アクション)推論システムとして機能させることが、依然としてうまく達成するのが難しいタスクであることを示しています。

Rabbit はシンボリック アルゴリズムを活用することでこれを実現し、解釈可能性、高速な推論、ユーザーの意図を満たすアクションの実行を可能にします。

機械学習とニューラル技術の成功に触発されて、PL/FM コミュニティは最近、ニューラルシンボリック法で大きな進歩を遂げたと報告されています。ニューラル技術 (LLM など) とシンボリック技術を組み合わせることで、最終的に両方の世界の最良の部分を組み合わせ、スケーラブルで解釈可能な学習エージェントの作成を実現可能なタスクにしました。

しかし、現在まで、最先端のニューラルシンボリック技術を製品化している企業はなく、LAM が先駆者となることを目指しています。

4. LAMはウェブナビゲーションタスクにおいて他のものより優れている

Web 環境だけでなく、モバイル環境やデスクトップ環境もすべて LAM に適用可能なシナリオです。最近、シミュレーション環境で実証された Web ナビゲーション アルゴリズムは人間レベルのパフォーマンスに達しましたが、実際の結果はまだ満足できるものではありません。 MindWeb ベンチマーク データセットでテストしたところ、最も効果的な方法は、ターゲット要素のみを特定する精度が 70.8% に達しました。そして、LAM は 89.6% を達成できます。

Rabbit チームは、内部ベンチマークを使用して LAM の初期評価を実行しました。このデータセットには、Airbb、Google Flights、Shein、Spotify など 14 の異なる現実世界の Web サイトから収集された 17 のタスクを含む 283 のイベントが含まれています。チームは、純粋にニューラルなアプローチとニューラル・シンボリックなアプローチの両方を評価しました。結果は、純粋にニューラルな方法がターゲット要素の位置特定において競争力があり、シンボリックな方法を統合すると精度とレイテンシが大幅に改善されることを示しています。

写真

AI が人間のように動作できるようにするために、Rabbit はコンシューマー アプリケーション向けに LAM を実行するための特別な仮想化環境クラスターを構築しました。高度なセキュリティとスケーラビリティを提供し、テストと本番の両方で LAM のプロトタイプを迅速に作成できます。

5. なぜアプリにしないのですか? Siriもそれに倣うでしょうか?

しかし、「見た目は良いけど、アプリにしたらどうだろう?」という意見もありました。

この質問はネットユーザーによってすぐに回答されました。まず、AppleやGoogleがプラットフォームに他のアプリケーションの呼び出しを任意に許可できるアプリをリストすることを許可することはほぼ不可能であり、R1はアプリの冗長性を排除するように設計されているため、この形式は自然に排除されます。さらに重要なのは、R1 のユニバーサル ソリューションは、Web サイト、アプリケーション、その他のプラットフォームなど、さまざまなサービスと対話できることです。これが R1 のユニークな点です。

SiriやGoogleアシスタントも近いうちにこうした機能を実現するだろうとの声もある。果たしてどれだけの市場シェアを占めることができるのだろうか。 「元のデバイスで既にできることを、なぜ新しいデバイスで実行する必要があるのか​​?」そうは言っても、ネットユーザーはR2がどのようなものになるのかを見るのが待ちきれないと述べた。

ジェシー氏は、Rabbit R1 は携帯電話に代わるものではなく、デバイスを統合するためのより高速で、より直接的かつより普遍的な方法を提供することだけを目的としていると認めた。結局のところ、アプリベースのインタラクティブ インターフェースは 15 年以上前から存在していますが、AI 駆動のネイティブ ハードウェアはまだ始まったばかりです。

6. 完璧ではないが、質問に答える

Rabbit R1 はクラウドで実行され、エッジ コンピューティング機能はありません。一方、Apple、Google、Samsung など、ほとんどのテクノロジー大手は、LLM をエッジ コンピューティングに導入しようとしています。

ジェシー氏は、Rabbit OS を使用すると、ほとんどの音声 AI プロジェクトよりも 10 倍速く応答できると主張しています。 「Rabbit は 500 ミリ秒で質問に答えます。」しかし、Hacker News のあるユーザーはこの主張に疑問を呈しました。「推論はどこで実行されるのですか? デバイス上では実行されないと思います。クラウドで実行されるのであれば、なぜ 500 ミリ秒未満と主張されるのですか?」

Rabbit は、強力なクライアント側の計算能力を必要とせずに、エンド ユーザーの手にインテリジェンスを実現できると考えています。計算ワークロードの多くを慎重かつ安全にデータセンターにオフロードすることで、パフォーマンスとコストを最適化する機会が生まれ、最先端のインタラクティブな AI エクスペリエンスを非常に手頃な価格で実現します。

LAM はクラウドで実行されますが、LAM とやり取りするハードウェア デバイスは高価で大型のプロセッサを必要とせず、非常に環境に優しく、消費電力もほとんどありません。 LAM 関連のワークロードが統合され続けるにつれて、専用のサーバー側およびエッジ チップへの道が開けると考えています。

7. 最後に: 優れたAIエージェント

全体的に、Rabbit R1 の美しさはハードウェア自体にあるわけではなく、おそらく入手可能な製品の中で最高のものではない。

しかし、これはこれまでのところ、AI エージェントが最大限の役割を果たし、効果的なアクションを実行して価値をもたらすことができることを誰もが理解できる良い試みです。

Hacker News の別のユーザーは次のように書いている。「ハードウェアが主な製品だとは思いません。AI が主な製品だと思いますが、彼らは単なる「アプリ」にはなりたくないのです。彼らの目標は、新しいコンピューティング方法のための最初のオペレーティング システムになることです。そのため、彼らは新しいデバイスを設計したのです。」

特筆すべきは、この製品の発売元であるジェシー・リュウ氏が、実は国内のネットメーカー界ではよく知られている人物だということです。スタースマートハードウェア企業Ravenの創業者であるリュウ・チェン氏は、大学3年生の時に時間マッチングソーシャルツールtimeetを創業しました。わずか1分で100万元の資金を調達したと言われています。

2017年、レイヴンは百度に買収された。26歳の陸成氏はスマートホームハードウェアのゼネラルマネージャーとして百度に入社した。この買収の完了を推し進めたのは、当時百度グループの社長兼最高執行責任者だった陸奇氏だった。

参考リンク:

https://assets.lotofcarrots.com/media/research/rabbit-lam.mp4

https://www.theverge.com/2024/1/10/24033498/rabbit-r1-sold-out-ces-ai

https://analyticsindiamag.com/lam-makes-llm-sweat/

<<:  小紅書探索チームが新たな枠組みを提案:大規模モデル蒸留のためのネガティブサンプルの価値を検証

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

AIはサイバーセキュリティにおいて人間に取って代わるでしょうか?両者は対立していない

近年、サイバーセキュリティ業界では人工知能技術が話題になっています。セキュリティ オーケストレーショ...

アリババのナレッジグラフが完全公開、最先端の人工知能技術が雲奇カンファレンスで輝く

現在のテクノロジーのホットスポットとして、近年、多くの国内主流テクノロジー企業が人工知能、ナレッジグ...

AIの偏見に対処するための重要なステップ

バイアスは機械学習において対処または軽減する必要がある重大な問題です。企業は将来のプレッシャーを軽減...

...

...

実験により、人工知能がパスワードを簡単に解読できることが証明された

[[204299]]先週、信用調査会社エキファックスは、同社のシステムに保存されていた1億4,300...

...

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

[[422682]]以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏...

世界を支配するマスターアルゴリズムは存在するのでしょうか?

[[159157]]アルゴリズムは私たちの生活にますます影響を与えています。しかし、ほとんどの場合...

ベイジアンパーソナライズランキングアルゴリズムを1つの記事で理解する

[[260485]] [51CTO.com からのオリジナル記事] 哲学にさまざまな流派があるように...

分散フロー制御アルゴリズムを5分で理解する

フロー制御は、複雑なシステムでは必ず考慮しなければならない問題です。この記事では、さまざまなフロー制...

Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

高品質なデータの取得は、現在の大規模モデルのトレーニングにおける大きなボトルネックとなっています。数...

AI人工知能は弱い:あなたを瞬時に複製できる仮想人間が登場

今、テクノロジー界で最もホットな話題はAI(人工知能)です。将来、世界はこれらの人工知能に支配される...

...