Googleはロボットを大規模な言語モデルの手と目として機能させ、タスクを16のアクションに分解して一度に完了させます。

Googleはロボットを大規模な言語モデルの手と目として機能させ、タスクを16のアクションに分解して一度に完了させます。

大型モデルはロボット工学の分野でその地位を確立しました。

「飲み物をこぼしてしまいました。助けてくれませんか?」これは私たちの日常生活で非常によくある助けを求める声です。これを聞くと、家族や友人は何も考えずに雑巾やペーパータオルを渡したり、片付けを手伝ったりすることが多いでしょう。

しかし、それがロボットの場合、物事はそれほど単純ではありません。 「飲み物がこぼれた」や「助けて」の意味と、どのように助けるかを理解する必要があります。これは、(x, y) に移動してコーラのボトルをつかむなどの単純な指示しか理解できないロボットにとっては確かに少し難しいです。

ロボットに理解させるために、上記の文章をいくつかの簡単な指示に分解することもできますが、面倒なプロセスのため、ロボットの使用を諦めてしまう可能性があります。この恥ずかしさをなくすには、ロボットにスマートな頭脳を搭載する必要があります。

ディープラーニング分野の研究では、優れた言語理解能力を持つ大規模な言語モデル(GPT-3、PaLMなど)がこの脳として機能することが期待されています。同じ文(飲み物をこぼしてしまったので、手伝ってもらえますか?)に対して、ビッグモデルは次のように応答するかもしれません。「掃除機を試してもらえますか?」または「掃除用具を探しましょうか?」

ご覧のとおり、大規模言語モデルは、やや複雑な高レベルの指示を理解できますが、その回答が必ずしも実行可能であるとは限りません (たとえば、ロボットが掃除機を拾えない、または家に掃除機がないなど)。両者をよりうまく組み合わせるには、大型モデルがロボットのスキル範囲と周囲の環境の制限も理解する必要があります。

Google の「Robotics at Google」は最近この方向を目指し、「Saycan」(私が言うようにではなく、私ができる通りに行う)と呼ばれるアルゴリズムを提案しました。このアルゴリズムでは、ロボットが言語モデルの「手と目」として機能し、タスクに関する高度な意味知識を提供します。

この協調モードでは、ロボットは 16 ステップからなる長いタスクを完了することさえできました。

それで、これはどのように行われるのでしょうか?研究チームはプロジェクトのウェブサイトでその方法について説明しています。

プロジェクトウェブサイト: https://say-can.github.io/

論文アドレス: https://arxiv.org/abs/2204.01691

方法の概要

研究者たちは、大規模言語モデル (LLM) とロボットの物理的タスクを組み合わせるという原理を使用しました。LLM に単に指示を解釈させるのではなく、LLM を使用して、単一のアクションが高レベルの指示全体を完了するのに役立つ確率を推定することができます。簡単に言えば、各アクションには言語による説明があり、プロンプト言語モデルを使用してこれらのアクションにスコアを付けることができます。さらに、各アクションに対応するアフォーダンス関数がある場合、現在の状態(学習した価値関数など)を与えられた場合にそのアクションが成功する可能性を定量化できます。 2 つの確率値の積は、ロボットが指示に従ってアクションを正常に完了できる確率です。この確率に従って一連のアクションを並べ替え、最も確率の高いアクションを選択します。

アクションを選択したら、タスクを繰り返し選択して指示に追加することで、ロボットにそのアクションを実行するように指示できます。実際には、計画はユーザーとロボットの会話として構成されます。ユーザーは、「コーラの缶をどうやって渡しますか?」などの高レベルの指示を提供します。言語モデルは、「私は以下を実行します:1. コーラの缶を見つけます。2. コーラの缶を拾います。3. それをあなたのところへ持ってきます。4. 完了です。」などの明示的なシーケンスで応答します。

要約すると、高レベルの命令が与えられると、SayCan は言語モデルからの確率 (特定のアクションが高レベルの命令に役立つ確率) と価値関数からの確率 (上記のアクションが正常に実行される確率) を組み合わせて、実行するアクションを選択します。この方法で選択されたアクションは実行可能かつ有用です。選択したアクションをロボットの応答に追加し、出力ステップが終了するまでモデルを再度クエリすることで、このプロセスを繰り返します。

実験データ

研究者らは、提案されたアルゴリズム Saycan を、オフィスのキッチンと模擬オフィス キッチンの 2 つのシナリオでテストしました。これらのシナリオでは、101 のタスクが自然言語の指示によって指定されました。結果のハイライトの一部を以下に紹介します。

下の図から、SayCan の意思決定プロセスを直感的に理解できます。青いバーは (正規化された) LLM 確率を表し、赤いバーは選択されたアクションが正常に実行される (正規化された) 確率を表します。全体のスコアは緑色のバーで表示され、アルゴリズムは全体のスコアが最も高いアクションを選択します。この視覚化は SayCan の解釈可能性を強調しています。

たとえば、「コーラをこぼしてしまったので、拭くものを持ってきてもらえますか?」というタスクを与えられた場合、SayCan は次の手順を正しく計画して実行しました。1. スポンジを見つける。2. スポンジを拾う。3. スポンジを持ってくる。4. 完了。以下のように表示されます。

タスクを「コーラをこぼしてしまったので、もう 1 本もらえますか?」に少し調整すると、SayCan は次の手順でタスクを実行します: 1. コーラのボトルを見つける。2. コーラを拾う。3. 持って来る。4. 完了。これは、SayCan が LLM の大容量を活用できることを示唆しており、LLM の世界の意味知識は、命令の解釈と実行方法の理解の両方に役立ちます。

次の例では、SayCan はアフォーダンスの機能を活用して、言語モデルによる選択を「上書き」します。言語モデルはスポンジを取ることが正しい行動であると考えていますが、アフォーダンスはそれが不可能であることを認識し、「スポンジを見つける」を選択します。これは、アフォーダンスのグラウンディングの必要性を強調しています。

著者は SayCan を非常に複雑な指示に適用しました。「テーブルにコーラをこぼしました。捨てて、何かで拭いてもらえますか?」この指示には 8 つのアクションが必要で、ロボットはタスクを正常に計画して完了しました。実験では、最も長いタスクは 16 ステップでした。

要約すると、この方法では、101 のタスクに対して合計 70% の計画成功率と 61% の実行成功率を達成しています。アフォーダンス グラウンディングが削除されると、パフォーマンスはほぼ半分に低下します。

詳細については原論文を参照してください。この記事には 43 人の著者がおり、共同責任著者は Karol Hausman、Brian Ichter、中国の学者 Xia Fei です。

<<:  5Gで「選ばれる」分野!自動運転バスがあなたのところにやって来ます

>>:  テスラは、Dojo スーパーコンピューターの秘密を盗み、偽のコンピューターを使用して検査を欺いたとして元エンジニアを訴える

ブログ    
ブログ    

推薦する

...

プログラマーの芸術: ソートアルゴリズムのダンス

1. バブルソート 2. シェルソート 3. 選択ソート 4. 挿入ソート 5. クイックソート 6...

...

...

興味深く実用的なオープンソース人工知能プロジェクトトップ10

皆さんは多くの人工知能プロジェクトを見たり使用したりしたことがあると思いますが、そのほとんどは非常に...

類似画像検索エンジンを効率的に開発するにはどうすればよいでしょうか?

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟プロジェクト紹介類似画像検索とは、関連するあらゆる画像を検...

機械学習がサイバー脅威に対する最善の武器である理由

攻撃対象領域が拡大し続け、攻撃手法がより高度化するにつれ、セキュリティ業界は現在、深刻な「セキュリテ...

ChatGPT がリリースされてから 1 年が経ちました。主要なオープン ソース モデルはすべて追いついたのでしょうか?

1年前の今日、ChatGPTが誕生し、人工知能の新しい時代が到来したように思えました。 ChatG...

ロビン・リー:百度はすでに独自のハイエンドチップを製造する能力がある

「中国の改革開放40年はIT産業の爆発的な成長をもたらしたが、ハイエンドチップは常に輸入に依存してき...

小売業と教育における感情認識に焦点を当てていますが、Mizao.com はどのように違うのでしょうか?

[51CTO.com からのオリジナル記事] 喜び、悲しみ、恐怖、平静、怒り、驚き、軽蔑、嫌悪など...

KDnuggets 調査 | データ サイエンティストが最もよく使用するアルゴリズム トップ 10

翻訳 | 江凡百理子杰樹校正 | ロリン最新の KDnuggets 調査では、データ サイエンティス...

Lilith モバイルゲームにおける不正防止の設計と調査

1. モバイルゲーム闇産業チェーンまず、モバイルゲームのブラック産業チェーンを紹介します。これは基本...

AIと機械学習がIoTデータから重要な洞察を引き出す方法

過去数年間、モノのインターネットに関する議論の多くは、接続されたデバイス自体、つまりそれが何であるか...

...

...