「行動は言葉よりも雄弁である」：言語モデルはロボットにどのように適応するのか？

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Google Brain のロボット工学チームは最近、大規模言語モデルの「話す」機能とロボットの「行動する」機能を組み合わせて、ロボットにより物理的に根拠のある推論能力を与える方法について説明した記事を公開しました。

1 動機

「飲み物をこぼしちゃったんだけど、手伝ってくれない？」と誰かに聞かれたら、あなたはどう答えますか？

あなたは現在の環境を評価し、相手が飲み物のボトルを片付けるのを手伝うかもしれません。もし雑巾が周囲にあるなら、それを拾い上げて片付けるのを手伝います。もちろん、これらのステップバイステップの指示を心の中で黙読しても構いません。

掃除機が周りにない場合は、現在の環境条件に合わないので、当然、他の人に掃除機を使うように言うことはないでしょう。

このような行動上の意思決定にはすでに 2 つのステップが組み込まれています。つまり、助けを求める要求に直面したときに、現在の問題を解決できる行動の候補がいくつかあり、その後、現実的に考えて、現実に最も適した行動を選択する必要があります。

ロボットの文脈では、最初のステップでは、人間の言語で発行された指示を理解し、可能な解決策を「話す」ための言語モデルが必要です。2 番目のステップでは、周囲の環境を組み合わせて、現実世界に沿った解決策を選び出す必要があります。

この記事では、これら 2 つの動作を切り離し、適切な方法で組み合わせることを試みます。

最初のステップは、可能性のある候補者を理解し、生成することです。当然ながら、この記事では、自然言語処理の分野で現在非常に人気がある大規模言語モデル (LLM) を使用しています。これは生成的なもの、つまり、質問に直面して、次の図に示すように、可能な質問と回答を生成するものになります。

3人の法学修士からの回答

この生成構造は、行動ロボットの分野には適していないことがわかります。一方で、FLAN モデルによって出力される結果には明確な行動指示がありません。他方では、GPT3 で具体的な実践が示されていても、現実のシナリオは考慮されていません。現時点で掃除機がない場合はどうなるでしょうか?

冒頭で言いたかったのと同じです。何が言えるかは重要ではなく、それが実現可能かどうかが重要なのです。

したがって、2 番目のステップでは、ロボットの環境、ロボットが実行できる動作、現在持っているスキルなどを考慮します。これらは、強化学習の価値関数 (VF) またはアフォーダンス関数を使用して評価されることがよくあります。

LLM の第一段階が考えたり話したりできる「心と口」だとすると、アフォーダンスの第二段階は「目と手」の役割を果たします。最初のステップは「言う」ことであり、2 番目のステップは何ができるかを判断することです。記事ではこのモデルを SayCan と名付けました。

2つの方法

上記の記事で述べた方法の鍵は、現実世界と統合されていない「理想化された」LLMをいかにしてより「現実的」にするかという点にあります。私たちが望んでいるのは、対話生成を使用して一連の指示に基づいて、合理的だが無関係な文を生成することではありません。そのため、SayCan は特定の動作に対してプロンプトとスコアリングを使用します。

具体的には、ロボットはまず周囲の環境を観察し、VF を使用して実行可能な動作の候補を見つけます。 LLM は質問と短いプロンプトに基づいてこれらの行動を採点します。

VF と LLM によって与えられた 2 つのスコアの積が、最終的な動作選択の信頼度として使用され、最も高いスコアを持つ動作がこのステップで選択される動作として選択されます。

その後、現在選択されている動作は、次のステップのテンプレート入力として前のステップの回答テンプレートに接続され、上記のアクションが繰り返され、最終的に終了記号が推論されるまで後続の動作が再帰的に推論されます。このプロセスは以下の図に示されています。

選択行動のフローチャート

LLM は具体的にどのように機能しますか?

下の図に示すように、LLM は「How would...」という質問に答えるためのコマンド語彙 (プロンプト) として「I would: 1.」というテンプレートを使用します。記事では、比較的標準的な方法で始まるこのような会話はロボットのコンテキストで特別に設計されており、実際のシナリオはより複雑である可能性があることにも言及していることは注目に値します。さらに、文脈内学習に使用される例も類似の文で構成されており、モデルが文を生成するための参照を提供します。これが図のプロンプトエンジニアリング部分です。

後続の LLM は、事前に選択された動作にスコアを付けます。これは、生成的というよりは、分類や検索に似た方法です。

LLMの具体的な実施プロセス

実装全体は、次の疑似コードを参照できます。

3 件の結果

論文では、模擬キッチンと実際のキッチンでテストを実施し、さまざまな言語の指示からなる 101 のタスクが含まれていました。SayCan によって完了したいくつかの例を以下に示します。左側は人間の指示、右側は LLM と VF に基づいてロボットがデコードした指示シーケンスです。青い棒グラフは、特定のアクションに対して LLM によって得られた確率スコアを示し、右側のスコアは VF によって得られたスコアです。

シーン1

人間: コーラをこぼしちゃったんだけど、何かで拭くのを手伝ってくれない？

ロボット: 1) ぼろ布を探します。 2) このぼろ布を拾ってください。 3) それをあなたのところに持って来てください。 4) 完了です。

シナリオ例1

シーン2

人間: コーラをこぼしちゃったんだけど、新しい缶を持ってきてもらえますか?

ロボット: 1) コーラの缶を見つけます。 2) コーラの缶を拾います。 3) それをあなたのところに持って来てください。 4) 完了です。

シナリオ例2

例のシナリオ3

シーン3

人間: クローゼットの上に雑巾をどうやって置きますか?

ロボット: 1) ぼろ布を探します。 2) このぼろ布を拾ってください。 3) クローゼットの近くに行きます。 4) 完了です。

シナリオ 3 の最初のステップでは、言語モデルは「スポンジを拾う」という最適なオプションを示しましたが、ロボットが何も見なかったため、VF はこのオプションに非常に低いスコアを与えました。これは、SayCan の言語部分が物理世界について推論できることを示しています。さらに興味深いのは、この「不器用な」ロボットが最後の動作、つまりスポンジを地面に落とすという動作を実行できなかったことです。

その他のビデオについては、ウェブサイトをご覧ください：https://say-can.github.io/

4 結論

SayCan は、強化学習の「アクション」機能と大規模言語モデルの「スピーチ」機能を組み合わせ、「行動は言葉よりも雄弁である」という考え方を強調しています。つまり、可能な行動指示を単に発行するだけでは不十分であり、外部の周囲の環境を組み合わせて、実行可能なことを実行するということです。しかし、この記事では、今後の考え方の方向性として、次のような疑問を提起しています。

1) 現実世界を統合する LLM から学び、世界知識の推論能力の向上など、言語モデル自体をさらに改善する方法。

2) より根本的に、人間に適用できる自然言語は、本当にロボットプログラミングのためのオントロジー言語なのでしょうか?

3) ロボット工学の分野で自然言語理解技術をより適切に統合するにはどうすればよいでしょうか?

現在のロボット研究は、徐々に「ソフトウェア」アルゴリズムレベルに焦点が当てられており、上流のAIアルゴリズムもこの分野に急速に応用されていることがわかります。今後のさらなる発展を期待しています。

<<: ツイッターがマスク氏の買収を阻止：15％以上の株式を保有する者は割引価格で発行される

>>: 香港大学の黄凱斌氏：6G時代のエッジインテリジェンス、シャノンとチューリングの出会い