ロボット技術の発展により、ロボットは実生活においてますます重要な役割を果たすようになるでしょう。人間の指示に従って行動するだけでなく、人間と機械の共同作業において人間の作業をガイドする役割も果たし始めます。この記事では、スタンフォード AI 研究所の研究者がリーダー フォロワー グラフ (LFG) を適用して、ロボットがチーム内でより効果的にリーダーシップを発揮できるようにする方法について説明します。 私たちの生活の多くはチームワークを中心に展開しています。たとえば、私たちは、明白な方法(一緒に食事を作るときなど)と、それほど明白ではない方法(高速道路で車線を共有するときなど)の両方で、人々のグループと協力したり、影響を与えたりすることができます。ロボットが社会にさらに溶け込むようになると、人間のグループとうまく協力できるようになるはずです。 しかし、人口に到達することは困難です。たとえば、ボランティアの捜索救助ミッションで、ドローンがターゲットの位置に関する最新情報を取得する場面を想像してください (下図の青で表示)。直接的な通信手段がないと仮定すると、ドローンはどのようにしてボランティアをその場所まで導くのでしょうか? ドローンがチームをリードする方法の 1 つは、各個人を個別にモデル化し、個別に影響を及ぼすことです。ドローンモデリングの目的は、人の行動を理解し、予測することです。しかし、個人を他の個人から独立してモデル化して影響を与えることは、多数の個人にうまく拡張できず、オンラインで迅速に計算することはできません。 人間のチームに影響を与えるもう 1 つの方法は、モデリングを一切行わず、チームを直接観察して戦略や行動計画を学ぶことです。このアプローチは、同じ規模のチームに適切なソリューションを提供します。ただし、チーム メンバーを追加または削除すると、モデルの入力サイズが変わり、モデルの再トレーニングが必要になります。 私たちの成果は次のとおりです。
人間集団の根底にある構造 グループ内の各個人をモデル化することとは異なり、私たちの中心的な考え方は、個人間の関係をモデル化することに重点を置くことです。グループで交流する場合、私たちは孤立して行動することはなくなり、むしろ他の人の行動に基づいて条件付きで行動するようになります。これらの依存関係は、他者に対する期待を形成し、それに応じて行動するために使用できる構造を提供します。より大きな規模で見ると、これにより規範、ルーチン、さらには文化を発展させることが可能になります。これらの依存関係はロボットにとって有用です。ロボットが人間の行動をモデル化し予測するのに役立つ豊富な情報源を提供するからです。これらの依存関係を潜在構造と呼びます。 潜在的構成の重要な例としては、リーダーシップとフォロワーシップの行動が挙げられます。簡単にチームを編成し、タスクを効率的に完了するためにチームに従うかリードするかを決定できます。たとえば、捜索救助任務では、対象に関する新しい情報が発見されると、人間は自発的にリーダーになることができます。また、リード戦略とフォロー戦略を静かに調整します。たとえば、ドライバーが運転しているとき、車線を越えて互いに追従します。私たちの研究では、基礎となる先導と追従の構造をモデル化することに焦点を当て、それを実行例として使用します。 捜索救助活動におけるボランティア間の潜在的な先導構造と追従構造の例 (左)、および交通で互いに追従する車両 (右)。 では、これらの潜在構造をどのようにモデル化すればよいのでしょうか? 理想的なモデルにはどのような特性があるべきでしょうか? 潜在構造をモデル化する方法について議論する前に、まず必須のものをいくつか特定しましょう。
潜在構造モデリング シンプルなケース 教師あり学習アプローチを使用して、2 人の人間エージェント間の関係を推定します。必須項目の議論に戻ると、学習ベースのアプローチを使用すると、ペアが持つ可能性のある複雑な関係を捉えることができるため、複雑さの問題に対処できます。シミュレーターを使用すると、参加者にリードやフォローなど、測定したい望ましい関係をデモンストレーションしてもらうことができます。 私たちは、捜索救助ミッションを、目標が生存者の潜在的な居場所を表すゲームに抽象化します。以下の例では、参加者は達成すべき目標を共同で決定するために、互いにリードし、従うことが求められます。人に関するデータはノイズが多く、大規模に収集するのが難しい場合が多くあります。この欠点を改善するために、シミュレートされた人間のデータでデータセットを拡張しました。次に、このデータをニューラル ネットワーク モジュールに入力します。これらのモジュールは、先行モジュールと後続モジュールの関係を予測するようにトレーニングされています。これにより、各エージェントと、ターゲットがエージェントのリーダーになる可能性を評価できるモデルが得られます。 チームの拡大 さて、より大きなチームをどのようにモデル化すればよいでしょうか? 上記のモデルを使用すると、すべてのエージェントと目標間のペアワイズ関係のスコアを計算することで、複数の人間の関係をグラフとして表現できます。記述された各エッジには、トレーニングされたニューラル ネットワークによって割り当てられた確率があります (確率は以下の図に抽象化されています)。 次に、グラフ理論アルゴリズムを使用して元のグラフを整理し、最大尤度グラフを取得します。たとえば、各エージェントの重みが最も高い出力エッジを貪欲に選択することができます。 残りのグラフでは、太字のエッジは最も可能性の高いエッジを示しています。このグラフをリーダーフォロワーグラフ (LFG) と呼びます。 リアルタイムで変化するエージェントの数を簡単にモデル化できるため、グラフ構造はエージェントの数に応じて拡張できます。たとえば、次のタイムステップ $kth$ でエージェントを追加するために必要な時間は、エージェント プログラムの数 $n$ とゴールの数 $m$ に線形関係があります。実際には、これをミリ秒単位で計算する必要があります。 私たちのモデルはどの程度正確に一般化できるでしょうか? リーダー-フォロワー グラフによる予測と実際の予測を比較することで、モデルの一般化の精度を評価します。シミュレートされたデータと、シミュレートされたデータと実際の人間のデータの両方を含むデータ (混合データ) を使用してトレーニング実験を実施します。より多くのエージェントをトレーニングすると、モデルの一般化に役立つことがわかりました。これは、より少ないエージェントによるトレーニングと、より多いエージェントによるトレーニング(より多くのデータの収集が必要)との間にトレードオフがあることを示唆しています。 潜在構造はロボットにとってどのように役立つのでしょうか? ロボットは潜在構造を活用して、チームに関する有用な情報を推測することができます。たとえば、先導的および後続的な例では、エージェントの目標や最も影響力のあるリーダーは誰かなどの情報を特定できます。この情報により、ロボットはミッションにとって重要な主要なターゲットまたはエージェントを識別できます。これを念頭に置いて、ロボットは望ましい結果を達成するためのアクションを実行できます。ロボットがグラフ構造を活用して人間のチームに影響を与えた 2 つのタスクを以下に示します。 A. 協力ミッション 目標を達成するためにグループを率いる能力は、多くの現実のシナリオで役立ちます。たとえば、捜索救助任務では、生存者の居場所に関するより多くの情報を持つロボットがチームを率いることができるはずです。私たちは、2 つのターゲット、生存者の潜在的な場所、そして生存者の居場所を知っているロボットが存在する同様のシナリオを作成しました。ロボットは、チームメイト全員を目標地点まで導くことで共同効用を最大化しようとします。チームに影響を与えるために、ボットはリーダー-フォロワー グラフを使用して、現時点で最も影響力のあるリーダーが誰であるかを推測します。次に、ロボットは、最も影響力のあるリーダーが最適な目標を達成する確率を最大化するアクションを選択します。 下の図では、緑色の円は場所 (または目標) を表し、オレンジ色の円はシミュレートされた人間のエージェントを表し、黒い円はロボットを表しています。ロボットはチームをより望ましい最下位の位置に導こうとしています。グラフ構造を使用するロボット (上) と、貪欲に最適な目標を目指すロボット (下) を比較します。 上の図では、ロボットは推定されたリーダーがゴールに向かって移動するように誘導するために、最適なゴールである底部に向かって移動し、その周りを回っています。下の画像では、ロボットはチームメイトに積極的に影響を与えようとせず、まっすぐ下のゴールに向かっています。 多数派がまず根本的な目標と矛盾する場合、ロボットは成功します。一方、多数派が次善の目標と矛盾する場合、ロボットは失敗します。以下は、グラフィカル表現を使用するロボットと他のベースライン戦略を使用するロボットの成功率を記録したグラフです。 グラフ表現は、潜在的なオブジェクトの数が多い、より困難なシナリオで役立つことがわかりました。 B. 敵対的タスク ロボットは、人間のチームが集団の目標を達成するのを妨害しようとする可能性もあります。たとえば、ロボットのチームメイトが相手が旗を取るのを阻止しようとする旗取りゲームを想像してください。 私たちは、ロボットが人間のチームがゴールに到達するのを阻止するという同様のタスクを作成しました。チームを停止させるために、敵対的ボットはリーダー・フォロワーグラフを使用して、現時点で最も影響力のあるリーダーが誰であるかを特定します。次に、ロボットは、推定された最も影響力のあるリーダーを目標から遠ざける可能性を最大化するアクションを選択します。下の図の左側はロボットの動作の例を示しています。右側には、ボットがランダムにプレイヤーを選択し、それを阻止しようとするが、失敗するという単純な戦略の例を示します。 上の図では、ロボットはリーダー-フォロワー グラフを使用して、推定されたリーダーがゴールに到達するのを防ぐアクションを実行します。下の画像では、ボットがプレイヤーを追跡できず、プレイヤーが目標に到達するのを阻止できませんでした。 ボットはプレイヤーが目標を達成するのを阻止することで、ゲームをできるだけ長く引き延ばそうとします。これは、グラフィカルな表現を使用してロボットを他のベースライン ポリシーと比較した図です。 リーダーフォロワーグラフ (LFG) を使用する 2 つの戦略は、他のベースライン方法と比較してゲーム時間を延長することに成功しました。 私たちのグラフィカル表現を使用するボットは、他のベースライン戦略と比較して、ゲーム時間を延長するのに最も成功していることがわかりました。 次は何ですか? チーム内の固有の構造を表現するためのスケーラブルなアプローチを紹介します。次に、この構造を使用してインテリジェントな影響動作を設計する方法を示します。今後の取り組みとしては、以下のことに興味があります。
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 |
>>: 自動運転技術はすでにかなり成熟しているのに、なぜまだ普及していないのでしょうか?この技術を待っている
GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスク...
OpenAI の Sora が 1 週間にわたってスクリーンを独占した後、昨夜、トップクラスの生成 ...
デジタル技術によって変革されない業界を見つけるのは難しいですが、適応型セクターも例外ではありません。...
データマイニングとは何ですか?機械学習とは何ですか?Python データの前処理を実行するにはどうす...
センサーのコストは15ドルから1ドルまで幅があり、自動車メーカーは、車両を完全に自動運転にするにはど...
[[433825]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
クラウド コンピューティングは、組織の業務、情報の保存、意思決定の方法を変え、技術革新と分析研究への...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
1. 因果修正の背景1. 逸脱の発生推奨システムは、収集されたデータに基づいて推奨モデルをトレーニン...
人工知能は、コンピュータサイエンス業界のトップテクノロジーの一つとして、1956年にダートマス会議で...
AIOps は人工知能と IT 管理を組み合わせた技術として、近年大企業から大きな注目を集めていま...
ここ数か月、生成型人工知能(ChatGPT)に関するニュースがほぼ毎日のように報道されています。突然...
IT Homeは公安部の公式サイトから、公安部が8月10日に記者会見を開き、公安機関が国民の個人情報...