注意してください、小帥は振り向きましたが、スウェットシャツのフードの中には何もありませんでした。 さて、これはホラー・スリラーではありませんが、UCSD (カリフォルニア大学サンディエゴ校)の中国人チームによる最新の研究結果です。 彼らは、ヒューマノイドロボットの全身制御を可能にする特別な全身制御戦略(ExBody)を提案しました。この戦略は、主にヒューマノイドロボットの上半身を訓練し、下半身は安定性の維持に重点を置きます。 この方法で訓練されたヒューマノイドロボットは、堅牢な動きと動的な動作追跡を実現できます。 つまり、彼は知識が豊富で表現力も豊かです。 たとえば、人間と一緒にダンスをすることで、ヒューマノイドロボットと人間の関係を強化することができます。 蛍光ベストを着用すれば、すぐに街頭に出て交通整理をすることができます。 研究論文の情報によると、研究チームは6人で構成されており、その半数以上がUCSDの博士課程の学生です。 なぜヒューマノイドロボットにこのようなトレーニングを行う必要があるのでしょうか?論文の共同筆頭著者である鄭旭欣氏は、ツイッターで論文を宣伝しながら説明した。
ヒューマノイドロボットが「表現力」を持つときチームの研究は「ヒューマノイドロボットの表現力豊かな全身制御」と題されており、その目標はヒューマノイドロボットが現実世界で豊かで多様かつ表現力豊かな動きを生み出せるようにすることである。 チームの訓練を受けた後、ヒューマノイドロボットはどのような動作を実行できるのでしょうか? 道で出会った友達とハイタッチするのも問題ありません。 ヘイマンと叫んでいるのが目に浮かびます... もっと親切になってください。道で兄弟に会ったら、抱きしめてあげてください。 ちょっと面白いのは、ハイタッチでもハグでも、ロボットの下半身を踏み鳴らす動作は止まらず、少しだけ遅くなることです。 鋭い観察力を持つ友人は、上記のハイタッチ実験がさまざまな環境とさまざまな表面で行われたことに気づいたかもしれません。 研究チームはまた、新たな研究を通じて訓練されたヒューマノイドロボットはさまざまな地形で機敏に動くことができることも明らかにした。 上に示した芝生や石畳の道に加えて、ビーチもこの車にとっては簡単です。 フラットなオフィスフロアは、次のことも簡単に処理できます。 チームによるさらなるデモンストレーションでは、外部抵抗に遭遇したときにシステムが自由に動く様子を示すデモもさらにあります。 強く引っ張る: 大きなボールで打つ: 彼はまた、手を上げて「ねえ、ランドセルを運ぶのを手伝って」と合図することも知っていました。 さまざまな作戦に誰もが驚愕した。 ニューヨーク大学のコンピューターサイエンスの助教授は、6人の学者のチームによってこれほど高度な制御と表現力が生み出されたとは「信じられない」とツイートして支持を表明した。 より多くのネットユーザーがこの仕事について「クール」という言葉を使うことを選んだ。 「人類学以外の何ものでもない」では、どうすれば、上記のような「攻撃的」かつ表現力豊かなロボットを作ることができるのでしょうか? このコンセプトの背後にある考え方はシンプルです。人類学に基づいています。 学習教材には、さまざまな人間のモーションキャプチャデータセットのほか、生成モデルや video2pose モデルによって提供されるシミュレートされたデータが含まれています。 強化学習フレームワークで全身制御を大規模にトレーニングすることで、ロボットは自分の行動を現実世界に一般化することができます。 しかし、この Sim2Real のアイデアは実際には問題に遭遇しました。 著者らによると、典型的なデータセット内の人体モデルは 69 の自由度を持つが、彼らが使用したロボットは 19 の自由度しかないという。 これに加えて、理論上のトルク制限と実際のトルク制限も異なります。 学んだ知識を実際に使うことができないので、これは非常に恥ずかしいことです。 ではどうすればいいでしょうか? 次に、小さな変更を加えます。 上半身のみを使って模倣し、さまざまな表現力を担い、下半身はどんなスピードでも安定するように2本の足を制御する役割のみを担います。 著者はこの方法を「 Expressive Whole-Body Control(Exbody) 」と呼んでいます。 したがって、ロボットの全体的なフレームワークは次のようになります。 まず、さまざまなデータ セットを取得した後、システムはモーション リダイレクトを実行して、ロボットの運動構造に適合する一連のモーション セグメントを取得します。 そして、これらのクリップから表現目標とルートモーション目標を抽出し、「Exbody」戦略の強化学習トレーニングを実行し、最終的に実際のロボットに指示を展開します。 このうち、表現目標はロボットの上半身が達成する必要のあるものであり、ルート動作目標は下半身に属します(もちろん、この部分はリモコンコマンドを使用して直接与えることもできます) 。 △ 使用したデータセット 最終的に、さまざまなベースライン方法と比較して、ロボットは次の結果を達成しました。 いくつかの優れた指標があり、全体的なパフォーマンスは良好です。 (MELV: 平均エピソード線速度追跡報酬、線速度追跡報酬 MEK: 平均エピソードキーボディ追跡報酬、キーボディ追跡報酬) 下の図からわかるように、Exbody の戦略により、ロボットはパフォーマンス(拍手など)を行うときに膝をより曲げ、足を地面からより高く持ち上げることもできます。つまり、動きがより激しく、表現力豊かになり、そしてもちろん、より安定するということです。 すべて中国人チームによって制作この研究には6人の著者がおり、全員が中国人で、全員がカリフォルニア大学サンディエゴ校(UCSD)の出身です。 共著者は2名です。
責任著者は、指導教官であり、UCSDの電気工学助教授であるXiaolong Wangです。 彼はCMUで博士号を取得し、現在はCVやロボット工学などを研究しています。Google Scholarによると、彼の論文は23,000回以上引用されています。 最後に、この研究で使用されたロボットもチームに含まれています: Unitree Technology のUnitree H1 。 もう一つ最近、ロボット工学においてかなりの進歩がありました。 まず、OpenAIとマイクロソフトが投資したFigureは、新たな資金調達ラウンドで約6億7,500万ドルを調達し、資金調達前の評価額が約20億ドルになったと発表した。 同社はその後、ヒューマノイドロボット「フィギュア01」の最新の進歩を紹介するビデオを公開し、「すべてが自律的だ」と述べた。 そして、アメカは、非常に豊かな表情を持ち、時には驚かせ、時には恐ろしいほどです。最近、彼には視覚能力があることが発表されました。 彼女は部屋の中の状況全体を観察し、それをさまざまな声と口調(マスクやスポンジ・ボブなどを含むがこれらに限定されない)で生き生きと説明することができます。 本当に面白いですね |
<<: OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った
>>: GoogleのオープンソースビッグモデルGemmaは何をもたらすのか?「Made in China」のチャンスはすでに到来していることが判明
昨日のマスク氏の発表を見た後、サイバーパンク映画をたくさん思い出し、一晩中夢を見ました。北京時間の昨...
データの蓄積、コンピュータの計算能力の飛躍的向上、アルゴリズムの最適化により、人工知能は生活をより効...
AIは本当に人間の仕事を奪う——有名なテクノロジーウェブサイト「ギズモード」が、スペイン語チャンネル...
現在、企業は機械学習を使用することで、予測エラー率、需要計画の生産性、コスト削減、納期厳守において ...
気候変動は現在人類が取り組むべき最も重要な課題の一つとなっています。この急速に拡大する危機には、その...
[51CTO.com クイック翻訳] インターネットが誕生して以来、あらゆる種類のジャンク情報や悪意...
[[360189]]今年、ほとんどの企業は、新型コロナウイルス感染症による混乱に対処し、リモートワー...
[51CTO.comからのオリジナル記事] Facebookは、インド政府および通信会社と協議し、太...
[[238191]]人工知能はハイテクで、多岐にわたり、多次元的で、学際的な統合装置であり、ビッグ...
開発者がディープフェイクのパンドラの箱を開けたことで、本物と区別がつかないほどリアルな写真を偽造する...
イーロン・マスク氏は、わずか5年で人間の言語を無意味にすることができる技術に取り組んでいると述べてい...
大規模言語モデル (LLM) とビジュアル グラウンデッド モデル (VFM) の出現により、大規模...