生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

さて、ロボット犬を1時間自力で転がらせれば、歩くことを学習します。

歩き方はなかなか良さそうです:

依然として大きな棒からの集中攻撃に耐えることができる:

たとえ顔から地面に倒れても、寝返りを打って自力で立ち上がることができた。

機械犬の訓練は普通の犬の訓練と何ら変わらないようです。

これはカリフォルニア大学バークレー校がもたらした最新の成果であり、ロボットがシミュレーターに頼ることなく実際の環境で直接訓練し学習することを可能にする。

研究者たちはこの方法を使って、短期間で4台のロボットを訓練した。

たとえば、冒頭で紹介した 1 時間で歩くことを学習した機械犬など。

実際に8~10時間つかむ作業を経て、人間に近いレベルのパフォーマンスを達成したロボットアームも2つあります。

そして、コンピュータービジョンを搭載した小型ロボットは、自力で2時間の探索を行った後、指定された場所までスムーズに移動することができます。

この研究はピーター・アビール氏らによって提案されました。ピーター・アビール氏はアンドリュー・ン氏の最初の博士課程の学生であり、最近2021年のACMコンピューティング賞を受賞しました。

現在、この方法のソフトウェア インフラストラクチャはすべてオープンソース化されています。

「ビジョナリー」と呼ばれるアルゴリズム

この方法のパイプラインは、大きく 4 つのステップに分けられます。

最初のステップは、ロボットを実際の環境に配置してデータを収集することです。

2 番目のステップは、データをリプレイ バッファーに転送することです。このステップは、履歴データをトレーニングに使用し、「経験を要約」し、収集したサンプルを効率的に活用することです。

3 番目のステップでは、ワールド モデルは既存の経験から学習し、戦略を「補完」します。

4 番目のステップでは、Actor Critic アルゴリズムを使用して、ポリシー勾配法のパフォーマンスを向上させます。

その後、このサイクルが繰り返され、洗練された手法がロボットに適用され、最終的に「探索による学習」の感覚が実現されます。

具体的には、ここでのコアリンクはWorld Modelです。

World Models は、2018 年に DAVID HA らによって提案され、NIPS 2018 で口頭発表された高速な教師なし学習手法です。

その中心となる概念は、人間は既存の経験に基づいて世界の心理モデルを形成し、私たちが行う決定や行動はこの内部モデルに基づいているというものです。

例えば、人間が野球をするとき、視覚情報が脳に伝わるよりも反応速度の方がはるかに速いです。この状況でボールを正しく返球できるのは、脳が本能的に予測しているからです。

以前、GoogleはWorld Modelの「脳補完」学習法に基づいて、Dreamerと呼ばれるスケーラブルな強化学習法を提案しました。

今回提案された手法はこれに基づいており、DayDreamer と呼ばれています。

(先見の明がある人と言えるのでしょうか?)

具体的には、ワールド モデルはインテリジェント エージェント モデルです。

視覚認識コンポーネントが含まれており、視覚認識コンポーネントは、モデル入力として、見た画像を低次元表現ベクトルに圧縮します。

履歴情報に基づいて将来の表現ベクトルを予測できるメモリ コンポーネントもあります。

最後に、視覚認識コンポーネントと意思決定コンポーネントの表現ベクトルに基づいて、どのようなアクションを実行するかを決定できる意思決定コンポーネントも含まれています。

さて、カリフォルニア大学バークレー校の学者たちが提案した方法に戻りましょう。

世界モデル学習部分のロジックは経験蓄積のプロセスであり、行動学習部分はアクション出力のプロセスであることに気づくのは難しくありません。

この論文で提案された方法は、主にロボットのトレーニングにおける2 つの問題を解決します。

効率性と正確性

一般的に、ロボットを訓練する従来の方法は、繰り返しの実験を通じてロボットの動作を調整する強化学習です。

ただし、この方法では、良好な結果を得るために多くのテストが必要になることがよくあります。

非効率的であるだけでなく、トレーニングのコストも高くなります。

その後、シミュレーターでロボットを訓練すれば効率が大幅に向上し、コストも削減できると多くの人が提案しました。

しかし、この記事の著者は、シミュレーターによるトレーニング方法は精度の点でまだ十分ではなく、実際の環境でのみロボットが最良の結果を達成できると考えています。

結果から判断すると、ロボット犬に行動を適応させる訓練をするにはわずか10 分しかかかりません。

SAC法と比較すると効果が大幅に向上します。

この新しいアプローチは、ロボットアームのトレーニング中の視覚的な位置特定とまばらな報酬に関する課題も克服し、数時間以内に他の方法を大幅に上回るトレーニング結果を実現します。

研究チーム

今回新たな成果をもたらした研究チームのメンバーも非常に目を引く存在であることも特筆に値します。

その中で、ピーター・アビールはアンドリュー・ンの最初の弟子です。

彼は現在、カリフォルニア大学バークレー校の電気工学およびコンピューターサイエンスの教授であり、バークレー・ロボット学習ラボの所長、バークレー AI 研究所の共同所長を務めており、以前は OpenAI に所属していました。

彼はつい最近、ロボット学習への貢献が認められ、2021 ACM コンピューティング賞も受賞しました。

同時に、彼はAIロボット企業Covariantの共同創設者でもあります。

もう一人のケン・ゴールドバーグも AI 分野のトップエキスパートです。

彼は現在、カリフォルニア大学バークレー校の工学教授であり、強化学習と人間とコンピュータの相互作用を研究対象としています。

2005年にIEEEフェローに選出された。

同時に、ゴールドバーグはアーティストでもあり、カリフォルニア大学バークレー校の芸術、テクノロジー、文化セミナーの創設者でもあります。

さらに、Philipp Wu、Alejandro Escontrela、Danijar Hafner が共著者です。

そのうちのフィリップ・ウーは、カリフォルニア大学バークレー校の4年生です。

もう一つ

ロボット犬の訓練のビデオを見ていると、研究者が Unitree のロボット犬を使用していることがわかりました。

このブランドは中国の会社Yushu Technologyのものです。以前、春節祝賀会に登場したロボットMaverickもこの会社のものでした。

さらに、玉樹ロボット犬が集団で囲碁1テストを行う動画が最近公開され、海外で人気を博した。

論文の宛先:

https://danijar.com/project/daydreamer/

<<:  HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

>>:  ビジネス AI とデータの課題に対処する垂直インテリジェンス

ブログ    

推薦する

word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった

画期的な論文word2vec は、当然の NeurIPS Test of Time Award を受...

人気の「GPT-4 MIT学部数学フルスコア」論文が不正、データセット自体に問題あり

過去 2 日間で、GPT-4 が MIT EECS と数学の学部試験に満点で合格したという論文が T...

画像とテキストを統合的に生成するMiniGPT-5が登場:トークンがVokenになり、モデルは書き込みを継続できるだけでなく、自動的に画像を追加することもできます

ビッグモデルは言語から視覚へと飛躍し、テキストと画像のコンテンツをシームレスに理解して生成する可能性...

テクノロジー統合によるバーチャルキャラクターの創造と実践

著者 | 崔昊レビュー | Chonglouまとめこの記事では、パーソナライズされた仮想キャラクター...

GenAIの課題に対応するためにデータガバナンスはどのように進化する必要があるか

最近、データ ガバナンスが気になっていたので、ChatGPT に「データ ガバナンスとは何ですか?」...

雁塔区:西部の「最強の頭脳」が人工知能コンピューティングセンターの未来を切り開く

9月9日午前、雁塔区未来工業城で未来人工知能コンピューティングセンターの開設式が行われた。同イベント...

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

テレンス・タオが新プロジェクトを立ち上げ:リーンで素数定理を証明、研究計画は完成

「アレックス・コントロヴィッチと私が率いる新しいリーン形式化プロジェクトが正式に発表されました。この...

...

...

...

...

清華大学の卒業生は大きな貢献をしました! Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

商業ビルのエネルギー効率における人工知能の役割

人工知能は商業ビルを変革し、エネルギー使用に関してよりスマートなものにしています。周囲に誰もいないと...