生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

さて、ロボット犬を1時間自力で転がらせれば、歩くことを学習します。

歩き方はなかなか良さそうです:

依然として大きな棒からの集中攻撃に耐えることができる:

たとえ顔から地面に倒れても、寝返りを打って自力で立ち上がることができた。

機械犬の訓練は普通の犬の訓練と何ら変わらないようです。

これはカリフォルニア大学バークレー校がもたらした最新の成果であり、ロボットがシミュレーターに頼ることなく実際の環境で直接訓練し学習することを可能にする。

研究者たちはこの方法を使って、短期間で4台のロボットを訓練した。

たとえば、冒頭で紹介した 1 時間で歩くことを学習した機械犬など。

実際に8～10時間つかむ作業を経て、人間に近いレベルのパフォーマンスを達成したロボットアームも2つあります。

そして、コンピュータービジョンを搭載した小型ロボットは、自力で2時間の探索を行った後、指定された場所までスムーズに移動することができます。

この研究はピーター・アビール氏らによって提案されました。ピーター・アビール氏はアンドリュー・ン氏の最初の博士課程の学生であり、最近2021年のACMコンピューティング賞を受賞しました。

現在、この方法のソフトウェアインフラストラクチャはすべてオープンソース化されています。

「ビジョナリー」と呼ばれるアルゴリズム

この方法のパイプラインは、大きく 4 つのステップに分けられます。

最初のステップは、ロボットを実際の環境に配置してデータを収集することです。

2 番目のステップは、データをリプレイバッファーに転送することです。このステップは、履歴データをトレーニングに使用し、「経験を要約」し、収集したサンプルを効率的に活用することです。

3 番目のステップでは、ワールドモデルは既存の経験から学習し、戦略を「補完」します。

4 番目のステップでは、Actor Critic アルゴリズムを使用して、ポリシー勾配法のパフォーマンスを向上させます。

その後、このサイクルが繰り返され、洗練された手法がロボットに適用され、最終的に「探索による学習」の感覚が実現されます。

具体的には、ここでのコアリンクはWorld Modelです。

World Models は、2018 年に DAVID HA らによって提案され、NIPS 2018 で口頭発表された高速な教師なし学習手法です。

その中心となる概念は、人間は既存の経験に基づいて世界の心理モデルを形成し、私たちが行う決定や行動はこの内部モデルに基づいているというものです。

例えば、人間が野球をするとき、視覚情報が脳に伝わるよりも反応速度の方がはるかに速いです。この状況でボールを正しく返球できるのは、脳が本能的に予測しているからです。

以前、GoogleはWorld Modelの「脳補完」学習法に基づいて、Dreamerと呼ばれるスケーラブルな強化学習法を提案しました。

今回提案された手法はこれに基づいており、DayDreamer と呼ばれています。

（先見の明がある人と言えるのでしょうか？）

具体的には、ワールドモデルはインテリジェントエージェントモデルです。

視覚認識コンポーネントが含まれており、視覚認識コンポーネントは、モデル入力として、見た画像を低次元表現ベクトルに圧縮します。

履歴情報に基づいて将来の表現ベクトルを予測できるメモリコンポーネントもあります。

最後に、視覚認識コンポーネントと意思決定コンポーネントの表現ベクトルに基づいて、どのようなアクションを実行するかを決定できる意思決定コンポーネントも含まれています。

さて、カリフォルニア大学バークレー校の学者たちが提案した方法に戻りましょう。

世界モデル学習部分のロジックは経験蓄積のプロセスであり、行動学習部分はアクション出力のプロセスであることに気づくのは難しくありません。

この論文で提案された方法は、主にロボットのトレーニングにおける2 つの問題を解決します。

効率性と正確性。

一般的に、ロボットを訓練する従来の方法は、繰り返しの実験を通じてロボットの動作を調整する強化学習です。

ただし、この方法では、良好な結果を得るために多くのテストが必要になることがよくあります。

非効率的であるだけでなく、トレーニングのコストも高くなります。

その後、シミュレーターでロボットを訓練すれば効率が大幅に向上し、コストも削減できると多くの人が提案しました。

しかし、この記事の著者は、シミュレーターによるトレーニング方法は精度の点でまだ十分ではなく、実際の環境でのみロボットが最良の結果を達成できると考えています。

結果から判断すると、ロボット犬に行動を適応させる訓練をするにはわずか10 分しかかかりません。

SAC法と比較すると効果が大幅に向上します。

この新しいアプローチは、ロボットアームのトレーニング中の視覚的な位置特定とまばらな報酬に関する課題も克服し、数時間以内に他の方法を大幅に上回るトレーニング結果を実現します。

研究チーム

今回新たな成果をもたらした研究チームのメンバーも非常に目を引く存在であることも特筆に値します。

その中で、ピーター・アビールはアンドリュー・ンの最初の弟子です。

彼は現在、カリフォルニア大学バークレー校の電気工学およびコンピューターサイエンスの教授であり、バークレー・ロボット学習ラボの所長、バークレー AI 研究所の共同所長を務めており、以前は OpenAI に所属していました。

彼はつい最近、ロボット学習への貢献が認められ、2021 ACM コンピューティング賞も受賞しました。

同時に、彼はAIロボット企業Covariantの共同創設者でもあります。

もう一人のケン・ゴールドバーグも AI 分野のトップエキスパートです。

彼は現在、カリフォルニア大学バークレー校の工学教授であり、強化学習と人間とコンピュータの相互作用を研究対象としています。

2005年にIEEEフェローに選出された。

同時に、ゴールドバーグはアーティストでもあり、カリフォルニア大学バークレー校の芸術、テクノロジー、文化セミナーの創設者でもあります。

さらに、Philipp Wu、Alejandro Escontrela、Danijar Hafner が共著者です。

そのうちのフィリップ・ウーは、カリフォルニア大学バークレー校の4年生です。

もう一つ

ロボット犬の訓練のビデオを見ていると、研究者が Unitree のロボット犬を使用していることがわかりました。

このブランドは中国の会社Yushu Technologyのものです。以前、春節祝賀会に登場したロボットMaverickもこの会社のものでした。

さらに、玉樹ロボット犬が集団で囲碁1テストを行う動画が最近公開され、海外で人気を博した。

論文の宛先:

https://danijar.com/project/daydreamer/

<<: HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

>>: ビジネス AI とデータの課題に対処する垂直インテリジェンス

SQL Server データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

ブログ

GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

ブログ

データ収集からディープラーニングまで（メリットも含む）

ブログ

世界初の3nmチップ、Appleが再び神に！誰もが壮大なCチェンジのために島へ行き、コンソールゲームはiPhoneに搭載され、表面上の最高の画像はVision Proのすぐそばにあります

ブログ

OpenAI CEO サム・アルトマン: AI革命が到来、新たなシステムが必要

ブログ

ロボットが自閉症児の社会スキルの発達を助ける

ブログ

予測 AI は顧客とのつながりをどのように変えるのでしょうか?

ブログ

私たちの社会は AI に意思決定を任せる準備ができているでしょうか?

ブログ

生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

「ビジョナリー」と呼ばれるアルゴリズム

研究チーム

もう一つ

SQL Server データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

データ収集からディープラーニングまで（メリットも含む）

世界初の3nmチップ、Appleが再び神に！誰もが壮大なCチェンジのために島へ行き、コンソールゲームはiPhoneに搭載され、表面上の最高の画像はVision Proのすぐそばにあります

OpenAI CEO サム・アルトマン: AI革命が到来、新たなシステムが必要

ロボットが自閉症児の社会スキルの発達を助ける

予測 AI は顧客とのつながりをどのように変えるのでしょうか?

私たちの社会は AI に意思決定を任せる準備ができているでしょうか?

推薦する

機械学習に基づく自動脆弱性修復分析法

Microsoft XiaoIce がスピンオフしました!沈向陽氏が会長に就任、「小氷の父」がCEOに就任、中国での事業化を目指す

人工ニューラルネットワークは、体型を崩すことなく、一瞬で老けたり若返ったりすることができる

Python は 2023 年のプログラミング言語リストで引き続きトップを占めています。 SQLが求人需要リストのトップに

iSoftStoneはインテリジェントな顧客サービス市場に参入し、専門性と専門知識で地位を確立しました。

人工知能は多くの仕事を置き換えるでしょう。将来の子供たちの競争力は成績とは全く関係ないかもしれません。

中国チームがボストン・ダイナミクスに対抗する四足歩行ロボットを発表

人工知能は「人工知能」にどれだけ「知性」を押し付けているのか

Meili United が VALSE カンファレンスで「ファッションをグラフィックで説明」する画像アルゴリズムの体験を共有する方法

データ拡張: データが限られている場合にディープラーニングをどのように使用するか? （下）

このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

アンサンブル法の簡単な分析

TCP輻輳制御アルゴリズムについての簡単な説明