人間がロボットを訓練しているのを見るたびに、私はいつも一つのことに疑問を感じます。それは、このような過酷な環境で開発されたスキルが、現実世界で何回使えるのだろうかということです。 後ろから強く蹴って地面に倒してから立ち上がらせたり、2 台のロボットを地面の上で激しく戦わせてこすり合わせたり、10 メートルを超える高さのプラットフォームから高く高くジャンプさせたり...
多額の費用をかけて作られたロボットをこのように扱うのは、「耐えられない」光景どころか、損傷を修復するのにもお金がかかるのではないだろうか? 後になって、これが現在のテクノロジーの方向性と関係していることに気付きました。ディープラーニングでは、ロボットが現実世界のさまざまな状況に対応できるようになるまで、アルゴリズムを継続的に最適化するための多くの練習とトレーニングが必要です。 理論的に言えば、十分な時間と無制限の予算があれば、信じられないほどの計算能力を持つ機械は言うまでもなく、サルでもコンピューターを使って文学作品を書くことができる。 しかし、これは私たち一般人とどう関係があるのでしょうか? 信頼できる機械アシスタントを使って(そしてそれを買う余裕を持って)、生きている間に問題を解決できるのでしょうか? 1 万年は長すぎるので、今を大事にしましょう、いいですか? 最近、バークレーとグーグルブレインが開発した強化学習アルゴリズム、ソフトアクタークリティック(SAC)は、現実世界のロボットから学習できると言われており、ロボットのトレーニングに関する従来の考え方を変えるのではないかと期待されています。 今日は、SAC がロボットの「成功への道」をどのように変えるのかについてお話します。 リオロボットを作るのはなぜそんなに難しいのでしょうか? 新しい SAC アルゴリズムを紹介する前に、より優れたロボット アルゴリズムが存在するかどうか、つまり、このアルゴリズムによって具体的に何が変わるのかを説明する必要があります。 この疑問に答えるには、ロボットが現実世界で直面する課題を検討する必要があります。 まず第一に、現在のトレーニング方法では、機械が新しいスキルを習得する速度が十分とは言えません。 従来の機械学習アルゴリズムでは、新しいタスクを実行するたびにプロトタイプ設計のパラメータ調整が必要であり、一部のアルゴリズムではトレーニングのためにデータを再収集する必要があり、機械が新しいスキルを習得するのに必要な合計時間が急速に増加します。 第二に、現実のシナリオでは無数の事故により機械が故障する可能性があります。 実際にマシンを使用しているときに、停電やネットワークの遅延など、どのような問題が発生しても、マシンは「フリーズ」することで危機に対応します。作業を再開するために毎回「再起動」しなければならない場合、ロボットを使用する価値は何でしょうか? 上記はすべて効率の問題です。従来のトレーニング方法によってもたらされるコストのジレンマは、研究者を頭が真っ白になるほど悩ませています。 訓練担当者が人為的にバグを作成する操作であっても、さまざまな複雑な環境におけるアクチュエータの高周波ジッタであっても、ハードウェアに大きな損耗を引き起こします。これはロボットですか?お金シュレッダーです! もちろん、人間は解決策を考え出しました。たとえば、ロボットにゲームをプレイさせたり、シミュレーション環境を設計したりすることで、実際のトレーニングへの依存は大幅に軽減されましたが、最終的には、実際の環境の多様性とランダム性を置き換えることはできません。最も重要なことは、現実世界のロボットに合わせて「カスタマイズされた」一連のアルゴリズムを作成することです。 現実世界のロボットにはどのようなアルゴリズムが必要ですか? では、そのようなアルゴリズムにはどのような特性が必要でしょうか? 少なくとも次の重要な要素が必要です。 1. サンプルの複雑さが良好。アルゴリズムに提供されるトレーニング サンプルが多いほど、マシンがデータ ラベルを取得するのにかかる時間コストが低くなり、返されるエラーが小さくなり、強化学習のパフォーマンスが向上します。 2. 敏感なハイパーパラメータはありません。機械学習のパフォーマンスと効果を向上させるためには、ハイパーパラメータを最適化する必要があることがよくありますが、現実の世界では、パラメータの調整は少ないほど良いです。アルゴリズムではハイパーパラメータを調整する必要性を最小限に抑える必要があります。 3. 非同期サンプリング。現実世界では、データフローの終了や推論の遅延などの問題は避けられません。マシンが「再起動」フェーズで一定の継続性と安定性を維持するには、データ収集とトレーニングを、最小限に抑えられた複数の独立したスレッドで実行する必要があります。 4. スムーズな動き。大きな動きや振動によるハードウェアの損傷を防ぐために、時間的な相関と一貫性を考慮した探索が特に重要になります。 簡単にまとめると、ロボットが将来の現実世界に不可欠であると信じるならば、ロボットに長い期間、多額の投資、そして数え切れないほどの挫折を経てさまざまなスキルを習得させることは明らかに賢明ではないということです。 選択的かつ有意義なトレーニングをするにはどうしたらいいのか?SACが誕生しました。 SACの成功の秘訣は大きな心 あれだけ話した後、ようやく本当の飼い主が現れました。それで。 SAC とは何でしょうか? SAC、正式名称はSoft actor-critic。名前が示すように、SAC も Actor-Critic アルゴリズムのロジックに基づいています。つまり、アクター (プレーヤー) はランダムにパフォーマンスを行い、批評家 (審査員) はランダムにスコアを付け、お互いのチェックとバランスの下でより良いパフォーマンス (報酬) を追求します。 違いは、SAC がパラメータに対して非常に「優しい」ことです。SAC は、期待されるリターンと探索の深さを自動的に重み付けし、調整が必要な「ハイパーパラメータ」として扱うのではなく、最適な戦略を取得するように自動的に学習します。 これの利点は、トレーニングサンプルが多様であり、パラメータを頻繁に調整する必要がなく、学習効率がはるかに高いことです。最悪の実験環境でも、優れたパフォーマンスを発揮します。 これは、昔の機械が人間の母親に「世話」され、「数学の天才」になることを願って夜更かししてオリンピックの数学の問題を勉強する必要があったのとまったく同じだ。今では仕事と休息を組み合わせて一生懸命働くことを学びました。大学入試で高得点を取ることができれば満足です。明らかに、後者はほとんどの一般的な機械のロールモデルであり、人間の親が期待すべきものでもあります。 ロボットのパフォーマンスを見るために、バークレー小学校のロボット生徒 3 名が体験談を共有するよう招待されました。 最初に私たちの前に現れたのは、8 つのアクチュエータを備えた小型の四足歩行ロボット「Minitaur」でした。前進するとき、コントローラーは手足の振り位置を追跡し、さまざまな角度を観察して脚にかかる力をバランスさせるためによく使用されます。効果的なトレーニング戦略がなければ、バランスを崩して転倒しやすくなります。何度も転倒すると、丈夫な骨でも骨折してしまいます。 しかし、新しい学習方法を習得すると、Minitaur はトレーニング中にデータの不確実性を最大化するため、追加の学習なしでほとんどの対数バランス干渉を処理できるようになります。 2 番目は、非常に柔軟性のある「3 本指の手」の生徒です。彼の課題は、色付きのフックが右を向くように、手で「バルブ」を回転させることです。しかし、バルブには小さなモーターが取り付けられており、力が加わると自動的にリセットされます。したがって、回転ごとにバルブの初期位置がランダムにリセットされ、マシンは現在のバルブの向きを再検出することになります。このタスクには、9 つの主要なサーボ モーターの認識、予測、および正確な制御が必要であり、非常に困難ですが、私たちの「3 本指の手」は、それでもタスクをスムーズに完了しました。 最後のロボットのクラスメイトはレゴで遊んでいましたが、あまり楽しくありませんでした。トレーナーは、摩擦を減らすためにブロックを積み重ねるときにスタッドを正確に位置合わせする必要があるためです。 関節の位置や速度を決定するだけでなく、先端の力を確保したり、7つの関節に同時に複雑なコマンドを伝達したりする必要もあります。これは、人間の子供に「百段の矢を射なさい」と頼むのと何か違うのでしょうか? しかし、SAC 方式を習得したマシンは期待を裏切らず、わずか 3 時間でタスクを完了する方法を学習しました。過去に使用された PPO 戦略は完了までに 7.4 時間かかりました。 SACってすごいですよね? 論文の中で研究者らは、SAC を「最先端」という注目度の高い形容詞で表現しており、これは当然のことだと言える。 もちろん、上記は比較的概念的な実験にすぎません。この機能をより困難な現実世界のタスクに実際に拡張するには、多くの最適化の反復、コーディングの開発、およびパラメータの調整がまだ必要です。しかし、SAC の出現により、ロボットが概念から実用化への重要なポイントに近づいていることは予測できます。 このガイドにより、ロボットは最終的に「虐待」を受けることが減り、生活の細部にまで真に浸透できるようになります。 |
>>: 学術専門家を募集中 | 過去 10 年間に人工知能の 21 のサブ分野で引用数の多い学者
先ほど、Zigbee プロトコル スタックのいくつかの原則と構造を紹介しました。すでに理解しているか...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
最初のトレンドは、すべてのIT大手がAIクラウドサービスに多額の投資を行うことです。AI-aaS、つ...
今日、衝撃的なニュースが突然飛び込んできました。スタンフォード大学のマーク・テシエ・ラヴィーンの学長...
[[398991]]アルゴリズムの紹介分割統治アルゴリズムは非常に重要です。文字通りの説明は「分割...
2020 年、Stack Overflow によると、プロの開発者の 62% 以上がコンピューター...
機械学習の話題は誰もが話題にするほど普及していますが、それを完全に理解している人はほとんどいません。...
[[270736]]近年、人工知能はテクノロジー界で注目されている分野です。中国では、Megvii...