ロボット品質教育を普及させる時が来た

ロボット品質教育を普及させる時が来た

人間がロボットを訓練しているのを見るたびに、私はいつも一つのことに疑問を感じます。それは、このような過酷な環境で開発されたスキルが、現実世界で何回使えるのだろうかということです。

後ろから強く蹴って地面に倒してから立ち上がらせたり、2 台のロボットを地面の上で激しく戦わせてこすり合わせたり、10 メートルを超える高さのプラットフォームから高く高くジャンプさせたり...

[[255592]]

多額の費用をかけて作られたロボットをこのように扱うのは、「耐えられない」光景どころか、損傷を修復するのにもお金がかかるのではないだろうか?

後になって、これが現在のテクノロジーの方向性と関係していることに気付きました。ディープラーニングでは、ロボットが現実世界のさまざまな状況に対応できるようになるまで、アルゴリズムを継続的に最適化するための多くの練習とトレーニングが必要です。

理論的に言えば、十分な時間と無制限の予算があれば、信じられないほどの計算能力を持つ機械は言うまでもなく、サルでもコンピューターを使って文学作品を書くことができる。

しかし、これは私たち一般人とどう関係があるのでしょうか? 信頼できる機械アシスタントを使って(そしてそれを買う余裕を持って)、生きている間に問題を解決できるのでしょうか? 1 万年は長すぎるので、今を大事にしましょう、いいですか?

最近、バークレーとグーグルブレインが開発した強化学習アルゴリズム、ソフトアクタークリティック(SAC)は、現実世界のロボットから学習できると言われており、ロボットのトレーニングに関する従来の考え方を変えるのではないかと期待されています。

今日は、SAC がロボットの「成功への道」をどのように変えるのかについてお話します。

リオロボットを作るのはなぜそんなに難しいのでしょうか?

新しい SAC アルゴリズムを紹介する前に、より優れたロボット アルゴリズムが存在するかどうか、つまり、このアルゴリズムによって具体的に何が変わるのかを説明する必要があります。

この疑問に答えるには、ロボットが現実世界で直面する課題を検討する必要があります。

まず第一に、現在のトレーニング方法では、機械が新しいスキルを習得する速度が十分とは言えません。

従来の機械学習アルゴリズムでは、新しいタスクを実行するたびにプロトタイプ設計のパラメータ調整が必要であり、一部のアルゴリズムではトレーニングのためにデータを再収集する必要があり、機械が新しいスキルを習得するのに必要な合計時間が急速に増加します。

第二に、現実のシナリオでは無数の事故により機械が故障する可能性があります。

実際にマシンを使用しているときに、停電やネットワークの遅延など、どのような問題が発生しても、マシンは「フリーズ」することで危機に対応します。作業を再開するために毎回「再起動」しなければならない場合、ロボットを使用する価値は何でしょうか?

上記はすべて効率の問題です。従来のトレーニング方法によってもたらされるコストのジレンマは、研究者を頭が真っ白になるほど悩ませています。

訓練担当者が人為的にバグを作成する操作であっても、さまざまな複雑な環境におけるアクチュエータの高周波ジッタであっても、ハードウェアに大きな損耗を引き起こします。これはロボットですか?お金シュレッダーです!

もちろん、人間は解決策を考え出しました。たとえば、ロボットにゲームをプレイさせたり、シミュレーション環境を設計したりすることで、実際のトレーニングへの依存は大幅に軽減されましたが、最終的には、実際の環境の多様性とランダム性を置き換えることはできません。最も重要なことは、現実世界のロボットに合わせて「カスタマイズされた」一連のアルゴリズムを作成することです。

現実世界のロボットにはどのようなアルゴリズムが必要ですか?

では、そのようなアルゴリズムにはどのような特性が必要でしょうか?

少なくとも次の重要な要素が必要です。

1. サンプルの複雑さが良好。アルゴリズムに提供されるトレーニング サンプルが多いほど、マシンがデータ ラベルを取得するのにかかる時間コストが低くなり、返されるエラーが小さくなり、強化学習のパフォーマンスが向上します。

2. 敏感なハイパーパラメータはありません。機械学習のパフォーマンスと効果を向上させるためには、ハイパーパラメータを最適化する必要があることがよくありますが、現実の世界では、パラメータの調整は少ないほど良いです。アルゴリズムではハイパーパラメータを調整する必要性を最小限に抑える必要があります。

3. 非同期サンプリング。現実世界では、データフローの終了や推論の遅延などの問題は避けられません。マシンが「再起動」フェーズで一定の継続性と安定性を維持するには、データ収集とトレーニングを、最小限に抑えられた複数の独立したスレッドで実行する必要があります。

4. スムーズな動き。大きな動きや振動によるハードウェアの損傷を防ぐために、時間的な相関と一貫性を考慮した探索が特に重要になります。

簡単にまとめると、ロボットが将来の現実世界に不可欠であると信じるならば、ロボットに長い期間、多額の投資、そして数え切れないほどの挫折を経てさまざまなスキルを習得させることは明らかに賢明ではないということです。

選択的かつ有意義なトレーニングをするにはどうしたらいいのか?SACが誕生しました。

SACの成功の秘訣は大きな心

あれだけ話した後、ようやく本当の飼い主が現れました。それで。 SAC とは何でしょうか?

SAC、正式名称はSoft actor-critic。名前が示すように、SAC も Actor-Critic アルゴリズムのロジックに基づいています。つまり、アクター (プレーヤー) はランダムにパフォーマンスを行い、批評家 (審査員) はランダムにスコアを付け、お互いのチェックとバランスの下でより良いパフォーマンス (報酬) を追求します。

違いは、SAC がパラメータに対して非常に「優しい」ことです。SA​​C は、期待されるリターンと探索の深さを自動的に重み付けし、調整が必要な「ハイパーパラメータ」として扱うのではなく、最適な戦略を取得するように自動的に学習します。

これの利点は、トレーニングサンプルが多様であり、パラメータを頻繁に調整する必要がなく、学習効率がはるかに高いことです。最悪の実験環境でも、優れたパフォーマンスを発揮します。

これは、昔の機械が人間の母親に「世話」され、「数学の天才」になることを願って夜更かししてオリンピックの数学の問題を勉強する必要があったのとまったく同じだ。今では仕事と休息を組み合わせて一生懸命働くことを学びました。大学入試で高得点を取ることができれば満足です。明らかに、後者はほとんどの一般的な機械のロールモデルであり、人間の親が期待すべきものでもあります。

ロボットのパフォーマンスを見るために、バークレー小学校のロボット生徒 3 名が体験談を共有するよう招待されました。

最初に私たちの前に現れたのは、8 つのアクチュエータを備えた小型の四足歩行ロボット「Minitaur」でした。前進するとき、コントローラーは手足の振り位置を追跡し、さまざまな角度を観察して脚にかかる力をバランスさせるためによく使用されます。効果的なトレーニング戦略がなければ、バランスを崩して転倒しやすくなります。何度も転倒すると、丈夫な骨でも骨折してしまいます。

しかし、新しい学習方法を習得すると、Minitaur はトレーニング中にデータの不確実性を最大化するため、追加の学習なしでほとんどの対数バランス干渉を処理できるようになります。

2 番目は、非常に柔軟性のある「3 本指の手」の生徒です。彼の課題は、色付きのフックが右を向くように、手で「バルブ」を回転させることです。しかし、バルブには小さなモーターが取り付けられており、力が加わると自動的にリセットされます。したがって、回転ごとにバルブの初期位置がランダムにリセットされ、マシンは現在のバルブの向きを再検出することになります。このタスクには、9 つ​​の主要なサーボ モーターの認識、予測、および正確な制御が必要であり、非常に困難ですが、私たちの「3 本指の手」は、それでもタスクをスムーズに完了しました。

最後のロボットのクラスメイトはレゴで遊んでいましたが、あまり楽しくありませんでした。トレーナーは、摩擦を減らすためにブロックを積み重ねるときにスタッドを正確に位置合わせする必要があるためです。

関節の位置や速度を決定するだけでなく、先端の力を確保したり、7つの関節に同時に複雑なコマンドを伝達したりする必要もあります。これは、人間の子供に「百段の矢を射なさい」と頼むのと何か違うのでしょうか?

しかし、SAC 方式を習得したマシンは期待を裏切らず、わずか 3 時間でタスクを完了する方法を学習しました。過去に使用された PPO 戦略は完了までに 7.4 時間かかりました。 SACってすごいですよね?

論文の中で研究者らは、SAC を「最先端」という注目度の高い形容詞で表現しており、これは当然のことだと言える。

もちろん、上記は比較的概念的な実験にすぎません。この機能をより困難な現実世界のタスクに実際に拡張するには、多くの最適化の反復、コーディングの開発、およびパラメータの調整がまだ必要です。しかし、SAC の出現により、ロボットが概念から実用化への重要なポイントに近づいていることは予測できます。

このガイドにより、ロボットは最終的に「虐待」を受けることが減り、生活の細部にまで真に浸透できるようになります。

<<:  インターネットの後半、人工知能の春は始まったばかり

>>:  学術専門家を募集中 | 過去 10 年間に人工知能の 21 のサブ分野で引用数の多い学者

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIビッグモデルがインテリジェント交通の未来を切り開く?

2023年の初め、OpenAIが開発したChatGPTの出現により、インターネット業界の微妙なバラ...

予測:2022年のモノのインターネットの発展における3つの主要な技術トレンド

IoT がどのように発展していくかを予測することは困難ですが、一部の IoT テクノロジーは数年以内...

AIエンジニアの成長ストーリー~働き方編~

[[409282]]この記事では、特に仕事の方法について取り上げます。エンジニアの中には非常に頭の...

...

Transformer モデルを使用した時系列予測の Pytorch コード例

時系列予測は永続的なトピックです。自然言語処理の分野での成功に触発されて、トランスフォーマー モデル...

5つのユニークで興味深いChatGPTコマンド

今日は、非常に実用的な 5 つの指示を紹介します。これらの指示は、出力コンテンツの一貫性、記事のスタ...

新しい3Dバイオプリンティング技術は皮膚と骨の損傷を同時に修復できる

海外メディアの報道によると、ペンシルベニア州立大学の研究者らは、2種類の異なる「バイオインク」を使用...

Tmall のプログラマーがハイエンド アルゴリズムを使用して女の子を探す

問題は、アリ・タブロイド紙の公開記事によると: [[93064]] #p#これは本当の、そして少し悲...

AIによる顔の改造の一般的な手法の詳細な説明

最近また「AI変顔」が流行っていますね。 Leiphone.com(公式アカウント:Leiphone...

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

4G と 5G の世界的な展開は商用サービスの進歩よりも速く、6G は 2030 年までに登場する...

ビッグデータと人工知能がオンラインゲームをどう変えるのか

2017 年に成熟したと言われる 2 つの技術的進歩があるとすれば、それは間違いなく仮想現実と人工知...

人工知能に関する10のよくある質問への回答

人工知能は今世紀の主要な話題の一つです。 AI の能力と無限の可能性は、多くの興味深い会話や議論を生...

2022 年の 5 つの主要な AI と機械学習のトレンド

[[414740]]人工知能と機械学習の分野では、企業が今から準備しておくべき大きなトレンドがいくつ...