20 分で回路基板の組み立て方を学びましょう!オープンソースのSERLフレームワークは、精密制御において100%の成功率を誇り、人間の3倍の速さです。

20 分で回路基板の組み立て方を学びましょう!オープンソースのSERLフレームワークは、精密制御において100%の成功率を誇り、人間の3倍の速さです。

近年、四足歩行、把持、器用な操作など、ロボットの強化学習技術の分野では大きな進歩が遂げられていますが、そのほとんどは実験室での実証段階に限られています。ロボット強化学習技術を実際の生産環境に広く適用するにはまだ多くの課題があり、実際のシナリオでの適用範囲はある程度制限されています。強化学習技術の実際の応用においては、報酬メカニズムの設定、環境のリセット、サンプル効率の向上、行動の安全性の保証など、複数の複雑な問題を克服する必要があります。業界の専門家は、強化学習技術の実際の実装における多くの課題を解決することは、アルゴリズム自体の継続的な革新と同じくらい重要であると強調しています。

この課題に応えて、カリフォルニア大学バークレー校、スタンフォード大学、ワシントン大学、Google の学者が共同で、Suite for Efficient Robotic Reinforcement Learning (SERL) と呼ばれるオープンソース ソフトウェア フレームワークを開発しました。これは、実用的なロボット アプリケーションにおける強化学習テクノロジーの広範な使用を促進することを目的としています。


  • プロジェクトのホームページ: https://serl-robot.github.io/
  • オープンソースコード: https://github.com/rail-berkeley/serl
  • 論文タイトル: SERL: サンプル効率の高いロボット強化学習のためのソフトウェアスイート

SERL フレームワークは主に次のコンポーネントで構成されています。

1. 効率的な強化学習

強化学習の分野では、インテリジェントエージェント(ロボットなど)が環境と対話することでタスクを実行する方法を学習します。さまざまな行動を試行し、行動の結果に基づいて報酬信号を取得することで、累積報酬を最大化することを目的とした一連の戦略を学習します。 SERL は RLPD アルゴリズムを使用して、ロボットがリアルタイムのインタラクションと以前に収集されたオフライン データの両方から学習できるようにし、ロボットが新しいスキルを習得するために必要なトレーニング時間を大幅に短縮します。

2. 各種報酬規定

SERL はさまざまな報酬指定方法を提供し、開発者が特定のタスクのニーズに合わせて報酬構造をカスタマイズできるようにします。たとえば、固定位置のインストールタスクでは、マニピュレータの位置に基づいて報酬を設定できますが、より複雑なタスクでは、分類器または VICE を使用して正確な報酬メカニズムを学習できます。この柔軟性により、ロボットが特定のタスクに対して最も効果的な戦略を学習できるように正確に誘導することができます。

3. リメイク機能なし

従来のロボット学習アルゴリズムでは、次のインタラクティブ学習ラウンドに備えて環境を定期的にリセットする必要があります。多くのタスクではこれを自動的に達成することはできません。 SERL が提供するリプレイフリーの強化学習機能は、2 つの前方/後方ポリシーを同時にトレーニングし、相互に環境をリセットします。

4. ロボット制御インターフェース

SERL は、Franka ロボット タスク用の一連の Gym 環境インターフェイスを標準例として提供しているため、ユーザーは SERL をさまざまなロボット アームに簡単に拡張できます。

5. インピーダンスコントローラ

ロボットが複雑な物理環境を安全かつ正確に探索および操作できるようにするために、SERL は Franka ロボット アームに特別なインピーダンス コントローラーを提供し、外部物体との接触後に過度のトルクが生成されないようにしながら精度を確保します。

SERL はこれらの技術と方法を組み合わせることで、高い成功率と堅牢性を維持しながらトレーニング時間を大幅に短縮し、ロボットが短期間で複雑なタスクを完了することを学習し、現実世界で効果的に適用できるようにします。

図 1 および 2: さまざまなタスクにおける SERL と行動クローニング法の成功率と拍数の比較。同様のデータ量の場合、SERL の成功率はクローニングよりも数倍高く (最大 10 倍)、サイクル時間は少なくとも 2 倍速くなります。

応用事例

1. PCBコンポーネントの組み立て:

PCB 上のスルーホール コンポーネントの組み立ては、一般的でありながら困難なロボット タスクです。電子部品のピンは非常に曲がりやすく、穴とピンの間の許容差も非常に小さいため、組み立て時にはロボットに正確かつ丁寧な作業が求められます。 SERL により、わずか 21 分の自律学習でロボットは 100% のタスク完了率を達成できました。基板の移動や視線の一部遮蔽などの未知の干渉に直面しても、ロボットは安定して組み立て作業を完了できます。

図 3、4、5: 回路基板に部品を取り付けるタスクを実行する際、ロボットはトレーニング段階では遭遇しなかったさまざまな干渉に対処し、タスクを正常に完了することができました。

2. ケーブル配線:

多くの機械装置や電子機器の組み立て工程では、ケーブルを特定の経路に沿って正確に所定の位置に取り付ける必要があります。この作業では、高い精度と適応性が求められます。フレキシブルケーブルは配線処理中に変形しやすく、また、配線処理中にケーブルが誤って動いたり、クランプの位置が変わったりするなど、さまざまな干渉を受ける可能性があるため、従来の非学習方式では対処が困難です。 SERL はわずか 30 分で 100% の成功率を達成することができました。グリッパーの位置がトレーニング時と異なる場合でも、ロボットは学習したスキルを一般化し、新しい配線の課題に適応して、配線作業を正しく実行することができます。

図 6、7、8: ロボットは、特別なトレーニングを行わなくても、トレーニング時とは異なる位置でケーブルをクランプに直接通すことができます。

3. オブジェクトの取得と配置操作:

倉庫管理や小売業では、ロボットが商品をある場所から別の場所へ移動させる必要があることが多く、そのためにはロボットが特定の商品を識別して運ぶことができる必要があります。強化学習のトレーニング中、十分に駆動されていないオブジェクトを自動的にリセットすることは困難です。 SERL のリセット不要の強化学習機能を使用して、ロボットは 1 時間 45 分で 2 つの 100/100 成功率ポリシーを同時に学習しました。前方戦略を使用してオブジェクトをボックス A からボックス B に移動し、次に後方戦略を使用してオブジェクトをボックス B からボックス A に戻します。

図 9、10、および 11: SERL は、オブジェクトを右から左に移動する戦略と、オブジェクトを左から右に戻す戦略の 2 つの戦略をトレーニングしました。ロボットはトレーニング対象物に対して 100% の成功率を達成しただけでなく、これまで見たことのない対象物をインテリジェントに動かすこともできました。

主著者

1. 羅建蘭

Jianlan Luo は現在、カリフォルニア大学バークレー校の電気・コンピューター科学科の博士研究員として、バークレー人工知能センター (BAIR) の Sergey Levine 教授とともに研究を行っています。彼の主な研究対象は機械学習、ロボット工学、最適制御です。学界に戻る前は、Google X でフルタイムの研究員として働き、Stefan Schaal 教授とともに研究していました。それ以前は、カリフォルニア大学バークレー校でコンピューターサイエンスの修士号と機械工学の博士号を取得し、同大学ではアリス・アゴジノ教授とピーター・アビール教授のもとで研究をしていました。彼はまた、Deepmind のロンドン本社の客員研究員でもありました。

2. 哲源胡

彼はカリフォルニア大学バークレー校でコンピュータサイエンスと応用数学の学士号を取得しています。現在、セルゲイ・レヴィン教授が率いるRAIL研究所で研究を行っています。彼はロボット学習の分野に強い関心を持っており、ロボットが現実世界の状況で器用な操作スキルを迅速かつ広範囲に習得できるようにする方法の開発に重点を置いています。

3. チャールズ・シュー

彼はカリフォルニア大学バークレー校で電気工学とコンピューターサイエンスを専攻する学部4年生です。現在、セルゲイ・レヴィン教授が率いるRAIL研究所で研究を行っています。彼の研究対象はロボット工学と機械学習の交差点にあり、堅牢で一般化が可能な自律操作システムの構築を目指しています。

4. ユ・リャン・タン

彼は、セルゲイ・レヴァイン教授の指導下にあるバークレー RAIL ラボのスタッフエンジニアです。彼は以前、シンガポールの南洋理工大学で学士号を取得し、米国のジョージア工科大学で修士号を取得しました。それ以前は、Open Robotics Foundation のメンバーでした。彼の仕事は、機械学習とロボット工学ソフトウェア技術の実際の応用に重点を置いています。

5. ステファン・シャール

彼は1991年にドイツのミュンヘンにあるミュンヘン工科大学で機械工学と人工知能の博士号を取得しました。彼は、MIT の脳認知科学部門および人工知能研究所の博士研究員、日本の ATR 人間情報処理研究所の招聘研究員、米国ジョージア工科大学およびペンシルベニア州立大学の運動学部の非常勤助教授です。彼はまた、日本のERATOプロジェクトであるジャワハルラールニューラルネットワークダイナミックブレインプロジェクト(ERATO/JST)の計算学習グループのリーダーを務めました。 1997年、彼は南カリフォルニア大学でコンピューターサイエンス、神経科学、生物医学工学の教授となり、終身教授に昇進した。彼の研究分野には、統計学と機械学習、ニューラルネットワークと人工知能、計算神経科学、機能的脳イメージング、非線形力学、非線形制御理論、ロボット工学、生体模倣ロボットなどがあります。

彼はドイツのマックス・プランク知能システム研究所の創設ディレクターの一人であり、長年にわたり自律動作部門を率いていました。彼は現在、Alphabet(Google)の新しいロボット子会社であるIntrinsicの主任科学者です。 Stefan Schaal は IEEE フェローです。

6. チェルシー・フィン

彼女はスタンフォード大学のコンピューターサイエンスと電気工学の助教授です。彼女の研究室である IRIS は、大規模なロボットの相互作用を通じて知能を研究しており、SAIL と ML グループの一部です。彼女は Google Brain チームのメンバーでもあります。彼女は、ロボットやその他のエージェントが学習と相互作用を通じて幅広い知的行動を開発する能力に興味を持っています。彼女は以前、カリフォルニア大学バークレー校でコンピュータサイエンスの博士号を取得し、MITで電気工学とコンピュータサイエンスの学士号を取得しました。

7. アビシェク・グプタ

彼はワシントン大学のポール・G・アレン・コンピューターサイエンスおよびエンジニアリング学部の助教授であり、WEIRD ラボを運営しています。彼は以前、MIT で博士研究員として、ラス・テドレイク氏やプルキット・アガルワル氏とともに研究を行っていました。彼は、カリフォルニア大学バークレー校の BAIR で Sergey Levine 教授と Pieter Abbeel 教授の指導の下、機械学習とロボティクスの博士号を取得しました。それ以前には、カリフォルニア大学バークレー校で学士号も取得しています。彼の主な研究目標は、オフィスや家庭などのさまざまな非構造化環境でロボット システムが複雑なタスクを実行することを学習できるようにするアルゴリズムを開発することです。

8. セルゲイ・レヴィン

彼はカリフォルニア大学バークレー校の電気工学およびコンピュータサイエンス学部の准教授です。彼の研究は、自律エージェントが学習を通じて複雑な動作を習得できるようにするアルゴリズム、特にあらゆる自律システムがあらゆるタスクを解決できるように学習できるようにする一般的な方法に焦点を当てています。これらの方法の応用分野には、ロボット工学や自律的な意思決定が求められるさまざまな分野が含まれます。

<<:  Gemini 1.5 ハンズオンレビュー: Sora は偽物に見えるが、もっと素晴らしい機能がある

>>:  人気のSoraはDiTを最前線に押し上げ、GitHubのホットリストにも載りました。新しいバージョンのSiTに進化しました。

ブログ    
ブログ    

推薦する

...

ディープラーニングは自動運転車にとって何を意味するのでしょうか?

[[348074]]自動運転車でディープラーニングを使用すると、歩行者の行動を理解したり、最短ルー...

12の性能項目で1位を獲得、GPT-4に最も近い中国最大級のモデルが登場!いよいよ本格的に営業開始です!

中国はいつになったら、極めて強力な一般化能力を持つさまざまな知的存在を創造し、人類の真の助手となるこ...

2022 年のソフトウェア開発に関する 5 つの予測

[[435157]] [51CTO.com クイック翻訳]すべての企業がソフトウェア企業になりつつあ...

アルトマンのYCスピーチ: ChatGPTを攻撃する者は死ぬ、私ができるからといって、あなたにもできるとは限らない

ウルトラマンのシンプルな言葉はAIスタートアップ企業を震え上がらせた。 「Shelling」Open...

...

...

GAN はたった 1 枚の画像でトレーニングできます。 Adobe が画像生成方法を改善 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Suning製品セマンティックリコールにおけるDSSMテキストマッチングモデルの適用

【51CTO.comオリジナル記事】 1. 背景テキスト マッチングは、自然言語処理における中核的な...

将来、人工知能は人間の意思決定に取って代わることができるでしょうか?

ほとんどの CIO は、AI に意思決定を任せることに消極的です。しかし、それは彼らがより優れた、よ...

ランウェイの最強のライバルが登場、ワンクリックでショートビデオを生成、期間限定で無料

近年、AI による絵画のレベルは飛躍的に向上しています。 Midjourney と Adob​​e ...

...

我々は最初のAI戦争を目撃したかもしれない

[[409544]] 2021年5月初旬、イスラエルに住むパレスチナ人とイスラエル警察の間で激しい衝...

なぜ機械学習展開プラットフォームを Python ではなく Go で作成したのでしょうか?

Python は機械学習の分野で広く使われるようになりました。しかし、Python は、全能の神が...

...