ロボット工学の分野にディープラーニングを取り入れる新たな試みはありますか?

ロボット工学の分野にディープラーニングを取り入れる新たな試みはありますか?

ディープラーニングが人気を集めている今、誰もが自分の研究分野でそれを活用できないか考えています。そのため、ロボット工学の分野にディープラーニングを統合する試みが行われています。私がよく知っている2つの側面(ビジョンと計画)について簡単に紹介します。

物体認識

実はこれが一番考えやすい方向性です。DLが普及したのは画像認識の成果によるものです。

ここでは、元の CNN ネットワークを直接使用できます。具体的な作業については説明しません。以前、Amazon Picking Challenge (APC) 2016 で別の質問に答えました。認識と動作計画の主流のアルゴリズムは何ですか?後述するように、2016 年の Amazon Crawl Competition では、多くのチームがオブジェクト認識アルゴリズムとして DL を使用しました。

オブジェクトの配置

もちろん、マシンビジョンとコンピュータービジョンにはわずかな違いがあります。ロボット分野における視覚には、物体認識に加えて、物体の位置決め(物体を操作するためには、物体の位置や姿勢を知る必要がある)も含まれます。

2016 年の APC では、多くの人がオブジェクト認識に DL を採用しましたが、オブジェクトの配置には依然として比較的単純なアルゴリズムや従来のアルゴリズムが使用されていました。 DL は広く採用されていないようです。

もちろん、誰もこれに取り組んでいないわけではありません。私たちの研究室の張博士もこれを試しています。ここで、張博士が以前研究した論文の内容を簡単に紹介したいと思います。

Doumanoglou、Andreas、他「6D オブジェクトのポーズを復元し、群衆の中で次に良いビューを予測する」IEEE コンピューター ビジョンおよびパターン認識会議の議事録。2016 年。

作業は大まかに次のようになります。オブジェクトに対して、RGB-D データの小さな断片を多数取得します。各断片には座標 (オブジェクトの座標系を基準とする) があります。次に、最初にオートエンコーダーを使用してデータの次元を削減します。次に、削減された次元機能を使用して Hough Forest をトレーニングします。

このように、実際の物体を検出する際に、物体の表面の RGB-D データをサンプリングし、姿勢を推定することができます。

把持姿勢生成

これは以前別の質問で紹介されました (従来の RCNN は画像内のオブジェクトの位置を大まかに特定できますが、画像内の位置を物理世界の位置に変換するにはどうすればよいでしょうか)。

↑ ジオメトリを使用して 3D ポイント クラウドの把持姿勢を検出する

↑ 密集した乱雑な場所でも高精度に把握姿勢を検出

管理/計画

これが今私が興味を持っている分野です。

簡単に言えば、強化学習は移動ロボットの経路計画に使用できることがわかります。したがって、理論的には、DL の関数近似とポリシー勾配を組み合わせて制御や計画を行うことが可能です。もちろん、現在の作品は元々の伝統的な手法に取って代わるにはまだまだ遠いですが、非常に興味深い試みでもあります。

ここにいくつかの研究があります。詳細については論文を参照してください。

1.雑然とした自然環境における単眼反応型UAV制御の学習

↑ CMU のドローンが森の中を飛行

2. 知覚から決定へ: 自律地上ロボットのエンドツーエンドの動作計画に対するデータ駆動型アプローチ

↑ ETH屋内ナビゲーション

3. ディープラーニングと大規模データ収集によるロボット把持のための手と目の協調学習

↑ DeepMind 物体把握

4. 深部視覚運動ポリシーのエンドツーエンドトレーニング

↑ バークレーのボトルキャップの取り外しとその他の作業

困難は何ですか

1. 視野においては、物体認識に加え、物体の位置決めも必要となる。これは回帰問題ですが、現時点では回帰の精度をそのままオブジェクト操作に利用することはできません(データ量が足りないか、適切なネットワーク構造がまだ見つかっていない可能性があります)。そのため、一般的には、マッチング反復の最後のステップで ICP などのアルゴリズムを使用する必要があります。

2. ロボットの計画・制御などの面でさらに問題が発生する可能性があります。 Leifeng.com の「ハードクリエーション公開授業」(モーションプランニング | ビデオ版)のライブ放送中に遭遇した問題のいくつかについて言及しましたが、簡単に以下にリストします。

観測可能性の問題

簡単に言えば、DL 理論に取り組んでいない私たちは、DL の収束性と一般化の能力は十分であると想定しています。私たちが気にかけるべきなのは、DL にどのようなデータを供給するかということです。つまり、DL 機能が十分に強力であるという前提の下で、どのようなデータによって解決すべき問題を実質的なものにできるのでしょうか。

もちろん、現在の研究のいずれもこの点については触れていません。バークレーの論文は、データ(現在の画像、ロボットの関節の状態)が与えられれば、状態は観察可能であるという強い仮定を直接立てました。

実際のロボット動作においては、システムの状態が環境(物体の特性など)に関係する場合もあるため、この問題は今後ロボットにDLを適用する際には避けられない課題となるはずです。

データ量

一方で、問題を収束させるにはどれだけのデータが必要なのかはわかりません。一方、実際のロボット操作には時間がかかり、破損や実験条件の破壊(手動による復旧が必要)などがあり、データ収集は画像認識や音声認識に比べてはるかに困難です。

それは解決可能でしょうか?

生放送中に例を挙げましたが、黒い障害物の位置が左から右に連続的に変化すると、計画アルゴリズムが出力する最短経路が突然変化します。 (動画を見るとわかりやすいかもしれません)

これは、ネットワーク入力は連続的に変化しますが、出力は特定の瞬間に突然変化する DL に対応します。さらに、最短経路には複数の解が存在する可能性があります。

DL の関数近似はこの状況をうまく処理できるでしょうか?

そうですね、こういうことを考えるのはとても面白いですね、一緒に楽しみましょう〜

<<:  普通のプログラマーがAIを活用する方法

>>:  人工知能と医師が出会ったら何が起こるかを伝える7つの短編物語

推薦する

誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?

2016 年に私たちは、ボット パラダイムの変化は、過去 10 年間の Web からモバイル アプリ...

世界最大の多言語音声データセットがオープンソースになりました! 23言語で40万時間以上

[[416170]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプト ワードのデモ例が含まれています。

マルチモーダルキングボムモデルGPT-4V、 166ページの「取扱説明書」を公開!これは Micro...

...

データマイニング分野のトップ 10 の古典的なアルゴリズムの 1 つ - CART アルゴリズム (コード付き)

導入CART は C4.5 に似ており、決定木アルゴリズムの一種です。さらに、一般的な決定木アルゴリ...

欧州のAI法案がまもなく導入され、世界の技術規制に影響を及ぼす可能性がある

AI法案は、AIの開発方法、企業がAIを使ってできること、要件に従わなかった場合の法的結果など、A...

ポートレート効果はこのように使用できますか? Baidu Brain Open Day が 4 つのシナリオで AI ポートレート特殊効果機能を公開

9月25日、北京市中関村の百度ブレインイノベーション体験センターで、百度ブレインオープンデーのポート...

人工知能ロボットの開発にはどのプログラミング言語を選択すればよいでしょうか?

この記事では、ロボット開発で使用される最も人気のあるプログラミング言語のトップ10を見ていきます。そ...

ビッグデータとディープラーニングは、仕事帰りの交通渋滞の回避にどのように役立つのでしょうか?

携帯電話のバスアプリでバス路線 112 の残りの停留所の数を確認するとき、バスに GPS をインスト...

...

粒子ロボットの出現はロボットの自己認識覚醒の危機をもたらすかもしれない

11月3日、2019年テンセントサイエンスWEカンファレンスで、世界中の科学者が細胞治療、脳チップ、...

アルゴリズムを超えて: 人工知能と機械学習が組織に与える影響

[[319769]]今日、デジタルサイエンスは企業にとってますます魅力的になっています。しかし、デジ...

スマートヘルスケアは急速に普及しつつあり、さまざまなスマートテクノロジーが好まれている

人々の生活の重要な分野として、医療産業の発展は大きな注目を集めています。現在、医師の診察の難しさや高...

データ分析に人工知能を取り入れる方法

生成型 AI の台頭は、インターネットの誕生と同様の影響を及ぼしています。新しいテクノロジーが私たち...

...