ロボット工学の分野にディープラーニングを取り入れる新たな試みはありますか？

ディープラーニングが人気を集めている今、誰もが自分の研究分野でそれを活用できないか考えています。そのため、ロボット工学の分野にディープラーニングを統合する試みが行われています。私がよく知っている2つの側面（ビジョンと計画）について簡単に紹介します。

物体認識

実はこれが一番考えやすい方向性です。DLが普及したのは画像認識の成果によるものです。

ここでは、元の CNN ネットワークを直接使用できます。具体的な作業については説明しません。以前、Amazon Picking Challenge (APC) 2016 で別の質問に答えました。認識と動作計画の主流のアルゴリズムは何ですか?後述するように、2016 年の Amazon Crawl Competition では、多くのチームがオブジェクト認識アルゴリズムとして DL を使用しました。

オブジェクトの配置

もちろん、マシンビジョンとコンピュータービジョンにはわずかな違いがあります。ロボット分野における視覚には、物体認識に加えて、物体の位置決め（物体を操作するためには、物体の位置や姿勢を知る必要がある）も含まれます。

2016 年の APC では、多くの人がオブジェクト認識に DL を採用しましたが、オブジェクトの配置には依然として比較的単純なアルゴリズムや従来のアルゴリズムが使用されていました。 DL は広く採用されていないようです。

もちろん、誰もこれに取り組んでいないわけではありません。私たちの研究室の張博士もこれを試しています。ここで、張博士が以前研究した論文の内容を簡単に紹介したいと思います。

Doumanoglou、Andreas、他「6D オブジェクトのポーズを復元し、群衆の中で次に良いビューを予測する」IEEE コンピュータービジョンおよびパターン認識会議の議事録。2016 年。

作業は大まかに次のようになります。オブジェクトに対して、RGB-D データの小さな断片を多数取得します。各断片には座標 (オブジェクトの座標系を基準とする) があります。次に、最初にオートエンコーダーを使用してデータの次元を削減します。次に、削減された次元機能を使用して Hough Forest をトレーニングします。

このように、実際の物体を検出する際に、物体の表面の RGB-D データをサンプリングし、姿勢を推定することができます。

把持姿勢生成

これは以前別の質問で紹介されました (従来の RCNN は画像内のオブジェクトの位置を大まかに特定できますが、画像内の位置を物理世界の位置に変換するにはどうすればよいでしょうか)。

↑ ジオメトリを使用して 3D ポイントクラウドの把持姿勢を検出する

↑ 密集した乱雑な場所でも高精度に把握姿勢を検出

管理/計画

これが今私が興味を持っている分野です。

簡単に言えば、強化学習は移動ロボットの経路計画に使用できることがわかります。したがって、理論的には、DL の関数近似とポリシー勾配を組み合わせて制御や計画を行うことが可能です。もちろん、現在の作品は元々の伝統的な手法に取って代わるにはまだまだ遠いですが、非常に興味深い試みでもあります。

ここにいくつかの研究があります。詳細については論文を参照してください。

1.雑然とした自然環境における単眼反応型UAV制御の学習

↑ CMU のドローンが森の中を飛行

2. 知覚から決定へ: 自律地上ロボットのエンドツーエンドの動作計画に対するデータ駆動型アプローチ

↑ ETH屋内ナビゲーション

3. ディープラーニングと大規模データ収集によるロボット把持のための手と目の協調学習

↑ DeepMind 物体把握

4. 深部視覚運動ポリシーのエンドツーエンドトレーニング

↑ バークレーのボトルキャップの取り外しとその他の作業

困難は何ですか

1. 視野においては、物体認識に加え、物体の位置決めも必要となる。これは回帰問題ですが、現時点では回帰の精度をそのままオブジェクト操作に利用することはできません（データ量が足りないか、適切なネットワーク構造がまだ見つかっていない可能性があります）。そのため、一般的には、マッチング反復の最後のステップで ICP などのアルゴリズムを使用する必要があります。

2. ロボットの計画・制御などの面でさらに問題が発生する可能性があります。 Leifeng.com の「ハードクリエーション公開授業」（モーションプランニング | ビデオ版）のライブ放送中に遭遇した問題のいくつかについて言及しましたが、簡単に以下にリストします。

観測可能性の問題

簡単に言えば、DL 理論に取り組んでいない私たちは、DL の収束性と一般化の能力は十分であると想定しています。私たちが気にかけるべきなのは、DL にどのようなデータを供給するかということです。つまり、DL 機能が十分に強力であるという前提の下で、どのようなデータによって解決すべき問題を実質的なものにできるのでしょうか。

もちろん、現在の研究のいずれもこの点については触れていません。バークレーの論文は、データ（現在の画像、ロボットの関節の状態）が与えられれば、状態は観察可能であるという強い仮定を直接立てました。

実際のロボット動作においては、システムの状態が環境（物体の特性など）に関係する場合もあるため、この問題は今後ロボットにDLを適用する際には避けられない課題となるはずです。

データ量

一方で、問題を収束させるにはどれだけのデータが必要なのかはわかりません。一方、実際のロボット操作には時間がかかり、破損や実験条件の破壊（手動による復旧が必要）などがあり、データ収集は画像認識や音声認識に比べてはるかに困難です。

それは解決可能でしょうか?

生放送中に例を挙げましたが、黒い障害物の位置が左から右に連続的に変化すると、計画アルゴリズムが出力する最短経路が突然変化します。（動画を見るとわかりやすいかもしれません）

これは、ネットワーク入力は連続的に変化しますが、出力は特定の瞬間に突然変化する DL に対応します。さらに、最短経路には複数の解が存在する可能性があります。

DL の関数近似はこの状況をうまく処理できるでしょうか?

そうですね、こういうことを考えるのはとても面白いですね、一緒に楽しみましょう〜

<<: 普通のプログラマーがAIを活用する方法

>>: 人工知能と医師が出会ったら何が起こるかを伝える7つの短編物語

ロボット工学の分野にディープラーニングを取り入れる新たな試みはありますか？

自動運転の安全上のリスクはどこから来るのでしょうか?

Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

将来の物流と輸送における人工知能の役割

AIを活用することで大型機種の消費電力を節約できるのか？ ? ?

デジタルビジネスにおける AI の 6 つの設計原則

JavaScript における一般的なソートアルゴリズムの詳細な説明

誇張する！ EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

LiDARとTexas Instrumentsチップを搭載した最新のL3自動運転アーキテクチャの分析

政府データ保護におけるAIの役割

大規模機械学習フレームワークの4つのレベル

推薦する

誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?

世界最大の多言語音声データセットがオープンソースになりました! 23言語で40万時間以上

Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプトワードのデモ例が含まれています。

データマイニング分野のトップ 10 の古典的なアルゴリズムの 1 つ - CART アルゴリズム (コード付き)

欧州のAI法案がまもなく導入され、世界の技術規制に影響を及ぼす可能性がある

ポートレート効果はこのように使用できますか? Baidu Brain Open Day が 4 つのシナリオで AI ポートレート特殊効果機能を公開

人工知能ロボットの開発にはどのプログラミング言語を選択すればよいでしょうか?

ビッグデータとディープラーニングは、仕事帰りの交通渋滞の回避にどのように役立つのでしょうか?

粒子ロボットの出現はロボットの自己認識覚醒の危機をもたらすかもしれない

アルゴリズムを超えて: 人工知能と機械学習が組織に与える影響

スマートヘルスケアは急速に普及しつつあり、さまざまなスマートテクノロジーが好まれている

データ分析に人工知能を取り入れる方法