清華大学の卒業生とMITの中国人博士課程の学生がソルバーと組み合わせ、自動運転の安全性を向上させる初の認識アルゴリズムセットを開発した。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

自動運転の実現は、安全性という重要な条件と切り離すことはできません。最近、清華大学の卒業生で中国の博士課程の学生であるヤン・ヘン氏は、チームと協力して、次世代の自動運転車の運転安全性の向上に役立つ、自動運転車向けの初の「認定可能な知覚」アルゴリズムセットを開発した。

[[424945]]

リンク: https://arxiv.org/pdf/2109.03349.pdf

ヤン・ヘンは2015年に清華大学で自動車工学の学士号を取得し、マサチューセッツ工科大学で機械工学の修士号を取得しました。修士課程の間、彼は肝線維症を追跡するための超音波画像診断システムの改善方法に焦点を当てていました。研究を進めるために、彼は「劣駆動ロボット工学」と呼ばれるロボットに関するコースを受講し、アルゴリズムを設計してロボットを制御する方法を学ぶ必要がありました。これにより、彼はアルゴリズム設計の研究方向に夢中になりました。

「このクラスでは、抽象的な数式を使用して世界のほとんどすべてのものをモデル化する数学的最適化を学習します。このクラスで、論文の問題を解決する賢い方法を学びました。設計を最適化する上での計算の威力に驚き、これが次に探求したい方向だとすぐに決めました。」

2017 年、ヤン・ヘンは修士号を取得し、MIT に編入して博士号を取得しました。現在は、MIT の情報および意思決定システム研究所 (LIDS) で、ルカ・カルローネの指導の下、認証された知覚の課題に焦点を当てた博士課程の学生です。現在、彼は自動運転のための認証可能な認識アルゴリズムの設計において一連の優れた成果を達成しています。

認定可能な認識アルゴリズムとは何ですか?

ロボットが周囲の状況を認識するときは、アルゴリズムを使用して周囲の状況を推定し、自分がどこにいるかを判断する必要があります。現在、ロボットの認識に使用されているアルゴリズムは高速認識用に設計されており、ロボットが周囲の環境を正しく理解するという保証はほとんどありません。

これは自動運転アルゴリズムの設計における既存の欠陥の 1 つでもあり、Yang Heng 氏と LIDS 研究室の一部のメンバーは、この問題を解決し、「実証済み」アルゴリズムを設計することで評価が正しいかどうかを判断したいと考えています。

たとえば、ロボットが何かを感知する前に、まず画像をキャプチャします。たとえば、自動運転車は近づいてくる車のスナップショットを撮ります。次に、この画像はニューラルネットワークに渡され、画像内の接近する車のミラー、ホイール、ドアなどに関するキーポイントが生成され、2D 車の画像で検出されたキーポイントから 3D 車のモデルにラベルが付けられた 3D キーポイントまで追跡する線が描画されます。

このプロセス中、Yang Heng 氏と彼のチームは、3D モデルを回転および移動して、モデルが画像上の主要なポイントと揃うように最適化問題を解決する必要がありました。この 3D モデルは、ロボットが現実世界の環境を理解するのに役立ちます。

MIT Newsとのインタビューで、ヤン・ヘン氏は次のように説明した。「トレースされた線はすべて、正確に一致していることを確認するために分析されなければなりません。」一致しない可能性のある重要なポイントが多数あるため (たとえば、ニューラルネットワークは鏡をドアの取っ手として識別する可能性があります)、この問題は「非凸」であり、解決が困難です。

昨年、Yang Heng氏と彼のチームは解決策を見つけ、ICRA 2020のロボットビジョン部門で最優秀論文賞を受賞しました。

論文アドレス: https://arxiv.org/pdf/1909.08605.pdf

楊衡氏の研究では、非凸問題を凸問題に変換し、成功するマッチング方法を発見しました。ヤン・ヘン氏は、たとえマッチングが間違っていたとしても、彼らが設計したアルゴリズムは「グローバル最小値」である最善の解決策を見つけようとし続ける方法を知っていると述べた。

「より良い解決策がない場合、（システムは）認証を与えるだろう」と彼は指摘した。自動運転車のようなツールは堅牢で信頼できるものでなければならないため、これらの認証可能なアルゴリズムは大きな潜在的影響力を持つと指摘した。「私たちの目標は、認識システムに障害が発生した場合に、ドライバーが警告を受け取り、すぐにハンドルを操作できるようにすることです。」

Yang Heng 氏と彼のチームの最新の研究では、汎用的でスケーラブルなフレームワークを採用し、自動運転車の運転プロセス中に堅牢な幾何学的認識を実行できる認定アルゴリズムを設計しています。

この作品の主なハイライトは次のとおりです。

1) 一般的な堅牢なコスト（TLS、最大コンセンサス、Geman-McClure、Tukey の二重重みなど）を多項式最適化問題（POP）に変換します。

2) TLS のコストに焦点を当てることで、POP のスパース性を活用し、精度を維持しながら標準的な Lasserre 階層よりもはるかに小さいスパース半正定値計画法 (SDP) 緩和を提案します。

3) 凸 SDP のグローバル降下法と非凸 POP の高速ローカル探索を組み合わせたソルバー STRIDE を提案し、これまでにない規模と精度で SDP 緩和問題を解決します。

4) 提案されたフレームワークを、単一回転および複数回転の平均化、点群およびメッシュの登録、絶対姿勢の推定、カテゴリレベルの物体の姿勢および形状の推定など、6 つのジオメトリを考慮した問題で評価します。

実験によると、まだリアルタイムではないものの、STRIDE は中規模の問題に対して既存の SDP ソルバーより 100 倍高速であり、現在のところ、数十万の制約を持つ大規模な SDP を高精度で解くことができる唯一のソルバーです。

同時に、STRIDE は既存の高速ヒューリスティックアルゴリズム (RANSAC やステージ非凸など) に対する安全策を提供します。つまり、ヒューリスティック推定が最適であれば、それがグローバルに最適であることが証明されます。

モデルをさまざまな車に適応させる

2D 画像を 3D モデルと照合する場合、3D モデルが識別された車種と一致しているという前提が 1 つあります。しかし、画像内の車がロボットがこれまで見たことのない形状をしていた場合はどうなるでしょうか?結果は予測できない可能性があるため、Yang Heng は車の位置を推定し、3D モデルの形状を再構築する必要があります。ライフォン

彼らは解決策を見つけました。それは、以前に識別された車両の線形結合を実行することによって、3D モデルが 2D 画像と一致するように自動的に変形されるというものでした。例えば、車の実際の構造が記録されているので、モデルをアウディからヒュンダイに変更することができます。接近する車両のサイズを識別することが衝突を防ぐ鍵となります。

Yang Heng 氏と彼のチームによるこの研究は、トップクラスのロボット工学カンファレンスである RSS の最優秀論文賞の最終候補にも選ばれ、Yang Heng 氏は「RSS パイオニア」に選ばれました。

リンク: https://arxiv.org/pdf/2104.08383.pdf

過去 2 年間、ヤン・ヘン氏と彼のチームは、自動運転用の認定可能な認識アルゴリズムの設計において一連の研究成果を達成してきました。しかし、アルゴリズムが研究室から現実世界に移ると、解決しなければならない多くの問題に直面することになります。 Yang Heng 氏と彼のチームの次の作品を楽しみにしています!

<<: Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

>>: 化粧品は顔認識技術を騙せるのか？