Google AIオープンソース:携帯電話で3D物体検出が可能、しかもリアルタイム

Google AIオープンソース:携帯電話で3D物体検出が可能、しかもリアルタイム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

2D 画像で 3D オブジェクト検出を行うのは難しいですか?

今では、携帯電話だけでリアルタイムに行うことができます。

これはGoogle AIが本日リリースした、3Dオブジェクトをリアルタイムで検出できるパイプライン、MediaPipe Objectronです。

別途:

MediaPipe は、さまざまなモードの知覚データを処理するためのパイプラインを構築するためのオープンソースのクロスプラットフォーム フレームワークです。

Objectron は、モバイル デバイス上でオブジェクト指向の 3D 境界ボックスをリアルタイムで計算します。

日常生活の物体を検知できます。効果を見てみましょう。

モバイル デバイス上でオブジェクトの位置、方向、サイズをリアルタイムで判断できます。

このパイプラインは、2D 画像内のオブジェクトを検出し、機械学習モデルを使用してそのポーズとサイズを推定します。

それで、具体的にはどうやってこれを実現するのでしょうか?

現実世界から3Dデータを取得する

3D データセットは 2D データセットに比べて非常に制限されていることがわかっています。

この問題に対処するため、Google AI の研究者は、モバイル拡張現実 (AR) セッション データを使用した新しいデータ パイプラインを開発しました。

現在、ほとんどのスマートフォンには拡張現実機能が搭載されており、カメラのポーズ、スパース 3D ポイント クラウド、推定照明、平面などの追加情報をその過程でキャプチャします。

研究者らは、グラウンドトゥルースデータにラベルを付けるために新しい注釈ツールを構築し、それを AR セッションデータとともに使用して、注釈者がオブジェクトの 3D 境界ボックスにすばやくラベルを付けられるようにしました。

このツールは、下の図に示すように、分割画面ビューを使用して 2D ビデオ フレームを表示します。

左側には重ね合わせた 3D 境界ボックスがあり、右側には 3D ポイント クラウド、カメラの位置、検出面を示すビューがあります。

注釈者は 3D ビューに 3D 境界ボックスを描画し、2D ビデオ フレームでの投影を見てその位置を確認します。

静的オブジェクトの場合、1 つのフレーム内の 1 つのオブジェクトに注釈を付け、AR セッション データからのグラウンド トゥルース カメラの姿勢情報を使用してその位置をすべてのフレームに伝播するだけで済みます。

これにより、プロセスが非常に効率的になります。

AR合成データ生成

予測の精度を向上させるために、現在一般的な方法は、現実世界のデータを合成 3D データで「埋め込む」ことです。

しかし、これによって生成されるデータは非常に非現実的なものになることが多く、大量の計算作業も必要になります。

Google AI は、 AR 合成データ生成という新しい方法を提案しました。

これにより、研究者はカメラの姿勢、検出された平面、推定された照明を使用して、物理的に可能な位置とシーンに一致する照明の位置を生成できます。

このアプローチにより、高品質の合成データが生成され、実際のデータと組み合わせて使用​​することで、精度を約 10% 向上させることができました。

3D オブジェクト検出のための機械学習パイプライン

この目標を達成するために、研究者らは、RGB 画像から物体の姿勢と物理的なサイズを予測する単一段階のモデルを構築しました。

モデル バックボーンには、MobileNetv2 に基づくエンコーダー/デコーダー アーキテクチャがあります。

検出と回帰を通じてオブジェクトの形状を共同で予測するために、マルチタスク学習アプローチも採用されています。

形状タスクの場合、オブジェクトの形状信号は、利用可能なグラウンド トゥルース注釈 (セグメンテーションなど) に基づいて予測されます。検出タスクの場合、注釈付きの境界ボックスが使用され、ボックスの重心を中心とし、ボックスのサイズに比例した標準偏差を持つガウス分布がボックスにフィットされます。

検出の目的は、この分布を予測することであり、そのピークはオブジェクトの中心位置を表します。

回帰タスクは、境界ボックスの 8 つの頂点の 2D 投影を推定します。境界ボックスの最終的な 3D 座標を取得するために、オブジェクトのサイズを知らなくてもオブジェクトの 3D 境界ボックスを復元できる、確立されたポーズ推定アルゴリズム (EPnP) も利用されます。

3D バウンディング ボックスを使用すると、オブジェクトのポーズとサイズを簡単に計算できます。

このモデルは非常に軽量で、モバイル デバイス上でリアルタイムに実行できます。

MediaPipe での検出と追跡

このモデルをモバイル デバイスで使用すると、各フレームの 3D 境界ボックスのあいまいさにより、モデルが「ジッター」する可能性があります。

この状況を緩和するために、研究者らは「2D ワールド」で最近公開された検出 + 追跡フレームワークを採用しました。

このフレームワークにより、フレームごとにネットワークを実行する必要性が軽減され、パイプラインでリアルタイムのパフォーマンスを維持しながら、より大規模で正確なモデルが可能になります。

モバイル パイプラインの効率をさらに向上させるために、モデル推論は数フレームごとに 1 回だけ実行します。

最後に、このような素晴らしいプロジェクトがもちろんオープンソース化されました。

下のリンクをクリックして試してみてください〜

ポータル

GitHub プロジェクト アドレス:
https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

Google AI ブログ:
https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

<<:  テンセントの高性能グラフコンピューティングフレームワークPlatoとそのアルゴリズムの応用

>>:  人工知能技術が伝染病の予防と制御に役立つ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ディープラーニングを理解するための鍵 - パラメータ

これは、これまで見た中で最もわかりやすいニューラル ネットワーク パラメータの説明です。数式も最小限...

自動で本を書いてくれるChatGPTプラグイン3つが人気に。何もしなくてもAI自身にお金を稼ぐ方法をもっと質問できる!

ChatGPT プラグインの数が爆発的に増加しました!総数は390に達し、オープン当初の74に比べ...

AIの背後にあるエンジンを理解する、テクノロジー愛好家が知っておくべき4つの機械学習アルゴリズム

人工知能は、車の運転、バーでのミキシング、戦争など、驚くべきことを行っていますが、ロボットマスクが脚...

...

インテリジェントプロセスオートメーションについて知っておくべきこと

インテリジェント プロセス オートメーション (IPA) とは何ですか?インテリジェント プロセス ...

各国の人工知能戦略の解釈

現在、人工知能の開発は引き続き盛んに行われており、新世代の科学技術革命の先駆者となりつつあります。米...

2020年以降のAIとデータのトレンド

2019 年は、データ、分析、機械学習、人工知能の市場において継続的な発展が見られた年でした。 Sa...

...

...

独占インタビュー | 独立系開発者 Li Xiaoyu: AI ツールを使用して作業効率を向上

パートナーシップ、会社登録、資金調達なしで、独立系開発者の Li Xiaoyu は継続的に実践と反復...

ChatGPTのおばあちゃんバージョンが爆発しました! Microsoft を裏切り、Win11 の秘密キーを漏洩!

著者: 徐潔成校正:Yun Zhao大規模なモデルを破損させるコストは本当に低すぎます。 ChatG...

仮想誘拐:人工知能がランサムウェア詐欺を助長

もしあなたの配偶者や子供があなたに泣きながら電話をかけてきて、誘拐されたと告げたら、あなたは冷静で慎...

データ分布の正規性を判断するための11の基本的方法

データ サイエンスと機械学習の分野では、多くのモデルはデータが正規分布していると想定しているか、デー...

人工知能技術が農業に革命を起こす

国際的に著名な学者である周海中教授は、1990年代に「科学技術の進歩により、人工知能の時代が到来しよ...

人工知能に関するあまり知られていない3つの事実!古代中国にロボットは存在したのでしょうか?

時代の発展とテクノロジーの進歩に伴い、人工知能の分野も革新を繰り返しています。しかし、この神秘的な業...