Google が 13GB の 3D スキャンデータセットを公開: 17 のカテゴリ、1,030 個の家庭用品

近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられていますが、ディープラーニングモデルをトレーニングするには、新しいシナリオに一般化するために多様な入力が必要になります。

これまで、コンピュータービジョンの分野では、Web クロール技術を使用して、ImageNet、Open Image、Youtube-8M、COCO など、何百万ものトピックに関するデータセットを収集してきました。しかし、これらのデータセットにラベルを付ける作業は依然として労働集約的な作業であり、ラベル付けのエラーは技術の進歩に対する認識に影響を与える可能性があり、この戦略を 3D または現実世界のロボットデータに一般化することは困難です。画像とは異なり、現在インターネット上には大規模で高品質な 3D シーンは存在せず、現実世界からそのようなデータを収集することは非常に困難です。さらに、人間の注釈者が画像から 3D の幾何学的特徴を抽出することは困難です。

一般的に言えば、Gazebo、Bullet、MuJoCo、Unity などのツールを使用してロボットと環境をシミュレートすると、上記の制限を軽減できます。しかし、シミュレーションは結局のところ完全に現実世界と同じというわけではありません。実際の環境の 3D スキャンから直接シーンを構築した場合でも、スキャン内の個別のオブジェクトは固定された背景オブジェクトのように動作し、現実世界のオブジェクトのように入力に反応しません。

したがって、重要な課題は、物理モデリングと視覚モデリングに統合して、ディープラーニングに必要な多様性を提供できる高品質の 3D オブジェクトモデルのライブラリを提供することにあります。

この問題に対処するため、Google の研究者は Google Scanned Objects (GSO) データセットを作成しました。これは、Ignition Gazebo、Bullet シミュレーター、および SDF モデル形式を読み取ることができるその他のツールで使用できる、1,000 を超える 3D スキャンされた家庭用品の厳選コレクションです。

研究者らは論文の中で、データセットの収集、管理、拡張について紹介した。

論文リンク: https://arxiv.org/pdf/2204.11918.pdf

不完全な統計によると、GSO データセットは、コンピュータービジョン、コンピューターグラフィックス、ロボット操作、ロボットナビゲーション、3D 形状処理など、10 のプロジェクトの 12 の論文で使用されています。

この研究の主な貢献は次のとおりです。

Google Scanned Objects データセットを提案しました。
3Dスキャンパイプライン設計。
3D スキャンの管理および公開プロセス。
このデータセットが研究分野に与える影響。

データセットの作成

GSO データセットは、2011 年の Google のクラウドロボティクスプロジェクトから生まれたもので、一般的な家庭用品の高精度 3D モデルに基づいて、ロボットが環境内のオブジェクトを認識して把握できるようにすることを目的としています。

ただし、3D モデルには、物体認識やロボットによる把持以外にも、物理シミュレーション用のシーン構築やエンドユーザーアプリケーション用の 3D オブジェクトの視覚化など、さまざまな用途があります。そこで Google Research は、従来の商用グレードの製品写真よりも低コストで、大量の家庭用品の 3D スキャンを収集し、3D エクスペリエンスを Google に大規模に提供するプロジェクトを開始しました。

これは、オブジェクトの取得、新しい 3D スキャンハードウェア、効率的な 3D スキャンソフトウェア、高速 3D レンダリングの品質保証、Web およびモバイルブラウザー、人間とコンピューターのインタラクションの研究を含むエンドツーエンドのプロジェクトです。

データを収集した後、研究者たちはデータをさまざまな形式で利用できるようにするためのパイプラインを構築しました。

3Dスキャンパイプライン

家庭用品の領域に限定しても、3D スキャンには、効率的な物理的なスキャン設定、ターゲット照明、カメラの信頼性、スキャナーのパフォーマンス、カラーマッチング、テクスチャレンダリング、ほぼ白色、光沢のある表面、透明な表面など光学的に一貫性のない素材の取り扱いなど、独自の課題があります。

専用の 3D スキャンハードウェアは労働集約的で、コスト効率がよくありません。大規模なスキャンには、より使いやすく信頼性の高いツールが必要です。

そこで研究者らは、オブジェクトをスキャンして 10 分以内に高解像度のモデルを生成できる専用のスキャンハードウェアとソフトウェア (図 2) を独自に設計しました。光を制御する物理的なハウジング (図 2b) は、2 台のマシンビジョンカメラと構造化光スキャン用のプロジェクターを使用して 3D ジオメトリをキャプチャし、別の SLR 高解像度カメラを使用して製品に適した光でテクスチャをキャプチャします。

プロジェクトの最初の 1 年が終わる頃には、毎週 400 件以上のスキャンが処理されるようになり、その過程でチームは 10 万枚の 360 度写真回転と 1 万枚のユニークなオブジェクトの完全な 3D スキャンを取得しました。

図2.

図 3: キャリブレーションプロセスとしてのスキャン。 (a) キャリブレーションモードにより、2D パイプラインでカメラを正確に位置合わせできるようになります。 (b) コンピュータ制御のプロジェクターは、3D スキャンされたオブジェクトに対して同様のパターンを作成します。 (c) 適切なパターンはサブピクセル精度で位置を検出できます。 (d) スキャンしたオブジェクトの完全な 3D 形状を抽出します。

図 4: スキャンされたアイテムは品質検査に合格する必要があります。 (a) 多くのオブジェクトが高品質の閉じた多様体メッシュとしてキャプチャされます。 (b) 一部のオブジェクトでは無効なメッシュが生成されることはほとんどありませんが、変形してしまう場合もあります。

シミュレーションモデル変換

これらの生のスキャンモデルは、プロトコルバッファーメタデータ、非常に高解像度の視覚化を使用しますが、シミュレーションには適さない形式です。質量などのオブジェクトの一部の物理的特性はキャプチャされますが、摩擦などの表面特性はメタデータに表現されません。

これらのスキャンされたモデルをシミュレーションで使用できるようにするには、各モデルが次の手順を実行するパイプラインを通過します。

無効なオブジェクトをフィルタリングします。
オブジェクト名を割り当てます。
メッシュオブジェクトを確認します。
物理的特性を計算します。
衝突ボリュームを構築します。
モデルのサイズを小さくします。
SDF モデルを作成します。
サムネイルを作成します。
モデルをパッケージ化します。

データセットのプロパティ

構成

GSO データセットには、合計 13 GB のスキャンされたオブジェクトと関連メタデータが 1,030 個含まれており、CCBY 4.0 ライセンスの下でライセンスされています。表III.1はデータセット内のモデルカテゴリの内訳を示しています。

表III.1

利点

自動化されたパイプラインは、手動処理なしで大量のモデルを迅速に生成できます。モデルは手作業でモデル化されるのではなくスキャンされるため、理想的というよりは現実的であり、シミュレーションから現実世界への学習の移転の難しさが軽減されます。

このスキャナーのガラスプラットフォームは、不透明なプラットフォームを備えた他のスキャナーとは異なり、ベースを含むすべての側面からモデルをスキャンできます。同様に、環境から抽出されたモデルには、橋として機能する土台などの遮蔽された領域が欠けていることがよくあります。

スキャナーは深度カメラのデータではなく投影されたパターンから表面形状を再構築するため、結果として得られるメッシュの忠実度は高くなります。表面は滑らかで、輪郭のエッジは正確です (図 5)。対照的に、RGB-D データから取得されたメッシュは、特に輪郭上では斑状で不規則に見える場合があります。

図5

制限

同時に、このデータセットにはいくつかの制限があります。スキャナーのキャプチャ領域はパン箱 (約 50 cm) より大きいオブジェクトを収容できないため、このデータセットには椅子、車、飛行機など、他のデータセットにあるより大きなオブジェクトは含まれていません。同様に、スキャン解像度も限られているため、非常に小さなオブジェクトを適切な忠実度でモデル化することはできません。さらに、生成されたテクスチャは拡散します。つまり、高度に鏡面反射したオブジェクトや透明なオブジェクトは表現されず、生成された結果は最適ではありません。

詳細については原論文を参照してください。

<<: AI聴覚技術は国際紛争に関与したことがあるか？

>>: ICML 2022の審査結果は「包囲」された、ヤン・ルカン：3つの論文を提出したが、3つとも却下された