Google が 13GB の 3D スキャン データセットを公開: 17 のカテゴリ、1,030 個の家庭用品

Google が 13GB の 3D スキャン データセットを公開: 17 のカテゴリ、1,030 個の家庭用品

近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられていますが、ディープラーニングモデルをトレーニングするには、新しいシナリオに一般化するために多様な入力が必要になります。

これまで、コンピューター ビジョンの分野では、Web クロール技術を使用して、ImageNet、Open Image、Youtube-8M、COCO など、何百万ものトピックに関するデータ セットを収集してきました。しかし、これらのデータセットにラベルを付ける作業は依然として労働集約的な作業であり、ラベル付けのエラーは技術の進歩に対する認識に影響を与える可能性があり、この戦略を 3D または現実世界のロボット データに一般化することは困難です。画像とは異なり、現在インターネット上には大規模で高品質な 3D シーンは存在せず、現実世界からそのようなデータを収集することは非常に困難です。さらに、人間の注釈者が画像から 3D の幾何学的特徴を抽出することは困難です。

一般的に言えば、Gazebo、Bullet、MuJoCo、Unity などのツールを使用してロボットと環境をシミュレートすると、上記の制限を軽減できます。しかし、シミュレーションは結局のところ完全に現実世界と同じというわけではありません。実際の環境の 3D スキャンから直接シーンを構築した場合でも、スキャン内の個別のオブジェクトは固定された背景オブジェクトのように動作し、現実世界のオブジェクトのように入力に反応しません。

したがって、重要な課題は、物理モデリングと視覚モデリングに統合して、ディープラーニングに必要な多様性を提供できる高品質の 3D オブジェクト モデルのライブラリを提供することにあります。

この問題に対処するため、Google の研究者は Google Scanned Objects (GSO) データセットを作成しました。これは、Ignition Gazebo、Bullet シミュレーター、および SDF モデル形式を読み取ることができるその他のツールで使用できる、1,000 を超える 3D スキャンされた家庭用品の厳選コレクションです。

研究者らは論文の中で、データセットの収集、管理、拡張について紹介した。

論文リンク: https://arxiv.org/pdf/2204.11918.pdf

不完全な統計によると、GSO データセットは、コンピューター ビジョン、コンピューター グラフィックス、ロボット操作、ロボット ナビゲーション、3D 形状処理など、10 のプロジェクトの 12 の論文で使用されています。

この研究の主な貢献は次のとおりです。

  • Google Scanned Objects データセットを提案しました。
  • 3Dスキャンパイプライン設計。
  • 3D スキャンの管理および公開プロセス。
  • このデータセットが研究分野に与える影響。

データセットの作成

GSO データセットは、2011 年の Google のクラウド ロボティクス プロジェクトから生まれたもので、一般的な家庭用品の高精度 3D モデルに基づいて、ロボットが環境内のオブジェクトを認識して把握できるようにすることを目的としています。

ただし、3D モデルには、物体認識やロボットによる把持以外にも、物理シミュレーション用のシーン構築やエンド ユーザー アプリケーション用の 3D オブジェクトの視覚化など、さまざまな用途があります。そこで Google Research は、従来の商用グレードの製品写真よりも低コストで、大量の家庭用品の 3D スキャンを収集し、3D エクスペリエンスを Google に大規模に提供するプロジェクトを開始しました。

これは、オブジェクトの取得、新しい 3D スキャン ハードウェア、効率的な 3D スキャン ソフトウェア、高速 3D レンダリングの品質保証、Web およびモバイル ブラウザー、人間とコンピューターのインタラクションの研究を含むエンドツーエンドのプロジェクトです。

データを収集した後、研究者たちはデータをさまざまな形式で利用できるようにするためのパイプラインを構築しました。

3Dスキャンパイプライン

家庭用品の領域に限定しても、3D スキャンには、効率的な物理的なスキャン設定、ターゲット照明、カメラの信頼性、スキャナーのパフォーマンス、カラー マッチング、テクスチャ レンダリング、ほぼ白色、光沢のある表面、透明な表面など光学的に一貫性のない素材の取り扱いなど、独自の課題があります。

専用の 3D スキャン ハードウェアは労働集約的で、コスト効率がよくありません。大規模なスキャンには、より使いやすく信頼性の高いツールが必要です。

そこで研究者らは、オブジェクトをスキャンして 10 分以内に高解像度のモデルを生成できる専用のスキャン ハードウェアとソフトウェア (図 2) を独自に設計しました。光を制御する物理的なハウジング (図 2b) は、2 台のマシン ビジョン カメラと構造化光スキャン用のプロジェクターを使用して 3D ジオメトリをキャプチャし、別の SLR 高解像度カメラを使用して製品に適した光でテクスチャをキャプチャします。

プロジェクトの最初の 1 年が終わる頃には、毎週 400 件以上のスキャンが処理されるようになり、その過程でチームは 10 万枚の 360 度写真回転と 1 万枚のユニークなオブジェクトの完全な 3D スキャンを取得しました。

図2.

図 3: キャリブレーション プロセスとしてのスキャン。 (a) キャリブレーション モードにより、2D パイプラインでカメラを正確に位置合わせできるようになります。 (b) コンピュータ制御のプロジェクターは、3D スキャンされたオブジェクトに対して同様のパターンを作成します。 (c) 適切なパターンはサブピクセル精度で位置を検出できます。 (d) スキャンしたオブジェクトの完全な 3D 形状を抽出します。

図 4: スキャンされたアイテムは品質検査に合格する必要があります。 (a) 多くのオブジェクトが高品質の閉じた多様体メッシュとしてキャプチャされます。 (b) 一部のオブジェクトでは無効なメッシュが生成されることはほとんどありませんが、変形してしまう場合もあります。

シミュレーションモデル変換

これらの生のスキャン モデルは、プロトコル バッファー メタデータ、非常に高解像度の視覚化を使用しますが、シミュレーションには適さない形式です。質量などのオブジェクトの一部の物理的特性はキャプチャされますが、摩擦などの表面特性はメタデータに表現されません。

これらのスキャンされたモデルをシミュレーションで使用できるようにするには、各モデルが次の手順を実行するパイプラインを通過します。

  1. 無効なオブジェクトをフィルタリングします。
  2. オブジェクト名を割り当てます。
  3. メッシュ オブジェクトを確認します。
  4. 物理的特性を計算します。
  5. 衝突ボリュームを構築します。
  6. モデルのサイズを小さくします。
  7. SDF モデルを作成します。
  8. サムネイルを作成します。
  9. モデルをパッケージ化します。

データセットのプロパティ

構成

GSO データセットには、合計 13 GB のスキャンされたオブジェクトと関連メタデータが 1,030 個含まれており、CCBY 4.0 ライセンスの下でライセンスされています。表III.1はデータセット内のモデルカテゴリの内訳を示しています。

表III.1

利点

自動化されたパイプラインは、手動処理なしで大量のモデルを迅速に生成できます。モデルは手作業でモデル化されるのではなくスキャンされるため、理想的というよりは現実的であり、シミュレーションから現実世界への学習の移転の難しさが軽減されます。

このスキャナーのガラス プラットフォームは、不透明なプラットフォームを備えた他のスキャナーとは異なり、ベースを含むすべての側面からモデルをスキャンできます。同様に、環境から抽出されたモデルには、橋として機能する土台などの遮蔽された領域が欠けていることがよくあります。

スキャナーは深度カメラのデータではなく投影されたパターンから表面形状を再構築するため、結果として得られるメッシュの忠実度は高くなります。表面は滑らかで、輪郭のエッジは正確です (図 5)。対照的に、RGB-D データから取得されたメッシュは、特に輪郭上では斑状で不規則に見える場合があります。

図5

制限

同時に、このデータセットにはいくつかの制限があります。スキャナーのキャプチャ領域はパン箱 (約 50 cm) より大きいオブジェクトを収容できないため、このデータセットには椅子、車、飛行機など、他のデータセットにあるより大きなオブジェクトは含まれていません。同様に、スキャン解像度も限られているため、非常に小さなオブジェクトを適切な忠実度でモデル化することはできません。さらに、生成されたテクスチャは拡散します。つまり、高度に鏡面反射したオブジェクトや透明なオブジェクトは表現されず、生成された結果は最適ではありません。

詳細については原論文を参照してください。

<<:  AI聴覚技術は国際紛争に関与したことがあるか?

>>:  ICML 2022の審査結果は「包囲」された、ヤン・ルカン:3つの論文を提出したが、3つとも却下された

ブログ    
ブログ    

推薦する

...

ブロックチェーンと人工知能は、どうすればお互いの「ゴールデンパートナー」になれるのでしょうか?

[[247978]]本質的には、「見知らぬ人同士がイベントの共有記録を信頼できるようにするための技...

自由に歩き回るロボット掃除機は密かにあなたを監視しているかもしれない

一日中懸命に働いた労働者たちは、疲れた体を引きずりながら家に戻り、ついに「解放された農奴が歌う」生活...

...

2020年が過ぎようとしていますが、これらの新しいテクノロジーがもたらした問題は依然として残っています。

2020年、疫病による経済的、社会的不確実性にもかかわらず、人工知能技術は加速的に発展し続けました...

このバイオメディカル AI アプリケーションは信頼できますか?まずはシリコンバレーのトップベンチャーキャピタリストに6つの質問に答えてください

[[375650]]生物学分野における人工知能の応用は飛躍的に進歩しています。創薬、診断開発からヘル...

...

ドライバー疲労モニタリングシステムの開発動向に関する簡単な分析

車両に先進運転支援システムが搭載されることで、ドライバーの安全性と快適性がさらに向上しました。先進運...

インテリジェントオートメーションにおける人工知能の重要な役割

パンデミックによる職場の変化により、バックオフィス業務や生産活動を改善できるロボティック・プロセス・...

DIFFアルゴリズムがわからない場合は、私に連絡してください(画像付き)

序文インタビュアー: 「仮想 DOM と Diff アルゴリズムをご存知ですか? 説明してください。...

Microsoft の 6 ページの論文が話題に: Ternary LLM、とてもクール!

これはマイクロソフトと中国科学院大学による新たな研究の結論です。すべての LLM は 1.58 ビッ...

...

中国科学院は、プログラマーがバグを見つけるのを助けるために大きなモデルを使用し、102の論文を分析し、これらの解決策をまとめた。

中国科学院は「バグ発見」に着手し、一気に N 個の解決策をまとめました。魔法の武器は大きなモデルです...