このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近では、AI プレイヤーにとって適切な画像データセットを見つけることがますます困難になっています。

データの品質が不均一であるだけでなく、適切なデータタイプ(オプティカルフローマップ、深度マップなど) を見つけることも困難です。

これらの問題を解決するために、Google、MIT、DeepMind、MILA、ケンブリッジ大学を含む11の機関の34人の研究者が協力し、Kubricと呼ばれるデータセットジェネレーターを作成しました。Kubricは、単独でレンダリングできるだけでなく、非常にリアルな画像効果も備えています。

さまざまな画像データを処理できるだけでなく、セマンティックセグメンテーション、深度マップ、オプティカルフローマップなどの「特殊データ」もワンクリックで生成できます。

レンダリングのリアリティを制御することもでき、レンダリングされたビデオはリアルな効果を実現できます。

著者らによると、Kubric は現在13 種類の CV タスクのデータタイプ生成をサポートしており、その結果は既存のデータセットを使用してトレーニングされたものよりも劣っていません。

このようなデータセットジェネレーターを使い始めるにはどうすればよいでしょうか?

13種類のCVタスクに必要なデータを生成できます

まず、この Kubric データセットジェネレーターが何であるかを見てみましょう。

簡単に言えば、クロスプラットフォームのオープンソース物理エンジンPyBulletと 3D 画像レンダリングソフトウェアBlenderをベースに構築された、画像 AI 専用に構築された「データワークショップ」のようなものです。

その中で、PyBullet は 3D オブジェクトの動きをシミュレートするためのプラットフォームをユーザーに提供します。たとえば、これを使用して 2 つのボール間の弾性衝突パラメータをシミュレートできます。（もちろんPyBullet以外にもMuJoCoなどの他の物理エンジンにも拡張可能です）

Blender は 3D アニメーションをレンダリングするためのプラットフォームですが、その利点は操作の容易さにあります。フォトリアリスティックなレンダリング画像を作成できるだけでなく、3D アニメーション効果も出力できます。（例えば、デザイナーの中には衣服のテクスチャをデザインするために使用する人もいます）

ここで、ビデオや画像データセットを手動でレンダリングする場合と比べて、Kubric の利便性はどのようなものかと疑問に思うかもしれません。

一方、Kubric には、一連の事前処理済みの基本画像データベースが付属しています。

11 個の基本的な 3D モデルに加えて:

また、Google Scanned Objects (GSO) 屋内家具オブジェクトデータセット、背景、照明、マテリアルテクスチャなどのパラメータを含む Polyhaven データセット、および ShapeNet データセット (55 種類の一般的なオブジェクトタイプと 51,300 個の 3D モデルを含む) からのモデルも組み込まれています。

つまり、レンダリングについてあまり詳しくない場合でも、組み込みのデータベースを使用して目的の画像をすばやく生成することができます。

一方、Kubric は、「レンダリングデータ」から「AI トレーニングデータ」を出力するパイプラインを直接提供し、レンダリングされた画像を特殊なデータ (深度マップ、オプティカルフローマップなど) に変換したり、視野、カメラパラメータ、照明などの追加データを収集したりする手間を省きます。

これにより、Kubric はオプティカルフロー、NeRF、姿勢推定、3D 再構築など、13 種類の CV タスクに必要な画像データの生成もサポートできるようになります。

はい、生成される画像の一部は 2D と 3D であり、必要なデータ量は MB から TB に及びますが、Kubric はそれらすべてに対応できます。

著者らは、Kubric が生成したデータセットをさまざまな視覚タスクに 1 つずつ試し、「自分たちが生成したデータセットの方が効果的である」と強調しました。

△キューブリックが生成したオプティカルフローマップ

では、このようなデータセットジェネレーターはどのように使用するのでしょうか?