このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。

このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近では、AI プレイヤーにとって適切な画像データ セットを見つけることがますます困難になっています。

データの品質が不均一であるだけでなく、適切なデータタイプ(オプティカル フロー マップ、深度マップなど) を見つけることも困難です。

これらの問題を解決するために、Google、MIT、DeepMind、MILA、ケンブリッジ大学を含む11の機関の34人の研究者が協力し、Kubricと呼ばれるデータセットジェネレーターを作成しました。Kubricは、単独でレンダリングできるだけでなく、非常にリアルな画像効果も備えています。

さまざまな画像データを処理できるだけでなく、セマンティックセグメンテーション、深度マップ、オプティカルフローマップなどの「特殊データ」もワンクリックで生成できます。

レンダリングのリアリティを制御することもでき、レンダリングされたビデオはリアルな効果を実現できます。

著者らによると、Kubric は現在13 種類の CV タスクのデータ タイプ生成をサポートしており、その結果は既存のデータセットを使用してトレーニングされたものよりも劣っていません。

このようなデータセット ジェネレーターを使い始めるにはどうすればよいでしょうか?

13種類のCVタスクに必要なデータを生成できます

まず、この Kubric データセット ジェネレーターが何であるかを見てみましょう。

簡単に言えば、クロスプラットフォームのオープンソース物理エンジンPyBulletと 3D 画像レンダリングソフトウェアBlenderをベースに構築された、画像 AI 専用に構築された「データ ワークショップ」のようなものです。

その中で、PyBullet は 3D オブジェクトの動きをシミュレートするためのプラットフォームをユーザーに提供します。たとえば、これを使用して 2 つのボール間の弾性衝突パラメータをシミュレートできます。 (もちろんPyBullet以外にもMuJoCoなどの他の物理エンジンにも拡張可能です)

Blender は 3D アニメーションをレンダリングするためのプラットフォームですが、その利点は操作の容易さにあります。フォトリアリスティックなレンダリング画像を作成できるだけでなく、3D アニメーション効果も出力できます。 (例えば、デザイナーの中には衣服のテクスチャをデザインするために使用する人もいます)

ここで、ビデオや画像データセットを手動でレンダリングする場合と比べて、Kubric の利便性はどのようなものかと疑問に思うかもしれません。

一方、Kubric には、一連の事前処理済みの基本画像データベースが付属しています。

11 個の基本的な 3D モデルに加えて:

また、Google Scanned Objects (GSO) 屋内家具オブジェクト データセット、背景、照明、マテリアル テクスチャなどのパラメータを含む Polyhaven データセット、および ShapeNet データセット (55 種類の一般的なオブジェクト タイプと 51,300 個の 3D モデルを含む) からのモデルも組み込まれています。

つまり、レンダリングについてあまり詳しくない場合でも、組み込みのデータベースを使用して目的の画像をすばやく生成することができます。

一方、Kubric は、「レンダリングデータ」から「AI トレーニングデータ」を出力するパイプラインを直接提供し、レンダリングされた画像を特殊なデータ (深度マップ、オプティカルフローマップなど) に変換したり、視野、カメラパラメータ、照明などの追加データを収集したりする手間を省きます。

これにより、Kubric はオプティカルフロー、NeRF、姿勢推定、3D 再構築など、13 種類の CV タスクに必要な画像データの生成もサポートできるようになります。

はい、生成される画像の一部は 2D と 3D であり、必要なデータ量は MB から TB に及びますが、Kubric はそれらすべてに対応できます。

著者らは、Kubric が生成したデータセットをさまざまな視覚タスクに 1 つずつ試し、「自分たちが生成したデータセットの方が効果的である」と強調しました。

△キューブリックが生成したオプティカルフローマップ

では、このようなデータセット ジェネレーターはどのように使用するのでしょうか?

Pythonインターフェースが付属

著者はいくつかの簡単な操作手順を提供しています。

インストール後、最初のステップはデフォルトのシーンを作成することです。

次に、次の 2 つの手順を実行して、床と球体を作成します (他の形状に変更することもできます)。

次のステップは、シーンに照明を追加し、カメラをレンダリングして画像をキャプチャすることです。

ファイルをエクスポートすると、3D 球体の画像を取得できます。

△Blenderでの効果

深度マップ、グレースケール マップなどの特殊なレイヤーが必要な場合は、数行のコードで実行できます。

手動でエクスポートするよりも便利です。

もちろん、まだ始めるのが難しい場合は、著者が直接サンプル コードも提供しており、パラメーターを変更することで使用できます。

元のベースにさらに 5 行のコードを追加すると、ダイナミック ビデオ バージョンを直接実行できます。

データセットが完成すれば、レンダリングの仕方が分からない人でも半分は達人になれるようです(doge)

現在、新しい組み込みデータセットはまだ構築中です。興味のある方は、まずは試してみてください〜

プロジェクトアドレス:

​​https://github.com/google-research/kubric​​

論文の宛先:

​​https://arxiv.org/abs/2203.03570​​

<<:  Google の「Model Soup」が微調整により ImageNet リストのトップに躍り出ました。方法は半ページだけ

>>:  モデルの再現が難しいのは必ずしも作者のせいではない。研究により、モデルの構造に問題があることが判明した。

ブログ    

推薦する

科学者はAIを活用して「スーパーバグ」を殺すことができる強力な新しい抗生物質を発見することに成功した

MITの研究者らは機械学習アルゴリズムを使用して、複数回の実験で強力な殺菌力を示したハリシンと呼ばれ...

世界トップジャーナルPNASに掲載されました!科学者たちは理論上のコンピューターに基づく意識モデル「意識のあるチューリングマシン」を提案した。

5月下旬、トップの国際学術誌である米国科学アカデミー紀要(PNAS)は、昨年10月に査読が受理され...

CNN、RNN、GAN とは何ですか?ついに誰かが明らかにした

[[334740]] 01 完全に接続されたネットワーク完全に接続された高密度の線形ネットワークは、...

人工知能が医療をどのように改善できるか

人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...

オフライン手法の可能性を最大限に引き出すために、武漢大学とKuaishouは分離型ビデオインスタンスセグメンテーションフレームワークDVISを提案した。

ビデオセグメンテーションタスクは、画像セグメンテーションタスクの拡張版です。ビデオ内のすべてのターゲ...

...

ウエストワールドがやってくる: ロボットは独自の言語を使ってコミュニケーションとコラボレーションを学ぶ

人工知能研究チームOpenAIが発表した最新の報告書は、ロボットが自ら作成した新しい言語を使って互い...

ニューラルネットワークのデバッグは難しすぎる。6つの実用的なヒントをご紹介します

ニューラル ネットワークに基づくプロジェクトにおけるボトルネックは通常、ネットワークの実装ではありま...

「顔認識」は諸刃の剣です。どうすればそれを利用して被害を回避できるのでしょうか?

[[356811]]顔認識は人工知能の画期的な技術として、大規模に導入され始めています。顔認証ロッ...

わずか数分で 8 文字のパスワードを解読するにはどうすればよいでしょうか?

翻訳者 |ブガッティレビュー | Chonglouセキュリティの専門家は長い間、オンラインアカウント...

...

...

2021 年にセキュリティ ビデオ分析に影響を与える新しいテクノロジーとトレンドは何でしょうか?

[[398643]]ビデオ分析のトピックは何十年も議論されてきましたが、物理セキュリティ業界におけ...