この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 最近では、AI プレイヤーにとって適切な画像データ セットを見つけることがますます困難になっています。 データの品質が不均一であるだけでなく、適切なデータタイプ(オプティカル フロー マップ、深度マップなど) を見つけることも困難です。 これらの問題を解決するために、Google、MIT、DeepMind、MILA、ケンブリッジ大学を含む11の機関の34人の研究者が協力し、Kubricと呼ばれるデータセットジェネレーターを作成しました。Kubricは、単独でレンダリングできるだけでなく、非常にリアルな画像効果も備えています。 さまざまな画像データを処理できるだけでなく、セマンティックセグメンテーション、深度マップ、オプティカルフローマップなどの「特殊データ」もワンクリックで生成できます。 レンダリングのリアリティを制御することもでき、レンダリングされたビデオはリアルな効果を実現できます。 著者らによると、Kubric は現在13 種類の CV タスクのデータ タイプ生成をサポートしており、その結果は既存のデータセットを使用してトレーニングされたものよりも劣っていません。 このようなデータセット ジェネレーターを使い始めるにはどうすればよいでしょうか? 13種類のCVタスクに必要なデータを生成できますまず、この Kubric データセット ジェネレーターが何であるかを見てみましょう。 簡単に言えば、クロスプラットフォームのオープンソース物理エンジンPyBulletと 3D 画像レンダリングソフトウェアBlenderをベースに構築された、画像 AI 専用に構築された「データ ワークショップ」のようなものです。 その中で、PyBullet は 3D オブジェクトの動きをシミュレートするためのプラットフォームをユーザーに提供します。たとえば、これを使用して 2 つのボール間の弾性衝突パラメータをシミュレートできます。 (もちろんPyBullet以外にもMuJoCoなどの他の物理エンジンにも拡張可能です) Blender は 3D アニメーションをレンダリングするためのプラットフォームですが、その利点は操作の容易さにあります。フォトリアリスティックなレンダリング画像を作成できるだけでなく、3D アニメーション効果も出力できます。 (例えば、デザイナーの中には衣服のテクスチャをデザインするために使用する人もいます) ここで、ビデオや画像データセットを手動でレンダリングする場合と比べて、Kubric の利便性はどのようなものかと疑問に思うかもしれません。 一方、Kubric には、一連の事前処理済みの基本画像データベースが付属しています。 11 個の基本的な 3D モデルに加えて: また、Google Scanned Objects (GSO) 屋内家具オブジェクト データセット、背景、照明、マテリアル テクスチャなどのパラメータを含む Polyhaven データセット、および ShapeNet データセット (55 種類の一般的なオブジェクト タイプと 51,300 個の 3D モデルを含む) からのモデルも組み込まれています。 つまり、レンダリングについてあまり詳しくない場合でも、組み込みのデータベースを使用して目的の画像をすばやく生成することができます。 一方、Kubric は、「レンダリングデータ」から「AI トレーニングデータ」を出力するパイプラインを直接提供し、レンダリングされた画像を特殊なデータ (深度マップ、オプティカルフローマップなど) に変換したり、視野、カメラパラメータ、照明などの追加データを収集したりする手間を省きます。 これにより、Kubric はオプティカルフロー、NeRF、姿勢推定、3D 再構築など、13 種類の CV タスクに必要な画像データの生成もサポートできるようになります。 はい、生成される画像の一部は 2D と 3D であり、必要なデータ量は MB から TB に及びますが、Kubric はそれらすべてに対応できます。 著者らは、Kubric が生成したデータセットをさまざまな視覚タスクに 1 つずつ試し、「自分たちが生成したデータセットの方が効果的である」と強調しました。 △キューブリックが生成したオプティカルフローマップ では、このようなデータセット ジェネレーターはどのように使用するのでしょうか? Pythonインターフェースが付属著者はいくつかの簡単な操作手順を提供しています。 インストール後、最初のステップはデフォルトのシーンを作成することです。 次に、次の 2 つの手順を実行して、床と球体を作成します (他の形状に変更することもできます)。 次のステップは、シーンに照明を追加し、カメラをレンダリングして画像をキャプチャすることです。 ファイルをエクスポートすると、3D 球体の画像を取得できます。 △Blenderでの効果 深度マップ、グレースケール マップなどの特殊なレイヤーが必要な場合は、数行のコードで実行できます。 手動でエクスポートするよりも便利です。 もちろん、まだ始めるのが難しい場合は、著者が直接サンプル コードも提供しており、パラメーターを変更することで使用できます。 元のベースにさらに 5 行のコードを追加すると、ダイナミック ビデオ バージョンを直接実行できます。 データセットが完成すれば、レンダリングの仕方が分からない人でも半分は達人になれるようです(doge) 現在、新しい組み込みデータセットはまだ構築中です。興味のある方は、まずは試してみてください〜 プロジェクトアドレス: https://github.com/google-research/kubric 論文の宛先: https://arxiv.org/abs/2203.03570 |
<<: Google の「Model Soup」が微調整により ImageNet リストのトップに躍り出ました。方法は半ページだけ
>>: モデルの再現が難しいのは必ずしも作者のせいではない。研究により、モデルの構造に問題があることが判明した。
MITの研究者らは機械学習アルゴリズムを使用して、複数回の実験で強力な殺菌力を示したハリシンと呼ばれ...
5月下旬、トップの国際学術誌である米国科学アカデミー紀要(PNAS)は、昨年10月に査読が受理され...
[[334740]] 01 完全に接続されたネットワーク完全に接続された高密度の線形ネットワークは、...
人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...
ビデオセグメンテーションタスクは、画像セグメンテーションタスクの拡張版です。ビデオ内のすべてのターゲ...
[[441881]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
シリコンバレーの毎年恒例の新年のレイオフが今年もやってくる。現在、Google の人員削減はまだ続い...
人工知能研究チームOpenAIが発表した最新の報告書は、ロボットが自ら作成した新しい言語を使って互い...
ニューラル ネットワークに基づくプロジェクトにおけるボトルネックは通常、ネットワークの実装ではありま...
[[356811]]顔認識は人工知能の画期的な技術として、大規模に導入され始めています。顔認証ロッ...
翻訳者 |ブガッティレビュー | Chonglouセキュリティの専門家は長い間、オンラインアカウント...
[[398643]]ビデオ分析のトピックは何十年も議論されてきましたが、物理セキュリティ業界におけ...