このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。

このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近では、AI プレイヤーにとって適切な画像データ セットを見つけることがますます困難になっています。

データの品質が不均一であるだけでなく、適切なデータタイプ(オプティカル フロー マップ、深度マップなど) を見つけることも困難です。

これらの問題を解決するために、Google、MIT、DeepMind、MILA、ケンブリッジ大学を含む11の機関の34人の研究者が協力し、Kubricと呼ばれるデータセットジェネレーターを作成しました。Kubricは、単独でレンダリングできるだけでなく、非常にリアルな画像効果も備えています。

さまざまな画像データを処理できるだけでなく、セマンティックセグメンテーション、深度マップ、オプティカルフローマップなどの「特殊データ」もワンクリックで生成できます。

レンダリングのリアリティを制御することもでき、レンダリングされたビデオはリアルな効果を実現できます。

著者らによると、Kubric は現在13 種類の CV タスクのデータ タイプ生成をサポートしており、その結果は既存のデータセットを使用してトレーニングされたものよりも劣っていません。

このようなデータセット ジェネレーターを使い始めるにはどうすればよいでしょうか?

13種類のCVタスクに必要なデータを生成できます

まず、この Kubric データセット ジェネレーターが何であるかを見てみましょう。

簡単に言えば、クロスプラットフォームのオープンソース物理エンジンPyBulletと 3D 画像レンダリングソフトウェアBlenderをベースに構築された、画像 AI 専用に構築された「データ ワークショップ」のようなものです。

その中で、PyBullet は 3D オブジェクトの動きをシミュレートするためのプラットフォームをユーザーに提供します。たとえば、これを使用して 2 つのボール間の弾性衝突パラメータをシミュレートできます。 (もちろんPyBullet以外にもMuJoCoなどの他の物理エンジンにも拡張可能です)

Blender は 3D アニメーションをレンダリングするためのプラットフォームですが、その利点は操作の容易さにあります。フォトリアリスティックなレンダリング画像を作成できるだけでなく、3D アニメーション効果も出力できます。 (例えば、デザイナーの中には衣服のテクスチャをデザインするために使用する人もいます)

ここで、ビデオや画像データセットを手動でレンダリングする場合と比べて、Kubric の利便性はどのようなものかと疑問に思うかもしれません。

一方、Kubric には、一連の事前処理済みの基本画像データベースが付属しています。

11 個の基本的な 3D モデルに加えて:

また、Google Scanned Objects (GSO) 屋内家具オブジェクト データセット、背景、照明、マテリアル テクスチャなどのパラメータを含む Polyhaven データセット、および ShapeNet データセット (55 種類の一般的なオブジェクト タイプと 51,300 個の 3D モデルを含む) からのモデルも組み込まれています。

つまり、レンダリングについてあまり詳しくない場合でも、組み込みのデータベースを使用して目的の画像をすばやく生成することができます。

一方、Kubric は、「レンダリングデータ」から「AI トレーニングデータ」を出力するパイプラインを直接提供し、レンダリングされた画像を特殊なデータ (深度マップ、オプティカルフローマップなど) に変換したり、視野、カメラパラメータ、照明などの追加データを収集したりする手間を省きます。

これにより、Kubric はオプティカルフロー、NeRF、姿勢推定、3D 再構築など、13 種類の CV タスクに必要な画像データの生成もサポートできるようになります。

はい、生成される画像の一部は 2D と 3D であり、必要なデータ量は MB から TB に及びますが、Kubric はそれらすべてに対応できます。

著者らは、Kubric が生成したデータセットをさまざまな視覚タスクに 1 つずつ試し、「自分たちが生成したデータセットの方が効果的である」と強調しました。

△キューブリックが生成したオプティカルフローマップ

では、このようなデータセット ジェネレーターはどのように使用するのでしょうか?

Pythonインターフェースが付属

著者はいくつかの簡単な操作手順を提供しています。

インストール後、最初のステップはデフォルトのシーンを作成することです。

次に、次の 2 つの手順を実行して、床と球体を作成します (他の形状に変更することもできます)。

次のステップは、シーンに照明を追加し、カメラをレンダリングして画像をキャプチャすることです。

ファイルをエクスポートすると、3D 球体の画像を取得できます。

△Blenderでの効果

深度マップ、グレースケール マップなどの特殊なレイヤーが必要な場合は、数行のコードで実行できます。

手動でエクスポートするよりも便利です。

もちろん、まだ始めるのが難しい場合は、著者が直接サンプル コードも提供しており、パラメーターを変更することで使用できます。

元のベースにさらに 5 行のコードを追加すると、ダイナミック ビデオ バージョンを直接実行できます。

データセットが完成すれば、レンダリングの仕方が分からない人でも半分は達人になれるようです(doge)

現在、新しい組み込みデータセットはまだ構築中です。興味のある方は、まずは試してみてください〜

プロジェクトアドレス:

​​https://github.com/google-research/kubric​​

論文の宛先:

​​https://arxiv.org/abs/2203.03570​​

<<:  Google の「Model Soup」が微調整により ImageNet リストのトップに躍り出ました。方法は半ページだけ

>>:  モデルの再現が難しいのは必ずしも作者のせいではない。研究により、モデルの構造に問題があることが判明した。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

パーソナライズされた推奨事項は、馴染みのあるものに偏っていますか?アルゴリズムは公平性を侵害できない

北京日報によると、異なる消費者が同じ電子商取引プラットフォーム上で同じキーワードを使用して商品を検索...

...

人工知能業界が「再始動」:2021年の5つの主要トレンドに関する洞察

2020年12月30日、テンセントYoutuの2020年度年次コミュニケーション会議が海南省で正式に...

上位 10 の古典的なソート アルゴリズムの詳細な説明: バブル ソート、選択ソート、挿入ソート

[[377307]] 1. アルゴリズムの評価基準ソートアルゴリズムを説明する前に、まずアルゴリズム...

人工知能端末チップ研究レポート

1. 人工知能とディープラーニング2016年、AlphaGoとイ・セドルの囲碁対決は間違いなく、人工...

自動運転はトラック運転手の失業を加速させている

上海深水港物流園区を出発し、東シナ海大橋を通り、陽山港ターミナルまで、往復72キロの有名な地元物流環...

9つの主要な回帰アルゴリズムと例のまとめ

線形回帰は、多くの場合、機械学習やデータサイエンスで最初に学ぶアルゴリズムです。シンプルでわかりやす...

AIエンジニアの年収はわずか50万元程度で、年間100万元を稼ぐには長年の経験が必要です。

[[259190]]近年、人工知能技術のあらゆる分野への応用がますます普及し、関連する専門的・技術...

...

人工知能でカスタマーサービスエージェントを強化する方法

今日、ほぼすべての分野やビジネスが何らかの変革を遂げており、多くの企業がデジタル技術の波の推進力を受...

AIOps に関する 6 つの誤解とその説明

[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...

起業の触媒としての AI: AI が提供できるものと提供できないもの

AI は、その潜在的パワーにもかかわらず、ビジネスを前進させるイノベーションの創出や推進において補助...

IT 業界で最も過小評価されている 6 つのテクノロジーと、まだ廃れていない 1 つのテクノロジー

翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年、生成 AI、具体的には Chat...

UCLA Chineseが新しい自動演奏メカニズムを提案しました! LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている

合成データは、大規模言語モデルの進化において最も重要な基礎となっています。昨年末、一部のネットユーザ...

...