この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 最近では、AI プレイヤーにとって適切な画像データ セットを見つけることがますます困難になっています。 データの品質が不均一であるだけでなく、適切なデータタイプ(オプティカル フロー マップ、深度マップなど) を見つけることも困難です。 これらの問題を解決するために、Google、MIT、DeepMind、MILA、ケンブリッジ大学を含む11の機関の34人の研究者が協力し、Kubricと呼ばれるデータセットジェネレーターを作成しました。Kubricは、単独でレンダリングできるだけでなく、非常にリアルな画像効果も備えています。 さまざまな画像データを処理できるだけでなく、セマンティックセグメンテーション、深度マップ、オプティカルフローマップなどの「特殊データ」もワンクリックで生成できます。 レンダリングのリアリティを制御することもでき、レンダリングされたビデオはリアルな効果を実現できます。 著者らによると、Kubric は現在13 種類の CV タスクのデータ タイプ生成をサポートしており、その結果は既存のデータセットを使用してトレーニングされたものよりも劣っていません。 このようなデータセット ジェネレーターを使い始めるにはどうすればよいでしょうか? 13種類のCVタスクに必要なデータを生成できますまず、この Kubric データセット ジェネレーターが何であるかを見てみましょう。 簡単に言えば、クロスプラットフォームのオープンソース物理エンジンPyBulletと 3D 画像レンダリングソフトウェアBlenderをベースに構築された、画像 AI 専用に構築された「データ ワークショップ」のようなものです。 その中で、PyBullet は 3D オブジェクトの動きをシミュレートするためのプラットフォームをユーザーに提供します。たとえば、これを使用して 2 つのボール間の弾性衝突パラメータをシミュレートできます。 (もちろんPyBullet以外にもMuJoCoなどの他の物理エンジンにも拡張可能です) Blender は 3D アニメーションをレンダリングするためのプラットフォームですが、その利点は操作の容易さにあります。フォトリアリスティックなレンダリング画像を作成できるだけでなく、3D アニメーション効果も出力できます。 (例えば、デザイナーの中には衣服のテクスチャをデザインするために使用する人もいます) ここで、ビデオや画像データセットを手動でレンダリングする場合と比べて、Kubric の利便性はどのようなものかと疑問に思うかもしれません。 一方、Kubric には、一連の事前処理済みの基本画像データベースが付属しています。 11 個の基本的な 3D モデルに加えて: また、Google Scanned Objects (GSO) 屋内家具オブジェクト データセット、背景、照明、マテリアル テクスチャなどのパラメータを含む Polyhaven データセット、および ShapeNet データセット (55 種類の一般的なオブジェクト タイプと 51,300 個の 3D モデルを含む) からのモデルも組み込まれています。 つまり、レンダリングについてあまり詳しくない場合でも、組み込みのデータベースを使用して目的の画像をすばやく生成することができます。 一方、Kubric は、「レンダリングデータ」から「AI トレーニングデータ」を出力するパイプラインを直接提供し、レンダリングされた画像を特殊なデータ (深度マップ、オプティカルフローマップなど) に変換したり、視野、カメラパラメータ、照明などの追加データを収集したりする手間を省きます。 これにより、Kubric はオプティカルフロー、NeRF、姿勢推定、3D 再構築など、13 種類の CV タスクに必要な画像データの生成もサポートできるようになります。 はい、生成される画像の一部は 2D と 3D であり、必要なデータ量は MB から TB に及びますが、Kubric はそれらすべてに対応できます。 著者らは、Kubric が生成したデータセットをさまざまな視覚タスクに 1 つずつ試し、「自分たちが生成したデータセットの方が効果的である」と強調しました。 △キューブリックが生成したオプティカルフローマップ では、このようなデータセット ジェネレーターはどのように使用するのでしょうか? Pythonインターフェースが付属著者はいくつかの簡単な操作手順を提供しています。 インストール後、最初のステップはデフォルトのシーンを作成することです。 次に、次の 2 つの手順を実行して、床と球体を作成します (他の形状に変更することもできます)。 次のステップは、シーンに照明を追加し、カメラをレンダリングして画像をキャプチャすることです。 ファイルをエクスポートすると、3D 球体の画像を取得できます。 △Blenderでの効果 深度マップ、グレースケール マップなどの特殊なレイヤーが必要な場合は、数行のコードで実行できます。 手動でエクスポートするよりも便利です。 もちろん、まだ始めるのが難しい場合は、著者が直接サンプル コードも提供しており、パラメーターを変更することで使用できます。 元のベースにさらに 5 行のコードを追加すると、ダイナミック ビデオ バージョンを直接実行できます。 データセットが完成すれば、レンダリングの仕方が分からない人でも半分は達人になれるようです(doge) 現在、新しい組み込みデータセットはまだ構築中です。興味のある方は、まずは試してみてください〜 プロジェクトアドレス: https://github.com/google-research/kubric 論文の宛先: https://arxiv.org/abs/2203.03570 |
<<: Google の「Model Soup」が微調整により ImageNet リストのトップに躍り出ました。方法は半ページだけ
>>: モデルの再現が難しいのは必ずしも作者のせいではない。研究により、モデルの構造に問題があることが判明した。
この記事では機械学習入門、ディープラーニング、自然言語処理などを網羅した関連講座10選を紹介します。...
家族よ、ついに来たぞ!先ほど、ChatGPT「コードインタープリター」ベータ版がすべてのPlusユー...
最近、Waabi AI、トロント大学、ウォータールー大学、MITの研究者らが、NeurIPS 202...
生成 AI は AI の「津波」を引き起こし、AI 駆動型アプリケーションの急速な開発、広範な採用、...
ロボティック・プロセス・オートメーション (RPA) は、今日最も急速に成長しているテクノロジーの ...
サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...
[[261281]]新興技術への投資家として、私は既存の市場を改善したり、新しい市場を創出したりで...
シンボリック AI は、ビジネスに関する洞察を解釈し、すべての目標の達成を支援します。多くの企業が基...
ドローンと聞いて何を思い浮かべますか?おそらくほとんどの人の答えは写真撮影でしょう。しかし、今回の疫...
企業データの量と複雑さは増大しており、ビジネス上の意思決定や戦略計画においてデータが果たす中心的な役...
マイクロソフトはすでにオープンソースの人工知能ソフトウェアを持っています。しかしここ数カ月、マイクロ...
誰もが知っているように、昔は銀行に行って業務を処理するには長い列に並ばなければなりませんでした。業務...