この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。
3D オブジェクト データセットは見たことがあると思いますが、アニメーション化された 3D オブジェクト データセットは見たことがありますか? 各ダイナミック ビデオは、ターゲットを中心に撮影されます。全体の境界ボックスが付属するだけでなく、各ビデオにはカメラのポーズとスパース ポイント クラウドも付属します。 これは Google のオープンソース 3D オブジェクト データセットObjectron で、5 大陸 10 か国から収集された15,000本の短いビデオ サンプルと400 万点以上の注釈付き画像が含まれています。 Google は、3D ターゲット理解の分野には 2D の ImageNet のような大規模なデータセットが不足しており、Objectron データセットによってこの問題をある程度解決できると考えています。 データセットが公開されると、 1.6k 人のネットユーザーが「いいね!」しました。 一部のネットユーザーは、Google がまさに「Google」について考えていたときに、このタイプのデータセットを公開したと冗談を言った。 元チームメンバーの中には、AR の進歩につながる可能性のあるこのようなデータセットやモデルを見ることができて嬉しいという人もいました。 さらに、Google は、Objectron データセットでトレーニングされた、靴、椅子、カップ、カメラの 4 つのカテゴリの 3D オブジェクト検出モデルもリリースしました。 このデータセットに含まれるものと、Google が提供する 3D オブジェクト検出ソリューションを見てみましょう (プロジェクトのアドレスは記事の最後を参照してください) 9種類のオブジェクト、ARに非常に優しい現在、このデータセットに含まれる 3D オブジェクトの例には、自転車、本、ボトル、カメラ、シリアル ボックス、椅子、カップ、ラップトップ、靴などがあります。 もちろん、このデータセットは、オブジェクトを中心に撮影されたビデオや画像だけではありません。次のような特徴があります。
画像部分のスタイルは基本的にこのようになっていますが、非常に細かくマークされています。 ビデオには、さまざまな角度(左から右、下から上)から撮影されたターゲット中心のクリップだけでなく、 ビデオ タイプの数も異なります (ターゲットが 1 つ、または 2 つ以上)。 Google は、このデータセットを公開することで、研究コミュニティが 3D オブジェクトの理解の分野や、教師なし学習などの関連研究アプリケーションのさらなる進歩を促進できることを期待しています。 使い方は? Googleは「模範を示して先導する」初めてデータセットを入手したとき、それが役に立つかどうかわからず、いつも少し圧倒されているように感じますか? 心配しないでください。Google はすでにこのデータセットのトレーニング効果をテストしています。 かなり良さそうですね: さらに、Google はトレーニング済みの 3D オブジェクト検出モデルもリリースしました。 (送信については記事末尾を参照) このアルゴリズムは主に 2 つの部分で構成されています。最初の部分は Tensorflow の 2D オブジェクト検出モデルで、「オブジェクトの位置を見つける」ために使用されます。 2 番目の部分では、画像の切り抜きを実行して 3D オブジェクトの境界ボックスを推定します (次のフレームでターゲットの 2D 切り抜きを計算するため、フレームごとに実行する必要はありません)。全体的な構造は次のとおりです。 モデルの評価では、Google はSutherland-Hodgman ポリゴン クリッピング アルゴリズムを使用して、2 つのステレオ境界ボックスの交差を計算し、2 つの立方体の交差体積を計算し、最後に 3D オブジェクト検出モデルのIoUを計算しました。 簡単に言えば、2 つの立方体の重なり合う部分が大きいほど、3D オブジェクト検出モデルの品質は向上します。 このモデルは、さまざまな形式の知覚データを処理するためのパイプラインを構築するためのオープンソースのクロスプラットフォーム フレームワークである Google の MediaPipe の一部です。 同社が発売した「MediaPipe Objectron リアルタイム 3D ターゲット検出モデル」は、モバイルデバイス (携帯電話) を使用してリアルタイムのターゲット検出を実行できます。 彼らがどれほど幸せか見てください! リアルタイムのオブジェクト検出は非常にうまく機能します: その他の3DデータセットGoogle が公開したデータセットに加えて、視覚的な 3D オブジェクトの分野には、それぞれ独自の特性を持つさまざまな種類のデータセットも存在します。 たとえば、スタンフォード大学が提案したScanNetV2は屋内シーン データセットですが、ScanNet は 21 のターゲット クラスと 1,513 の収集されたシーン データを含む RGB-D ビデオ データセットであり、セマンティック セグメンテーションやターゲット検出タスクに使用できます。 現在、自動運転の分野で非常に人気があるKITTIデータセットも3Dデータセットです。これは現在、自動運転シナリオにおけるコンピュータービジョンのアルゴリズム評価データセットとしては最大規模であり、市街地、農村部、高速道路などのシーンで収集された実際の画像データが含まれています。 さらに、Waymo、SemanticKITTI、H3D などのデータ セットもあり、さまざまなシナリオで使用されます。 (例えば、SemanticKITTI は自動運転のための 3D セマンティック セグメンテーションによく使用されます) 動画であれ画像であれ、これらのデータセット内の 1 つのサンプルには基本的に複数のターゲットが含まれており、使用シナリオも Google の Objectron とは異なります。 興味のある方は、以下のポータルからGoogleの最新の3Dオブジェクト検出データセットと関連モデルを閲覧できます。 Objectron データセット ポータル: 4 種類のオブジェクトに対する 3D オブジェクト検出モデル: |
>>: パーセプトロンの物語: 機械学習はどのようにして今日の地位に到達したのでしょうか?
AIは本当に人間の仕事を奪う——有名なテクノロジーウェブサイト「ギズモード」が、スペイン語チャンネル...
チューリッヒ大学の研究者らは、複雑で未知の環境でもドローンが高速で自律飛行できるようにする新たな人工...
強化学習は過去 1 年間で大きな進歩を遂げ、最先端のテクノロジが 2 か月ごとにリリースされています...
過去2年間、人々の注目は5Gにますます集まっているものの、人工知能の発展と人気は少しも衰えていません...
[[285696]]最近、「ブロックチェーン」や「フェデレーテッドラーニング」などの概念がかつてな...
[[251968]]最近、湖南省の12歳少年が母親を殺害したというニュースが報道され、遺児の教育問...
絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感...
[[437442]] [51CTO.com クイック翻訳]囲碁からスタークラフト、Dotaまで、多く...
[[334871]]原題:「人間の顔認識」から「犬の顔認識」まで、人工知能はペット経済にも参入する...
3月11日、全国人民代表大会の2つの会議が閉会した。「人工知能」は引き続きホットな話題だが、今年の...
Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...
新たな科学技術革命と産業変革が加速する中、デジタル技術がもたらす成長の配当をすべての人がいかに共有で...