AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年のテーマです。視覚入力は、2D または 3D センサーによって取得された画像や点群など、さまざまなタイプになる可能性があることを考慮すると、この分野における重要な研究目標は、3D 環境の幾何学的構造とセマンティクスを理解することです。

従来の方法では通常、手作業で作成された特徴を利用して、オブジェクトまたはシーンの形状と意味を推定します。しかし、これらの方法は新しいオブジェクトやシーンに一般化するのが難しく、視覚的な遮蔽という重大な問題を克服するのが困難です。

今年 9 月にオックスフォード大学でコンピューター サイエンスの博士課程を卒業した Bo Yang 氏は、論文「3D オブジェクトの再構築とセグメント化の学習」でこのテーマを調査しました。従来の方法とは異なり、著者らは、大規模な現実世界の 3D データでトレーニングされたディープ ニューラル ネットワークを通じて、一般的で堅牢な表現を学習し、その中のシーンとオブジェクトを理解します。

全体として、この論文では、現実世界の 3 次元環境の機械認識という目標を達成するための一連の新しいデータ駆動型アルゴリズムを開発しています。著者らは「この論文は人工知能と機械理解の限界を押し広げるものと言える」と述べている。

この博士論文は 143 ページあり、 6 つの章から構成されています。 Synced では、論文の核心部分を簡単に紹介しました。興味のある読者は、原文の論文を読むことができます。

論文アドレス: https://arxiv.org/pdf/2010.09582.pdf

論文概要

第 2 章では、まず、シングルビューおよびマルチビュー 3D オブジェクト再構築、3D ポイント クラウド セグメンテーション、生成的敵対ネットワーク (GAN)、注意メカニズム、セットのディープラーニングなど、3D オブジェクト再構築とセグメンテーションに関するこれまでの研究をレビューします。さらに、この章の最後には、シングルビュー/マルチビュー 3D 再構成と 3D ポイント クラウド セグメンテーションの観点から、SOTA 手法と比較した本研究の新規性について紹介します。

単一ビューに基づく3Dオブジェクトの再構築

第 3 章では、単一の深度ビューからオブジェクトの高密度 3D 形状を学習するための GAN ベースのディープ ニューラル アーキテクチャを提案しています。著者らは、このシンプルだが効果的なモデルを 3D-RecGAN++ と呼んでいます。これは、スキップ接続 3D エンコーダー/デコーダーと敵対的学習を組み合わせて、単一の 2.5D ビューから完全な細粒度の 3D 構造を生成します。モデル ネットワーク アーキテクチャのトレーニングおよびテストのプロセスを次の図に示します。

次に、著者らは条件付き敵対的トレーニングを使用して、エンコーダー/デコーダーによって推定された 3D 形状を改良します。3D 形状改良のための識別器構造図は次のとおりです。

最後に、著者らは提案された3D-RecGAN++とSOTA法を比較し、制御変数の研究を実施しました。合成データセットと実際のデータセットに関する広範な実験結果により、提案されたモデルが適切に機能することが実証されています。

複数のビューに基づく3Dオブジェクトの再構築

第 4 章では、著者らは、複数のビューからより適切な 3D オブジェクトの形状を推論するための新しい注意ベースのニューラル モジュールを提案しています。このシンプルだが効率的なアテンション集約モジュールは AttSets と呼ばれ、その構造を下の図に示します。既存の方法と比較して、この方法はさまざまな画像から有用な情報を集約することを学習できます。

さらに、研究者らは、一定数の入力画像に対して推定された 3D 形状が堅牢であることを保証するために、2 段階のトレーニング アルゴリズムを導入しました。研究者らは複数のデータセットで実験を行い、この方法が物体の3D形状を正確に復元できることを実証した。

点群から3Dオブジェクトをセグメント化する方法を学ぶ

第 5 章では、研究者らは大規模な 3D シーン内のすべての個別の 3D オブジェクトを識別するための新しいフレームワークを提案しました。既存の研究と比較して、私たちのフレームワークは、面倒な前処理/後処理の手順なしで、すべてのターゲットインスタンスを直接かつ同時に検出、セグメント化、認識できます。研究者らは、複数の大規模な実世界のデータセットにおいて、この手法がベースラインよりもパフォーマンスが向上することを実証しました。
著者について

この記事の著者である Bo Yang は現在、香港理工大学のコンピュータサイエンス学部の助教授です。彼は北京郵電大学と香港大学でそれぞれ学士号と修士号を取得し、その後オックスフォード大学のコンピュータサイエンス学部に入学して博士号取得を目指し、ニキ・トリゴニ教授とアンドリュー・マーカム教授の指導を受けました。

Bo Yang 氏の第一著者および共著者としての論文は、International Journal of Computer Vision (IJCV)、NeurIPS、CVPR などの学術会議に採択されています。彼の Google Scholar ホームページには、彼が合計 22 本の論文を執筆し、400 回以上引用されていることが示されています。

紙のカタログは次のとおりです。

<<:  貪欲アルゴリズム: K回の反転後の配列の合計を最大化する

>>:  15歳の少女が農場の収穫機にヒントを得てピンポン球を拾うロボットを発明

ブログ    
ブログ    

推薦する

...

ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4では、タスクが複雑になるほどパフォーマンスが向上します

ビッグデータダイジェスト制作親愛なる友人たち、人工知能(AI)がチェス、囲碁、Dotaを征服した後、...

...

人工知能が新薬開発を支援

[[251349]]古代、神農は何百種類もの生薬を試飲しましたが、これは実際には薬を人工的に選別する...

...

AIがネットワークゴミを生み出す:古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる

網易科技は6月27日、ここ数カ月、インターネットの方向性が変化したことを示すさまざまな兆候があると報...

日本のCGマスターがまた登場!リアルタイムの顔キャプチャのための 3D モデリング ソフトウェア

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人間の髪の毛のわずか200分の1の太さ!科学者たちは脳のように電気を生成できる「ナノワイヤーネットワーク」を構築した

今日の主流の人工知能技術は、ある意味では脳の構造にヒントを得たものです。しかし、コンピュータの計算能...

清華大学は顔認識技術に脆弱性を発見、セキュリティ問題を真剣に受け止める必要がある

このテストでは合計20台の携帯電話が選ばれ、そのうち1台は海外製、残りの19台は国内トップ5の携帯電...

ロボット工学が医療業界にもたらす変化

ロボット工学は医療分野で一般的になりつつあり、生物医学工学の分野における医療用ロボットへの資金提供が...

...

人工知能が世界を席巻し、人類はサイボーグへと向かう必要がある

テスラのCEOイーロン・マスク氏はドバイでのイベントで人工知能の将来について語った。同氏は、人間より...

機械学習と古典的なアルゴリズムの概念をわかりやすい言葉で説明しました。初心者必読

データ分野では、多くの人が機械学習について語っていますが、それが何であるかを明確に説明できる人はごく...

JVM チューニング: ガベージの場所、ガベージ コレクション アルゴリズム、ガベージ プロセッサの比較

ガベージ コレクターについて説明する前に、まずガベージ コレクション アルゴリズムと JVM のガベ...