AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年のテーマです。視覚入力は、2D または 3D センサーによって取得された画像や点群など、さまざまなタイプになる可能性があることを考慮すると、この分野における重要な研究目標は、3D 環境の幾何学的構造とセマンティクスを理解することです。

従来の方法では通常、手作業で作成された特徴を利用して、オブジェクトまたはシーンの形状と意味を推定します。しかし、これらの方法は新しいオブジェクトやシーンに一般化するのが難しく、視覚的な遮蔽という重大な問題を克服するのが困難です。

今年 9 月にオックスフォード大学でコンピューター サイエンスの博士課程を卒業した Bo Yang 氏は、論文「3D オブジェクトの再構築とセグメント化の学習」でこのテーマを調査しました。従来の方法とは異なり、著者らは、大規模な現実世界の 3D データでトレーニングされたディープ ニューラル ネットワークを通じて、一般的で堅牢な表現を学習し、その中のシーンとオブジェクトを理解します。

全体として、この論文では、現実世界の 3 次元環境の機械認識という目標を達成するための一連の新しいデータ駆動型アルゴリズムを開発しています。著者らは「この論文は人工知能と機械理解の限界を押し広げるものと言える」と述べている。

この博士論文は 143 ページあり、 6 つの章から構成されています。 Synced では、論文の核心部分を簡単に紹介しました。興味のある読者は、原文の論文を読むことができます。

論文アドレス: https://arxiv.org/pdf/2010.09582.pdf

論文概要

第 2 章では、まず、シングルビューおよびマルチビュー 3D オブジェクト再構築、3D ポイント クラウド セグメンテーション、生成的敵対ネットワーク (GAN)、注意メカニズム、セットのディープラーニングなど、3D オブジェクト再構築とセグメンテーションに関するこれまでの研究をレビューします。さらに、この章の最後には、シングルビュー/マルチビュー 3D 再構成と 3D ポイント クラウド セグメンテーションの観点から、SOTA 手法と比較した本研究の新規性について紹介します。

単一ビューに基づく3Dオブジェクトの再構築

第 3 章では、単一の深度ビューからオブジェクトの高密度 3D 形状を学習するための GAN ベースのディープ ニューラル アーキテクチャを提案しています。著者らは、このシンプルだが効果的なモデルを 3D-RecGAN++ と呼んでいます。これは、スキップ接続 3D エンコーダー/デコーダーと敵対的学習を組み合わせて、単一の 2.5D ビューから完全な細粒度の 3D 構造を生成します。モデル ネットワーク アーキテクチャのトレーニングおよびテストのプロセスを次の図に示します。

次に、著者らは条件付き敵対的トレーニングを使用して、エンコーダー/デコーダーによって推定された 3D 形状を改良します。3D 形状改良のための識別器構造図は次のとおりです。

最後に、著者らは提案された3D-RecGAN++とSOTA法を比較し、制御変数の研究を実施しました。合成データセットと実際のデータセットに関する広範な実験結果により、提案されたモデルが適切に機能することが実証されています。

複数のビューに基づく3Dオブジェクトの再構築

第 4 章では、著者らは、複数のビューからより適切な 3D オブジェクトの形状を推論するための新しい注意ベースのニューラル モジュールを提案しています。このシンプルだが効率的なアテンション集約モジュールは AttSets と呼ばれ、その構造を下の図に示します。既存の方法と比較して、この方法はさまざまな画像から有用な情報を集約することを学習できます。

さらに、研究者らは、一定数の入力画像に対して推定された 3D 形状が堅牢であることを保証するために、2 段階のトレーニング アルゴリズムを導入しました。研究者らは複数のデータセットで実験を行い、この方法が物体の3D形状を正確に復元できることを実証した。

点群から3Dオブジェクトをセグメント化する方法を学ぶ

第 5 章では、研究者らは大規模な 3D シーン内のすべての個別の 3D オブジェクトを識別するための新しいフレームワークを提案しました。既存の研究と比較して、私たちのフレームワークは、面倒な前処理/後処理の手順なしで、すべてのターゲットインスタンスを直接かつ同時に検出、セグメント化、認識できます。研究者らは、複数の大規模な実世界のデータセットにおいて、この手法がベースラインよりもパフォーマンスが向上することを実証しました。
著者について

この記事の著者である Bo Yang は現在、香港理工大学のコンピュータサイエンス学部の助教授です。彼は北京郵電大学と香港大学でそれぞれ学士号と修士号を取得し、その後オックスフォード大学のコンピュータサイエンス学部に入学して博士号取得を目指し、ニキ・トリゴニ教授とアンドリュー・マーカム教授の指導を受けました。

Bo Yang 氏の第一著者および共著者としての論文は、International Journal of Computer Vision (IJCV)、NeurIPS、CVPR などの学術会議に採択されています。彼の Google Scholar ホームページには、彼が合計 22 本の論文を執筆し、400 回以上引用されていることが示されています。

紙のカタログは次のとおりです。

<<:  貪欲アルゴリズム: K回の反転後の配列の合計を最大化する

>>:  15歳の少女が農場の収穫機にヒントを得てピンポン球を拾うロボットを発明

ブログ    
ブログ    
ブログ    

推薦する

Python データマイニングと機械学習入門

データマイニングとは何ですか?機械学習とは何ですか?Python データの前処理を実行するにはどうす...

CSS ボックスモデルのアルゴリズムとアプリケーションの詳細な説明

ここでは、ブロックレベル ボックスのデフォルトの幅、幅のない絶対配置ボックス、幅のないフローティング...

人工知能の解釈については、この記事を読んでください

人工知能のより一般的な定義、そしてこの分野における初期の定義は、1956 年のダートマス会議で MI...

EUのAI法案は企業に厳しい規則と巨額の罰金をもたらす

EUが長らく議論されてきたEU AI法案を前進させ、AIの使用に関するガードレールを導入しようと最近...

人工知能は仕事をなくしてしまうのでしょうか?マスク氏の提案を聞いてみましょう。

人工知能が広く活用されるようになり、将来の雇用環境に対する不安も広がっています。 2019年に調査会...

これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにするこ...

スマート端末AxPOS A8Sは単なるハードウェアのフラッシュではありません

AxPOS A8Sは、LianDi Commercialが2020年に構築に注力した新世代のスマート...

アリババ、AI推論・計算用Ali-NPUニューラルネットワークチップをリリース

Alibaba DAMO Academyは、画像や動画の分析、機械学習などのAI推論計算に使用される...

ヘルスケア業界における人工知能と機械学習の応用

[[414016]]ヘルスケア業界における人工知能と機械学習の役割を理解するには、ヘルスケア業界にお...

引退した中国人女性のAIによるイラストがWeiboで話題に! 「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

AIの創造性の限界は何でしょうか?最近、ネットユーザーは、GPT-4 に適切なタイミングで PUA ...

資本から絶大な支持を受ける人工知能が、なぜ金融分野で壁にぶつかっているのか。

マーフィー著昨年のAlphaGo、今年のLibratusと、さまざまな業界で「人工知能」のトレンドが...

滴滴出行の米国研究責任者:インテリジェント運転は間違いなく未来を変えるだろうが、そのプロセスは単純ではない

6月20日、滴滴出行研究院副院長兼アメリカ研究院長のゴン・フェンミン博士が、TechCrunch I...

TensorFlowに関する簡単な例

[[220444]]この記事では、TensorFlowの例をいくつか見て、テンソルテンソルまた、テン...

...

...