AIと機械理解の限界を押し広げ、オックスフォード大学の博士論文は3Dオブジェクトの再構築とセグメント化を学ぶ

AIと機械理解の限界を押し広げ、オックスフォード大学の博士論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械が人間のように 3D の物体や環境を認識できるようにすることは、人工知能の分野における重要なトピックです。オックスフォード大学コンピュータサイエンス学部の博士課程の学生であるボー・ヤン氏は、大学院論文の中で、3D オブジェクトを再構築してセグメント化し、それによって機械に 3D 環境を認識する能力を与え、人工知能と機械理解の限界を打ち破る方法について詳しく説明しました。

[[354098]]

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年のテーマです。視覚入力は、2D または 3D センサーによって取得された画像や点群など、さまざまなタイプになる可能性があることを考慮すると、この分野における重要な研究目標は、3D 環境の幾何学的構造とセマンティクスを理解することです。

従来の方法では通常、手作業で作成された特徴を利用して、オブジェクトまたはシーンの形状と意味を推定します。しかし、これらの方法は新しいオブジェクトやシーンに一般化するのが難しく、視覚的な遮蔽という重大な問題を克服するのが困難です。

今年 9 月にオックスフォード大学でコンピューター サイエンスの博士課程を卒業した Bo Yang 氏は、論文「3D オブジェクトの再構築とセグメント化の学習」でこのテーマを調査しました。従来の方法とは異なり、著者らは、大規模な現実世界の 3D データでトレーニングされたディープ ニューラル ネットワークを通じて、一般的で堅牢な表現を学習し、その中のシーンとオブジェクトを理解します。

全体として、この論文では、現実世界の 3 次元環境の機械認識という目標を達成するための一連の新しいデータ駆動型アルゴリズムを開発しています。著者らは「この論文は人工知能と機械理解の限界を押し広げるものと言える」と述べている。

この博士論文は 143 ページあり、 6 つの章から構成されています。 Synced では、論文の核心部分を簡単に紹介しました。興味のある読者は、原文の論文を読むことができます。

論文アドレス: https://arxiv.org/pdf/2010.09582.pdf

論文概要

第 2 章では、まず、シングルビューおよびマルチビュー 3D オブジェクト再構築、3D ポイント クラウド セグメンテーション、生成的敵対ネットワーク (GAN)、注意メカニズム、セットのディープラーニングなど、3D オブジェクト再構築とセグメンテーションに関するこれまでの研究をレビューします。さらに、この章の最後には、シングルビュー/マルチビュー 3D 再構成と 3D ポイント クラウド セグメンテーションの観点から、SOTA 手法と比較した本研究の新規性について紹介します。

単一ビューに基づく3Dオブジェクトの再構築

第 3 章では、単一の深度ビューからオブジェクトの高密度 3D 形状を学習するための GAN ベースのディープ ニューラル アーキテクチャを提案しています。著者らは、このシンプルだが効果的なモデルを 3D-RecGAN++ と呼んでいます。これは、スキップ接続 3D エンコーダー/デコーダーと敵対的学習を組み合わせて、単一の 2.5D ビューから完全な細粒度の 3D 構造を生成します。モデル ネットワーク アーキテクチャのトレーニングおよびテストのプロセスを次の図に示します。

次に、著者らは条件付き敵対的トレーニングを使用して、エンコーダー/デコーダーによって推定された 3D 形状を改良します。3D 形状改良のための識別器構造図は次のとおりです。

最後に、著者らは提案された3D-RecGAN++とSOTA法を比較し、制御変数の研究を実施しました。合成データセットと実際のデータセットに関する広範な実験結果により、提案されたモデルが適切に機能することが実証されています。

複数のビューに基づく3Dオブジェクトの再構築

第 4 章では、著者らは、複数のビューからより適切な 3D オブジェクトの形状を推論するための新しい注意ベースのニューラル モジュールを提案しています。このシンプルだが効率的なアテンション集約モジュールは AttSets と呼ばれ、その構造を下の図に示します。既存の方法と比較して、この方法はさまざまな画像から有用な情報を集約することを学習できます。

さらに、研究者らは、一定数の入力画像に対して推定された 3D 形状が堅牢であることを保証するために、2 段階のトレーニング アルゴリズムを導入しました。研究者らは複数のデータセットで実験を行い、この方法が物体の3D形状を正確に復元できることを実証した。

点群から3Dオブジェクトをセグメント化する方法を学ぶ

第 5 章では、研究者らは大規模な 3D シーン内のすべての個別の 3D オブジェクトを識別するための新しいフレームワークを提案しました。既存の研究と比較して、私たちのフレームワークは、面倒な前処理/後処理の手順なしで、すべてのターゲットインスタンスを直接かつ同時に検出、セグメント化、認識できます。研究者らは、複数の大規模な実世界のデータセットにおいて、この手法がベースラインよりもパフォーマンスが向上することを実証しました。

著者について

この記事の著者である Bo Yang は現在、香港理工大学のコンピュータサイエンス学部の助教授です。彼は北京郵電大学と香港大学でそれぞれ学士号と修士号を取得し、その後オックスフォード大学のコンピュータサイエンス学部に入学して博士号取得を目指し、ニキ・トリゴニ教授とアンドリュー・マーカム教授の指導を受けました。

Bo Yang 氏の第一著者および共著者としての論文は、International Journal of Computer Vision (IJCV)、NeurIPS、CVPR などの学術会議に採択されています。彼の Google Scholar ホームページには、彼が合計 22 本の論文を執筆し、400 回以上引用されていることが示されています。

紙のカタログは次のとおりです。

<<:  JD.comのインテリジェント顧客サービスブランドがリニューアル:「Yanxi」が2020 JDDカンファレンスでデビュー

>>:  ビジネスに AI を導入する 3 つのユースケース: CxO 向けチートシート

ブログ    
ブログ    

推薦する

AIは医者と同等でしょうか?

2016年3月以来、AlphaGoと呼ばれるロボットが、有名な囲碁プレイヤーであるイ・セドルと柯潔...

祭壇から一般公開へと移行する冬季オリンピックでAIブラックテクノロジーを公開

現代のスポーツ競技は、アスリート同士のタイム競争であるだけでなく、舞台裏でのさまざまなハイテクノロジ...

アルゴリズムによるレイオフによって解き放たれる「悪の花」とは?

アルゴリズムによる採用は珍しいことではありません。膨大な履歴書の審査を自動化するために AI アルゴ...

ビジネスリーダーがAIを導入する際に指針となる5つの基本原則

たとえば、私が 25 年以上携わってきた市場調査業界を考えてみましょう。 AI は、さまざまな方法で...

Google、再生可能エネルギーと機械学習の力を借りて風力発電の予測に成功

従来の観点から見ると、目に見えず、実体のない風が新しい日にどのような挙動を示すかを予測することは依然...

どうやってパートナーを見つけたのですか?日本のネットユーザー:国はAIを使って配信している

星野源のような容姿の人を満足させることは、実はとても簡単です。ついに国家がオブジェクトを割り当てる時...

...

...

「アドビの父」が82歳で逝去!ガレージで始まり、PostScriptを発明し、伝説的な人生で世界を変えた

アドビの共同創業者ジョン・ワーノック氏が19日、82歳で亡くなった。本日、Adobe は公式に発表を...

...

真の人工知能から私たちはどれくらい遠いのでしょうか?

DeepMind がまた別の「悪役」を生み出しました! [[428779]]これらの小人たちは、ア...

AI一般技術の探求 WOT2019 グローバル人工知能技術サミットが継続

[51CTO.comより引用] 6月21日、WOT2019グローバルテクノロジーサミットとグローバル...

...

...