AIと機械理解の限界を押し広げ、オックスフォード大学の博士論文は3Dオブジェクトの再構築とセグメント化を学ぶ

AIと機械理解の限界を押し広げ、オックスフォード大学の博士論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械が人間のように 3D の物体や環境を認識できるようにすることは、人工知能の分野における重要なトピックです。オックスフォード大学コンピュータサイエンス学部の博士課程の学生であるボー・ヤン氏は、大学院論文の中で、3D オブジェクトを再構築してセグメント化し、それによって機械に 3D 環境を認識する能力を与え、人工知能と機械理解の限界を打ち破る方法について詳しく説明しました。

[[354098]]

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年のテーマです。視覚入力は、2D または 3D センサーによって取得された画像や点群など、さまざまなタイプになる可能性があることを考慮すると、この分野における重要な研究目標は、3D 環境の幾何学的構造とセマンティクスを理解することです。

従来の方法では通常、手作業で作成された特徴を利用して、オブジェクトまたはシーンの形状と意味を推定します。しかし、これらの方法は新しいオブジェクトやシーンに一般化するのが難しく、視覚的な遮蔽という重大な問題を克服するのが困難です。

今年 9 月にオックスフォード大学でコンピューター サイエンスの博士課程を卒業した Bo Yang 氏は、論文「3D オブジェクトの再構築とセグメント化の学習」でこのテーマを調査しました。従来の方法とは異なり、著者らは、大規模な現実世界の 3D データでトレーニングされたディープ ニューラル ネットワークを通じて、一般的で堅牢な表現を学習し、その中のシーンとオブジェクトを理解します。

全体として、この論文では、現実世界の 3 次元環境の機械認識という目標を達成するための一連の新しいデータ駆動型アルゴリズムを開発しています。著者らは「この論文は人工知能と機械理解の限界を押し広げるものと言える」と述べている。

この博士論文は 143 ページあり、 6 つの章から構成されています。 Synced では、論文の核心部分を簡単に紹介しました。興味のある読者は、原文の論文を読むことができます。

論文アドレス: https://arxiv.org/pdf/2010.09582.pdf

論文概要

第 2 章では、まず、シングルビューおよびマルチビュー 3D オブジェクト再構築、3D ポイント クラウド セグメンテーション、生成的敵対ネットワーク (GAN)、注意メカニズム、セットのディープラーニングなど、3D オブジェクト再構築とセグメンテーションに関するこれまでの研究をレビューします。さらに、この章の最後には、シングルビュー/マルチビュー 3D 再構成と 3D ポイント クラウド セグメンテーションの観点から、SOTA 手法と比較した本研究の新規性について紹介します。

単一ビューに基づく3Dオブジェクトの再構築

第 3 章では、単一の深度ビューからオブジェクトの高密度 3D 形状を学習するための GAN ベースのディープ ニューラル アーキテクチャを提案しています。著者らは、このシンプルだが効果的なモデルを 3D-RecGAN++ と呼んでいます。これは、スキップ接続 3D エンコーダー/デコーダーと敵対的学習を組み合わせて、単一の 2.5D ビューから完全な細粒度の 3D 構造を生成します。モデル ネットワーク アーキテクチャのトレーニングおよびテストのプロセスを次の図に示します。

次に、著者らは条件付き敵対的トレーニングを使用して、エンコーダー/デコーダーによって推定された 3D 形状を改良します。3D 形状改良のための識別器構造図は次のとおりです。

最後に、著者らは提案された3D-RecGAN++とSOTA法を比較し、制御変数の研究を実施しました。合成データセットと実際のデータセットに関する広範な実験結果により、提案されたモデルが適切に機能することが実証されています。

複数のビューに基づく3Dオブジェクトの再構築

第 4 章では、著者らは、複数のビューからより適切な 3D オブジェクトの形状を推論するための新しい注意ベースのニューラル モジュールを提案しています。このシンプルだが効率的なアテンション集約モジュールは AttSets と呼ばれ、その構造を下の図に示します。既存の方法と比較して、この方法はさまざまな画像から有用な情報を集約することを学習できます。

さらに、研究者らは、一定数の入力画像に対して推定された 3D 形状が堅牢であることを保証するために、2 段階のトレーニング アルゴリズムを導入しました。研究者らは複数のデータセットで実験を行い、この方法が物体の3D形状を正確に復元できることを実証した。

点群から3Dオブジェクトをセグメント化する方法を学ぶ

第 5 章では、研究者らは大規模な 3D シーン内のすべての個別の 3D オブジェクトを識別するための新しいフレームワークを提案しました。既存の研究と比較して、私たちのフレームワークは、面倒な前処理/後処理の手順なしで、すべてのターゲットインスタンスを直接かつ同時に検出、セグメント化、認識できます。研究者らは、複数の大規模な実世界のデータセットにおいて、この手法がベースラインよりもパフォーマンスが向上することを実証しました。

著者について

この記事の著者である Bo Yang は現在、香港理工大学のコンピュータサイエンス学部の助教授です。彼は北京郵電大学と香港大学でそれぞれ学士号と修士号を取得し、その後オックスフォード大学のコンピュータサイエンス学部に入学して博士号取得を目指し、ニキ・トリゴニ教授とアンドリュー・マーカム教授の指導を受けました。

Bo Yang 氏の第一著者および共著者としての論文は、International Journal of Computer Vision (IJCV)、NeurIPS、CVPR などの学術会議に採択されています。彼の Google Scholar ホームページには、彼が合計 22 本の論文を執筆し、400 回以上引用されていることが示されています。

紙のカタログは次のとおりです。

<<:  JD.comのインテリジェント顧客サービスブランドがリニューアル:「Yanxi」が2020 JDDカンファレンスでデビュー

>>:  ビジネスに AI を導入する 3 つのユースケース: CxO 向けチートシート

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

スマートヘルスケアは急速に普及しつつあり、さまざまなスマートテクノロジーが好まれている

人々の生活の重要な分野として、医療産業の発展は大きな注目を集めています。現在、医師の診察の難しさや高...

韓国の常温超伝導チームは重要な技術を隠蔽したのか?アニーリングの詳細がネットユーザーによって暴露され、6つの中国チームが攻撃を開始

昨今、室温超伝導を再現する実験が注目を集めています。 3日間の期限が過ぎ、多くの再現実験で結果が得ら...

2023年版CV初心者ガイドの概要

コンピューター ビジョンは、驚くほど急速に発展している分野です。本質的には、コンピューターに人間と同...

カリフォルニア工科大学、プロペラアームを使って滑空する二足歩行ロボットを開発

LEONARDO は、カリフォルニア工科大学の航空宇宙ロボット工学および制御研究所の言語の天才たちの...

ChatGPT文明がオンラインになりました!ワンクリックで明代の南京と中世イタリアを旅しよう

ChatGPT がリリースされてから、宿題をするために ChatGPT を使い始める学生が増えてきま...

見逃せないビッグデータと人工知能分野の役立つウェブサイトトップ10

AIやビッグデータなどの技術の急速な発展に伴い、関連する知識も普及してきました。数多くのウェブサイ...

食品市場における産業用ロボット、2026年までに7億4500万米ドルに達すると予想

[[433247]]包装食品の需要増加により、食品ロボット市場規模の成長が促進されると予想されます。...

2021 年の優れた 5 つの人工知能フレームワーク

この記事では、上位 5 つのフレームワークとライブラリを実際のアプリケーションとともに紹介したいと思...

...

ダニエル・ウーの顔を5秒で変える!人気のAIアプリ「ZAO」は依然として技術的な問題に直面しています。あなたの「顔」は認証されましたか?

制作:ビッグデータダイジェスト編集部ZAOは一夜にして人気者になった。一昨夜、文翁の友人の輪には、さ...

...

Baiduの新しいAIインフラがCIFTISでデビューし、CTOの王海峰が業界インテリジェンスの推進におけるBaiduの成果を紹介

AIはあらゆる分野に新たな活力を吹き込み、AIの新しいインフラはサービス貿易部門を含む社会経済の発展...

AI医薬品製造はここにあります!新薬開発は「10年間の努力」に別れを告げるかもしれない

[[385336]] AI顔認識技術は人気歌手のコンサートから逃亡した犯人を捕まえるのに役立ち、AI...

放射線科学における LLM の潜在的な応用は何ですか?数十の研究機関が共同で31の大型モデルをテスト

近年、大規模言語モデル (LLM) は自然言語処理 (NLP) の分野で革新の波を起こしています。大...