10億ピクセル画像のマルチスケール特性評価のためのスタンフォード大学の新しいニューラルシーン表現方法がSIGGRAPHに選出されました

10億ピクセル画像のマルチスケール特性評価のためのスタンフォード大学の新しいニューラルシーン表現方法がSIGGRAPHに選出されました

現在、ニューラル表現は、レンダリング、イメージング、幾何学モデリング、シミュレーション アプリケーションの新しいパラダイムとなっています。メッシュ、ポイント クラウド、ボリューム メッシュなどの従来の表現と比較して、ニューラル表現は、微分可能な学習ベースのパイプラインに柔軟に組み込むことができます。ニューラル表現の最近の進歩により、画像や 3D 形状などの詳細が豊富な信号を中程度の解像度で表現できるようになりましたが、大規模または複雑なシーンを適切に表現することは依然として課題となっています。

既存のニューラル表現では、100 万ピクセルを超える解像度の画像や、数十万のポリゴンで構成された 3D シーンを正確に表現することはできません。

スタンフォード大学の最近の研究が解決策を示しています。彼らは、トレーニングと推論中に信号のローカルな複雑さに応じてリソースを適応的に割り当てることができる、新しい暗黙的・明示的ハイブリッド ネットワーク アーキテクチャと対応するトレーニング戦略を提案しました。彼らは、ニューラルシーン表現のためのこの適応座標ネットワークを Acorn と呼びました。

この方法では、トレーニング中に改良される、四分木や八分木に似たマルチスケールのブロック座標分解を使用します。具体的には、ネットワーク アーキテクチャは 2 つの段階に分かれています。まず、座標エンコーダーが多数のネットワーク パラメーターを使用して単一のフォワード パスでグリッド機能を生成します。次に、各ブロック内の数百または数千のサンプルが軽量機能デコーダーによって効率的に評価されます。

プロジェクトのホームページ:
https://www.computationalimaging.org/publications/acorn/

論文の宛先:
出典: http://arxiv.org/pdf/2105.02788.pdf

研究者たちは、このハイブリッド暗黙的・明示的ネットワーク アーキテクチャを使用して、1 ギガピクセルの画像をピーク信号対雑音比約 40dB に適合させる能力を初めて実証しました。注目すべきは、これは以前の画像フィッティング実験で実証された解像度と比較して、スケールが 1000 倍以上増加していることを意味します。さらに、研究者らの手法では、3D 形状を以前よりも高速かつ正確に表現できるため、トレーニング時間が数日から数時間または数分に短縮され、メモリ要件が少なくとも 1 桁削減されます。

Acorn の実際の表現効果は、次のアニメーションで示されています。最初は 10 億ピクセルの 2D 東京都市画像です。

2つ目は、3Dレリーフの再構築表示効果です。

マルチスケール座標ネットワーク

研究者らが提案したマルチスケール表現ネットワークは、マルチスケールブロックパラメータ化(ローカル信号の複雑さに基づいて入力空間を分割する)と、座標エンコーダーと特徴デコーダー(入力空間とスケール座標を出力値に効率的にマッピングする役割を担う)で構成されるネットワークアーキテクチャーという2つの主要コンポーネントで構成されています。

マルチスケールブロックパラメータ化

マルチスケール ブロック パラメータ化の中核は、入力ドメインのツリーベースの分割です。具体的には、研究者は 2 次元の四分木または 3 次元の八分木を使用してドメインを分割し、ツリーの最適なスケールと最大深度を決定します (下の図 3 を参照)。

従来のマルチスケール分解方法では、入力ドメイン内の各値は、画像ピラミッド内の各ピクセルなど、複数のスケールで表現されます。対照的に、私たちのアプローチでは、空間を分割して各入力値を単一のスケールで表します。

ニューラルネットワークアーキテクチャ

マルチスケール表現ネットワークの座標エンコーダは次のように定義されます。

連続したローカル座標 X_1 が与えられた場合、特徴ベクトルは次のように抽出されます。

この 2 段階アーキテクチャの主な利点は、同じブロック内の複数の座標を評価する計算オーバーヘッドが大幅に削減されることです。もう 1 つの利点は、特徴ネットワークを空間的な場所やスケールにまたがる反復構造を持つ信号で再利用できるため、ネットワーク パフォーマンスを向上できることです。

オンラインマルチスケール分解

研究者らは、対象信号に合わせてネットワーク リソースを適応的に割り当てることができる新しい自動分解方法を提案しました。この方法は、シミュレーション技術における適応メッシュ改良法と有限要素ソルバーからヒントを得ています。これらの有限要素ソルバーは、最適化プロセス中に細分化または粗大化を実行して、計算オーバーヘッドを最小限に抑えながらソリューションの精度を向上させます。

剪定

マルチスケール ネットワーク内の領域全体で同じ値を学習しないように、ブロックがそれ以上分解できなくなるまでパーティションからブロックを削除し、その値をルックアップ テーブルに設定します。また、ブロックはアクティブではなくなったため、式(8)の制約を緩和することでパーティション内のスペースを解放することができる。

ブロック B_i を刈り込むかどうかの決定については、研究者らは、実際の操作では、誤差が低く、分散が低いという 2 つの条件が満たされていればうまく実行できることを発見しました。

1ギガピクセル画像の特徴

研究者らはまず、1ギガピクセルの画像を表現する際のAcornのパフォーマンスを評価した。これまでのニューラル画像表現法では解像度が 100 万ピクセル未満に制限されていましたが、この研究では 6,400 万ピクセルと 10 億ピクセルを選択し、これまでの方法をはるかに上回る解像度を実現しました。

具体的には、2 つの大規模な画像をフィッティングすることで Acorn のパフォーマンスを実証します。下の図 2 に示すように、最初の画像はニューホライズンズ宇宙探査機が撮影した冥王星の画像です。解像度は 8,192×8,192 で、さまざまなスケールの特徴を備えているため、マルチスケール特性評価に最適な実験対象となっています。

結果は、本研究のリソース割り当て戦略を使用して最適化された適応メッシュが、大幅に小さいブロックを使用して豊富な詳細を表現できることを示しています。クレーターを例にとると、広大で大きな均一領域をより小さなスケールで表現できます。

2 つ目は、19,456×51,200 の解像度で東京市を 10 億ピクセルで撮影した画像です。これは、最近のニューラル画像表現で使用される画像の解像度よりも約 3 桁高いものです。

同様に、研究者たちはさまざまなスケールの画像で豊富な詳細を捉えました。

全体として、Acorn は大規模な 2D 画像を柔軟に表現できるように拡張できるため、トレーニング速度、パフォーマンス、およびタスクへの全体的な適用性が大幅に向上します。

複雑な3Dシーンの表現

この研究で提案されたマルチスケール表現は、2D 画像に加えて、複雑な 3D シーンの表現にも十分に一般化できます。

下の図 5 に示すように、Acorn は Conv. Occ. や SIREN などの従来の方法と比較して、複雑な形状をより正確に表現できます。質的には、絡み合ったレリーフやしっかりと絡み合ったスプリングなどの豊富な詳細を表現する点で、Acorn はこれらの方法よりも強力です。量的には、Acorn はボリューム容量とメッシュ精度の両方ですべてのベースライン方法よりも優れています。

最後に、Acorn は、以前のニューラル表現方法と比較して、計算効率の大幅な向上も実現します。このアプローチでは、サンプリング ポイント間で計算を共有することで、モデルのトレーニングとクエリに必要なメモリと時間のオーバーヘッドが大幅に削減されます。

<<:  将来的には映画の吹き替えにも人工知能が使われるようになるのでしょうか?

>>:  筋肉の震えもはっきりと見えます! 3D人体モデル自動生成アルゴリズム、第一著者北京大学チューリングクラス

ブログ    

推薦する

5月にGitHubで最も人気のある機械学習プロジェクトはこちら

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

今後 5 年以内にトラックは自動運転できるようになるでしょうか? 「人工知能の女王」はシノトラックでこの答えを出した

「人工知能の女王」ジャスティン・カッセル氏が済南の中国重汽で「人工知能と世界の未来経済」について講演...

将来、音声認識はどのような商業シナリオに適用される可能性がありますか?

Companies and Markets の評価レポートでは、世界の音声認識市場は今後さらに多様...

AI に役立つ 7 つの優れたオープンソース ツール

ビジネスニーズを予測するには、AI を活用し、研究開発を新たなレベルに引き上げる必要があります。この...

トヨタ・リサーチ・インスティテュート、AIを活用した自動車設計ツールを発表

トヨタ・リサーチ・インスティテュートは、この新しい革新的な生成AIツールにより、デザイナーは効率的か...

業界大混乱! 2020年に人工知能がIT業界にもたらす4つの変化

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

次世代モバイルコンピューティングの予測

テクノロジーは前例のない速度で進歩しており、モバイル コンピューティングの将来は変革的な進歩を約束し...

機械学習がゲームにおける物理シミュレーションに革命をもたらす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

自動運転システムのテストに関する簡単な説明

1. 自動運転システムレベルテストの基本理論1.1 自動運転テストシナリオの構成1.1.1 フレーム...

40年前、袁龍平が田んぼで教えている姿はこんな感じです!ネットユーザーがAIを使って貴重な動画を復元し悲しみを表現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

フレームワークがシャム自己教師学習を統合、清華大学とセンスタイムが効果的な勾配形式を提案

[[443228]]現在、自己教師あり学習は、手動によるラベル付けを必要とせずに強力な視覚特徴抽出機...

人工知能、垂直農法、ブロックチェーン、ロボットは、未来の農業の急速な発展を推進する4つの主要技術である。

これは日本の東京国際展示場にあるデンソーの双腕協働ロボットの写真です。写真提供:新華社記者 華毅国連...

AI導入で避けるべき5つの間違い

人工知能と機械学習は、ビジネスの成功にとって貴重な資産となるでしょう。 AI を実装することで、企業...

GenAI の成功への道における 10 の「落とし穴」

生成型人工知能 (GenAI) を実装したいですか? 朗報です! ほとんどの IT 意思決定者は、こ...