10億ピクセル画像のマルチスケール特性評価のためのスタンフォード大学の新しいニューラルシーン表現方法がSIGGRAPHに選出されました

現在、ニューラル表現は、レンダリング、イメージング、幾何学モデリング、シミュレーションアプリケーションの新しいパラダイムとなっています。メッシュ、ポイントクラウド、ボリュームメッシュなどの従来の表現と比較して、ニューラル表現は、微分可能な学習ベースのパイプラインに柔軟に組み込むことができます。ニューラル表現の最近の進歩により、画像や 3D 形状などの詳細が豊富な信号を中程度の解像度で表現できるようになりましたが、大規模または複雑なシーンを適切に表現することは依然として課題となっています。

既存のニューラル表現では、100 万ピクセルを超える解像度の画像や、数十万のポリゴンで構成された 3D シーンを正確に表現することはできません。

スタンフォード大学の最近の研究が解決策を示しています。彼らは、トレーニングと推論中に信号のローカルな複雑さに応じてリソースを適応的に割り当てることができる、新しい暗黙的・明示的ハイブリッドネットワークアーキテクチャと対応するトレーニング戦略を提案しました。彼らは、ニューラルシーン表現のためのこの適応座標ネットワークを Acorn と呼びました。

この方法では、トレーニング中に改良される、四分木や八分木に似たマルチスケールのブロック座標分解を使用します。具体的には、ネットワークアーキテクチャは 2 つの段階に分かれています。まず、座標エンコーダーが多数のネットワークパラメーターを使用して単一のフォワードパスでグリッド機能を生成します。次に、各ブロック内の数百または数千のサンプルが軽量機能デコーダーによって効率的に評価されます。

プロジェクトのホームページ:
https://www.computationalimaging.org/publications/acorn/

論文の宛先:
出典: http://arxiv.org/pdf/2105.02788.pdf

研究者たちは、このハイブリッド暗黙的・明示的ネットワークアーキテクチャを使用して、1 ギガピクセルの画像をピーク信号対雑音比約 40dB に適合させる能力を初めて実証しました。注目すべきは、これは以前の画像フィッティング実験で実証された解像度と比較して、スケールが 1000 倍以上増加していることを意味します。さらに、研究者らの手法では、3D 形状を以前よりも高速かつ正確に表現できるため、トレーニング時間が数日から数時間または数分に短縮され、メモリ要件が少なくとも 1 桁削減されます。

Acorn の実際の表現効果は、次のアニメーションで示されています。最初は 10 億ピクセルの 2D 東京都市画像です。

2つ目は、3Dレリーフの再構築表示効果です。

‍

マルチスケール座標ネットワーク

研究者らが提案したマルチスケール表現ネットワークは、マルチスケールブロックパラメータ化（ローカル信号の複雑さに基づいて入力空間を分割する）と、座標エンコーダーと特徴デコーダー（入力空間とスケール座標を出力値に効率的にマッピングする役割を担う）で構成されるネットワークアーキテクチャーという2つの主要コンポーネントで構成されています。

マルチスケールブロックパラメータ化

マルチスケールブロックパラメータ化の中核は、入力ドメインのツリーベースの分割です。具体的には、研究者は 2 次元の四分木または 3 次元の八分木を使用してドメインを分割し、ツリーの最適なスケールと最大深度を決定します (下の図 3 を参照)。

従来のマルチスケール分解方法では、入力ドメイン内の各値は、画像ピラミッド内の各ピクセルなど、複数のスケールで表現されます。対照的に、私たちのアプローチでは、空間を分割して各入力値を単一のスケールで表します。

ニューラルネットワークアーキテクチャ

マルチスケール表現ネットワークの座標エンコーダは次のように定義されます。

連続したローカル座標 X_1 が与えられた場合、特徴ベクトルは次のように抽出されます。

この 2 段階アーキテクチャの主な利点は、同じブロック内の複数の座標を評価する計算オーバーヘッドが大幅に削減されることです。もう 1 つの利点は、特徴ネットワークを空間的な場所やスケールにまたがる反復構造を持つ信号で再利用できるため、ネットワークパフォーマンスを向上できることです。

オンラインマルチスケール分解

研究者らは、対象信号に合わせてネットワークリソースを適応的に割り当てることができる新しい自動分解方法を提案しました。この方法は、シミュレーション技術における適応メッシュ改良法と有限要素ソルバーからヒントを得ています。これらの有限要素ソルバーは、最適化プロセス中に細分化または粗大化を実行して、計算オーバーヘッドを最小限に抑えながらソリューションの精度を向上させます。

剪定

マルチスケールネットワーク内の領域全体で同じ値を学習しないように、ブロックがそれ以上分解できなくなるまでパーティションからブロックを削除し、その値をルックアップテーブルに設定します。また、ブロックはアクティブではなくなったため、式（８）の制約を緩和することでパーティション内のスペースを解放することができる。

ブロック B_i を刈り込むかどうかの決定については、研究者らは、実際の操作では、誤差が低く、分散が低いという 2 つの条件が満たされていればうまく実行できることを発見しました。

1ギガピクセル画像の特徴

研究者らはまず、1ギガピクセルの画像を表現する際のAcornのパフォーマンスを評価した。これまでのニューラル画像表現法では解像度が 100 万ピクセル未満に制限されていましたが、この研究では 6,400 万ピクセルと 10 億ピクセルを選択し、これまでの方法をはるかに上回る解像度を実現しました。

具体的には、2 つの大規模な画像をフィッティングすることで Acorn のパフォーマンスを実証します。下の図 2 に示すように、最初の画像はニューホライズンズ宇宙探査機が撮影した冥王星の画像です。解像度は 8,192×8,192 で、さまざまなスケールの特徴を備えているため、マルチスケール特性評価に最適な実験対象となっています。

結果は、本研究のリソース割り当て戦略を使用して最適化された適応メッシュが、大幅に小さいブロックを使用して豊富な詳細を表現できることを示しています。クレーターを例にとると、広大で大きな均一領域をより小さなスケールで表現できます。

2 つ目は、19,456×51,200 の解像度で東京市を 10 億ピクセルで撮影した画像です。これは、最近のニューラル画像表現で使用される画像の解像度よりも約 3 桁高いものです。

同様に、研究者たちはさまざまなスケールの画像で豊富な詳細を捉えました。

全体として、Acorn は大規模な 2D 画像を柔軟に表現できるように拡張できるため、トレーニング速度、パフォーマンス、およびタスクへの全体的な適用性が大幅に向上します。

複雑な3Dシーンの表現

この研究で提案されたマルチスケール表現は、2D 画像に加えて、複雑な 3D シーンの表現にも十分に一般化できます。

下の図 5 に示すように、Acorn は Conv. Occ. や SIREN などの従来の方法と比較して、複雑な形状をより正確に表現できます。質的には、絡み合ったレリーフやしっかりと絡み合ったスプリングなどの豊富な詳細を表現する点で、Acorn はこれらの方法よりも強力です。量的には、Acorn はボリューム容量とメッシュ精度の両方ですべてのベースライン方法よりも優れています。

最後に、Acorn は、以前のニューラル表現方法と比較して、計算効率の大幅な向上も実現します。このアプローチでは、サンプリングポイント間で計算を共有することで、モデルのトレーニングとクエリに必要なメモリと時間のオーバーヘッドが大幅に削減されます。

<<: 将来的には映画の吹き替えにも人工知能が使われるようになるのでしょうか？

>>: 筋肉の震えもはっきりと見えます！ 3D人体モデル自動生成アルゴリズム、第一著者北京大学チューリングクラス