GTA5をプレイしていますか?インテルの新しいモデルは3Dレンダリングをリアルな画像に変換します

GTA5 は古典的な 3D アドベンチャーゲームであり、そのスタイルは次のとおりです。

写真は現実に近いですが、質感が少し欠けています...

最近、Intel の研究者が GTA の画質を向上させるパッチを作成しました。その効果を見てみましょう。

左は GTA の 3D レンダリング、右は Intel の新しいモデルによって生成された結果です。

効果は非常に良好です。画質が向上した次の写真では、さらに明らかです。モデルによって処理された写真は、実際のカメラで撮影されたように見えます。

3D レンダリングの分野では、リアルタイム性とリアリズムが 2 つの重要な要素です。フォトリアリスティックなレンダリングエンジンでは、1 つのフレームを処理するのに数分から数時間かかることもありますが、Intel の新しいシステムは、比較的高いフレームレートで画像を処理できます。そして研究者らは、ディープラーニングモデルをさらに最適化して、より高速に動作させる予定だと述べた。では、Intel はこの画像強化パッチをどのように実装するのでしょうか?具体的な技術的な詳細を見てみましょう。

論文の宛先:
https://arxiv.org/abs/2105.04619

プロジェクトアドレス:
https://github.com/intel-isl/フォトリアリズム強化

方法とアーキテクチャ

下の図に示すように、システムは相互接続された複数のニューラルネットワークで構成されています。

G バッファエンコーダーは、さまざまなレンダリングを一連のデジタル機能に変換します。複数の G バッファは、表面法線情報、深度、アルベド、光沢度、大気、およびオブジェクトセグメンテーションのレンダリングマップとして使用されます。システムのニューラルネットワークは畳み込み層を使用してこの情報を処理し、128 個の特徴のベクトルを出力します。これにより、画像強調ネットワークのパフォーマンスが向上し、他の同様の手法のようなアーティファクトが回避されます。 G バッファはゲームエンジンから直接取得できます。

画像拡張ネットワークは、ゲームのレンダリングされたフレームと G バッファエンコーダーからの機能を入力として受け取り、画像のリアルなバージョンを生成します。トレーニング中には、識別器と LPIPS 損失関数およびその他のコンポーネントが使用されます。研究者らは、生成された画像と元のゲームでレンダリングされたフレームとの一貫性を評価し、生成された画像のフォトリアリスティックな品質を実際の画像と比較することで、拡張ネットワークの出力を評価しました。

画像拡張の推論コスト

この技術が利用可能になった場合、ゲーマーはそれを自分のコンピューターで実行できるようになりますか?この質問を検討するには、まず推論コスト、つまりトレーニング済みモデルを実行するために必要なメモリと計算能力の量を計算する必要があります。推論コストの計算には G バッファエンコーダーと画像強調ネットワークのみが必要であり、識別器ネットワークは省略できます。

研究者らは論文の中で、強化されたネットワークは高解像度画像を処理するためのディープラーニングアーキテクチャであるHRNetV2に基づくニューラルネットワークであると紹介した。高解像度のニューラルネットワークでは、画像をダウンサンプリングするモデルよりも視覚的なアーティファクトが少なくなります。 HRNet は、異なる解像度で実行される複数のブランチを通じて画像を処理します。重要なのは、1 つの特徴ストリームが比較的高い解像度 (入力解像度の 1/4) を維持し、細かい画像構造を維持することです。

つまり、ゲームをフル HD (1920×1080) 解像度で実行すると、最上段のレイヤーは 480×270 ピクセルで入力を処理します。後続の行ごとに解像度は半分になります。研究者らは、G バッファエンコーダー (RAD レイヤー) からの入力を計算するために、ニューラルネットワーク内の各ブロックの構造を変更しました。

G バッファへの入力には、マテリアル情報のワンホットエンコーディング、法線、深度、色の密な連続値、ハローバッファとスカイバッファのスパースな連続情報が含まれます。さらに、このモデルは G バッファのサブセットでも良好なパフォーマンスを発揮します。

では、このモデルにはどれくらいのメモリが必要でしょうか?研究論文ではメモリサイズは指定されていませんが、HRNetV2 論文によると、完全なネットワークでは 1024×2048 の入力に対して 1.79 GB のメモリが必要になります。 Intel が使用する画像拡張ネットワークの入力サイズは小さくなりますが、RAD レイヤーと G バッファエンコーダーによって導入される追加のパラメータを考慮する必要があります。したがって、フル HD ゲーム用のディープラーニングベースの画像強化を実行するには少なくとも 1 GB のビデオメモリが必要であると仮定すると、4K 解像度が必要な場合は 2 GB を超えるメモリが必要になる可能性があります。

ゲーム用コンピュータには通常、4～8 GB の VRAM を搭載したグラフィックカードが搭載されているため、1 GB はそれほど大きな要求ではありません。 GeForce RTX シリーズのようなハイエンドグラフィックカードには、最大 24 GB の VRAM を搭載できます。

ただし、3D ゲームはグラフィックカードのリソースを大量に消費することにも留意する必要があります。ゲームは、レンダリングを高速化し、速度の大幅な低下を引き起こす可能性のある RAM と VRAM 間のスワップ操作を回避するために、できるだけ多くのデータをビデオメモリに保存します。 Grand Theft Auto V は、フル HD 解像度で最大 3.5 GB の VRAM を消費すると推定されます。サイバーパンク 2077 のような、より大規模な 3D ワールドとより詳細なグラフィックオブジェクトを備えた新しいゲームは、最大 7 ～ 8 GB の VRAM を簡単に占有し、より高い解像度でプレイする場合はさらに多くのメモリが必要になります。

つまり、基本的に、現在のミッドエンドからハイエンドのグラフィックカードでは、ユーザーは低解像度のハイリアリズムと高解像度の合成グラフィックのどちらかを選択する必要があります。ただし、メモリ使用量は、ディープラーニングベースの画像強化が直面する唯一の問題ではありません。

非線形処理による遅延

さらに大きな問題は、ディープラーニング操作の継続的かつ非線形な性質です。この問題を理解するために、まずディープラーニング推論を使用して 3D グラフィックスを比較します。 3D グラフィックスは多くの行列乗算に依存します。 3D グラフィックスのレンダリングフレームは頂点のセットから始まり、各頂点は、座標、色、マテリアル、法線方向など、3D オブジェクト上のポイントのプロパティを表す数値のセットで表されます。

各フレームをレンダリングする前に、頂点は一連の行列乗算を実行して、頂点のローカル座標をワールド座標、カメラ空間座標、および画像フレーム座標にマッピングする必要があります。インデックスバッファーは、頂点を 3 つのグループにまとめ、三角形を形成します。これらの三角形はラスタライズ（つまりピクセルに変換）され、その後、各ピクセルは独自のマトリックスセットを介して操作され、マテリアルの色、テクスチャ、反射と屈折のマップ、透明度レベルなどに基づいて色を決定します。

3D レンダリングパイプライン。画像ソース: LearnEveryone

特に今日の 3D ゲームは何百万ものポリゴンで構成されているため、これは大変な作業のように思えるかもしれません。実際に、コンピューターでゲームをプレイするときに非常に高いフレームレートを実現できる理由は 2 つあります。まず、グラフィックカードは並列行列乗算用に設計されています。せいぜい数十個のコンピューティングコアを持つ CPU とは異なり、GPU には数千個のコアがあり、各コアは独立して行列乗算を実行できます。

2 番目に、グラフィックスの変換はほとんどが線形であり、複数の線形変換をまとめることができます。たとえば、ワールド、ビュー、投影変換の 3 つの行列を乗算して、3 つの操作すべてを実行できる単一の行列を作成すると、操作数が 3 分の 2 に削減されます。

同様に、ディープラーニングも行列乗算に依存しています。各ニューラルネットワークは行列計算のレイヤーで構成されているため、ディープラーニングコミュニティではグラフィックカードがますます人気を集めています。

しかし、3D グラフィックスとは異なり、ディープラーニング操作を組み合わせることはできません。ニューラルネットワークのレイヤーは、複雑なタスクを実行するために非線形活性化関数に依存します。基本的に、これは複数のレイヤーの変換操作を 1 つの操作に凝縮できないことを意味します。

たとえば、100×100 ピクセルの画像 (10,000 個の特徴) を入力として受け取り、7 つのレイヤーを使用して画像を処理するディープニューラルネットワークを考えてみましょう。この時点で、数千のコアを持つグラフィックカードはすべてのピクセルを並列に処理できる可能性がありますが、7 層のニューラルネットワークの操作は依然として順次実行する必要があり、特にローエンドのグラフィックカードではリアルタイムの画像処理を提供することは困難です。

したがって、考慮しなければならないボトルネックは、必要な連続操作の数です。 Intel モデルの画像強化ネットワークの最上位層には、順番にリンクされた 16 個の残差ブロックがあります。各残差ブロックには、2 つの畳み込み層、RAD ブロック、および ReLU 演算が順番に接続されています。これは 96 層の順次操作に相当します。 G バッファエンコーダが特徴エンコーディングを出力するまで、画像強調ネットワークは動作を開始できません。したがって、最初の高解像度特徴セットを処理する残差ブロックを少なくとも 2 つ追加し、シーケンスにさらに 8 つのレイヤーを追加して、画像強化の操作数を少なくとも 108 レイヤーにする必要がありました。

このモデル用の Intel の画像拡張ネットワーク。

つまり、これらの操作を実行するには、メモリに加えて、高周波プロセッサも必要になります。 Intel の論文には、次のような興味深い記述がありました。「推論中に当社の方法を使用すると、最適化されていないアプリケーションキャラクターは GeForce RTX 3090 GPU で 0.5 秒かかります。」

RTX 3090 には 24 GB のビデオメモリが搭載されているため、レンダリングレートが 2 FPS と遅いのはメモリの制限によるものではなく、イメージエンハンサーネットワークのすべてのレイヤーを順番に処理するのにかかる時間によるものです。これは、メモリや CUDA コアを追加することで解決できる問題ではなく、プロセッサをより高速な周波数で実行することによってのみ解決できます。

論文には、「入力に使用される G バッファは GPU 上でローカルに生成されます。ゲームエンジンと深く統合すれば、私たちのアプローチはより効率的になり、よりリアルになる可能性があります」と書かれています。

画像エンハンサーネットワークをゲームエンジンに統合すると、処理速度がかなり向上する可能性がありますが、現時点ではまだプレイ可能なフレームレートを実現できないようです。

対照的に、HRNet の論文では、研究者がディープラーニングの推論とトレーニング専用に設計された高価なプロ仕様の GPU である NVIDIA V100 を使用したことがわかります。ゲーム内容の計算にメモリ制限などの障害がないため、V100の推論時間は入力ごとに150ミリ秒、約7fpsとなり、滑らかなゲーム映像を実現するには不十分です（ムービーは24フレーム、PS4の標準バージョンは30フレームです）。

ニューラルネットワークの開発とトレーニング

もうひとつの複雑な点は、画像強化のためのニューラルネットワークの開発とトレーニングにかかるコストです。ディープラーニング技術を導入したいゲーム企業は、データ、コンピューティングリソース、機械学習の人材という 3 つの大きな課題に直面することになります。

データセットの構築は大きな問題ですが、幸いなことに Intel はそれを解決する方法を見つけました。モデルをトレーニングする際には、ドイツの 50 都市の注釈付きストリートビュー画像 (合計 5,000 枚の細かくラベル付けされた画像) を収集した Cityscapes データセットを導入しました。データセットの論文によると、注釈付きの各画像には、画像に含まれるオブジェクトとその境界およびタイプを正確に指定するために、平均 1 時間半の手作業が必要です。これらのきめ細かい注釈により、画像エンハンサーはゲームグラフィックに正確なフォトリアリスティックなテクスチャをマッピングできるようになります。

Cityscapes は、政府の助成金、商業企業、学術機関からの強力なサポートの成果です。他の都市環境のゲームに適用すれば、良い結果が得られる可能性があります。

Cityscapes データセット内の人物と街路シーンのオブジェクトのきめ細かいセグメンテーション。

実験結果

研究者らは、この方法の生成効果を他のいくつかの画像変換モデルと比較し、その結果を次の表に示します。

サンプリング戦略、G バッファの役割など、この方法のいくつかの特定の設計アイデアの影響を評価するために、制御実験が実施されました。実験結果を次の表に示します。

さらに、他のモデルと比較して、Intel の新しいモデルは視覚効果の面で大きな利点があります。たとえば、CUT モデルによって生成された画像にはいくつかのアーティファクトがありますが、Intel の新しいモデルはより小さなタイルでサンプリングするため、ソースデータセットとターゲットデータセットの不一致が減り、アーティファクトの問題を回避できます。

‍

他のゲームへの展開

トゥームレイダーを現実にしたいと思ったらどうしますか?この場合、ゲーム開発者は画像を自ら収集してラベル付けする必要があるかもしれません。

コンピューティングリソースも課題となります。画像強化のためのニューラルネットワークのトレーニングに数千ドルを費やすことは許容範囲であり、大規模なゲーム会社にとっては問題ではありません。しかし、フォトリアリスティックな画像拡張などの生成的な処理を実行したい場合、トレーニングは困難になります。ハイパーパラメータを何度もテストして調整し、多くのステップでトレーニングする必要があり、コストが急増します。 Intel は GTA 5 用にモデルをトレーニングしており、他のゲーム会社もさまざまなゲームでこの経験から学び、コストを削減できる可能性があります。しかし、タイプが大きく異なるゲームの場合は、最初からトレーニングを開始するしかありません。 Intel のディープラーニングモデルは、物体と人が明確に区別されている都市環境に適しています。しかし、森林や洞窟などの自然環境では状況が異なる可能性があります。

ほとんどのゲーム会社にはまだ機械学習エンジニアがいないため、優秀な人材を採用するか、その作業を外注する必要があります。また、たとえそうしたとしても、「リアルなグラフィック」がより良いゲーム体験につながるという100%の保証はありません。

Intel のリアルな画像強化技術は、機械学習アルゴリズムの新しい応用方向を示していますが、コンピューティング能力、ゲーム会社の準備が整い、プレイヤーがそれを真に受け入れるまで、実際に実装されるまでにはしばらく時間がかかるかもしれません。

<<: スマートフォンを使用して、物体検出と同等の速度で、画像上にリアルタイムで直線を描くことができます。オンラインデモをご利用いただけます

>>: テクノロジーの専門家が若者と対談、第1回JD全国大学生アルゴリズム設計・プログラミングエリート競技会セミナーが開催されました