1新しいインテリジェンス集 出典: arXiv、Github 張毅編纂 [新しいインテリジェンスの紹介]自動画像補完は、何十年もの間、コンピュータービジョンとグラフィックスの分野における研究のホットスポットであり、困難な課題でした。バークレー、アドビ、その他の機関の研究者は、ニューラル ネットワークの助けを借りて、組み合わせ最適化や同様のスタイル転送手法を使用して、これまでの技術的限界を打ち破り、超リアルな「0 から 1」の画像生成に成功しました。コードは Github でオープンソースとして公開されています。 PSを完全に上回ります!新しい方法で完璧な「脳サプリメント」を実現 写真を共有する前に、シーンの邪魔になる要素を消去したり、画像内のオブジェクトの位置を調整して構図を改善したり、隠れた領域を復元したりするなどの編集を行う必要がある場合があります。 これらの操作、および他の多くの編集操作には、自動穴埋め(画像補完)が必要です。これは、過去数十年にわたってコンピューター ビジョンとグラフィックスの分野で注目されている研究トピックです。自然画像には固有の曖昧さと複雑さがあるため、全体的な塗りつぶしは長い間難しい問題でした。 しかし、現在では、下の写真からもわかるように、この問題はようやく改善されました。 この新しい研究の主な貢献は次のとおりです。
既存の手法の限界を克服し、ディープラーニングスタイルトランスファーでリアルなディテールを合成 この研究結果については後ほど詳しく説明します。その前に、いくつかの背景知識を補足する必要があります。 穴埋め問題を解決するための既存のアプローチは、2 つのグループに分けられます。最初のグループの方法は、周囲の領域のテクスチャを拡張してギャップを埋めるテクスチャ合成技術に依存しています。これらの技術に共通するのは、同様のテクスチャのパッチを使用して、穴の内容を粗いものから細かいものへと合成することです。場合によっては、より一致するパッチを見つけるために、複数のスケールと方向が導入されることがあります。 Barnes ら (2009) は、高速な近似最近傍パッチ検索アルゴリズムである PatchMatch を提案しました。 このような方法は、高周波のテクスチャの詳細を伝えるのには役立ちますが、画像の意味や全体的な構造を捉えることはできません。 2 番目のグループの方法は、大規模な外部データベースを活用して、データ駆動型の方法で欠落している画像領域を見つけます。これらの方法では、類似したコンテキストに囲まれた領域は類似したコンテンツを持つ可能性が高いと想定しています。このアプローチは、クエリ画像と十分な視覚的類似性を持つ画像サンプルが見つかる場合には非常にうまく機能しますが、クエリ画像がデータベース内で適切に表現されていない場合には失敗する可能性があります。さらに、このようなアプローチでは外部データベースへのアクセスが必要となり、可能なアプリケーション シナリオが大幅に制限されます。 最近、ディープニューラルネットワークはテクスチャ合成や画像の様式化に使用されています。特に、Phatak ら (2016) は、複合敵対的損失を使用してエンコーダー/デコーダー CNN (コンテキスト エンコーダー) をトレーニングし、欠落している画像領域を直接予測しました。この作業は、合理的な画像構造を予測することができ、穴領域の予測が単一のフォワードパスで実行されるため、評価が非常に高速です。結果は有望ですが、このアプローチによる修復結果では細かいテクスチャの詳細が欠け、空の領域の境界の周りに目に見えるアーティファクトが生成されることがあります。 このアプローチでは、入力が大きい場合に敵対的損失によるトレーニングが困難になるため、高解像度の画像を処理することもできません。 最近の研究では、Li と Wand (2016) は、中間層のニューラル応答がコンテンツ画像に類似し、基礎となるボリュームのローカル応答がスタイル画像のローカル応答を模倣する画像を最適化することで、リアルな画像様式化結果を達成できることを示しました。これらの局所的な反応は、小さな(通常は 3×3)ニューラル パッチによって表されます。 私たちのアプローチは、スタイル画像からコンテンツ画像に高周波の詳細を転送する能力を実証しており、したがって実用的な転送タスク(顔や車の外観の転送など)に適しています。それでも、ニューラル応答グラムマトリックスを使用することで、より芸術的なスタイルをより適切に転送できます。 さて、いよいよ主人公が登場します - 上記の方法の限界を克服するために、バークレー、Adobe、Pinscreen、および USC クリエイティブ テクノロジー研究所の研究者は、エンコーダー/デコーダー CNN の構造化予測とニューラル パッチのパワーを活用してリアルな高周波詳細をうまく合成するハイブリッド最適化方法 (共同最適化) を提案しました。スタイル転送と同様に、彼らの方法は、エンコーダーとデコーダーの予測をグローバルなコンテンツ制約として使用し、穴と既知の領域間のローカルなニューラル パッチの類似性をスタイル制約として使用します。 具体的には、中間層(事前トレーニング済みの分類ネットワークを使用)のパッチ応答を使用して、Context Encoder に似たグローバル コンテンツ予測ネットワークをトレーニングすることでコンテンツ制約を構築し、穴を囲む画像コンテンツを使用してテクスチャ制約をモデル化できます。これら 2 つの制約は、限られたストレージで BFGS のバックプロパゲーション アルゴリズムを使用して効率的に最適化できます。 「提案されたマルチスケールニューラルパッチ合成法は、構造とテクスチャの詳細を維持しながら、より現実的で一貫性のある結果を生成できることを実験的に実証しました」と著者らは論文に記しています。「図1に示すように、2つの公開データセットで提案された方法を定量的および定性的に評価し、さまざまなベースラインと最先端の技術に対する有効性を実証しました。」 図 1: 穴 (256×256) のある画像 (512×512) が与えられた場合、当社のアルゴリズムはより鮮明で一貫性のある穴のコンテンツを合成できます (d)。 Context Encoders (b) と PatchMatch (c) を使用して生成された結果を比較できます。 具体的な方法 大きな穴のある高解像度画像をさらに処理するために、著者らはマルチスケールニューラルパッチ合成法を提案した。式を簡略化するために、テスト画像は常に中央に 256×256 の穴が開いて 512×512 にトリミングされていると仮定します。次に、ストライドが 2 の 3 レベルのピラミッドを作成し、各レベルで画像を半分に縮小します。 64×64 の穴を持つ 128×128 の最小解像度でレンダリングされます。次に、粗いものから細かいものへと順番に穴埋め作業を実行します。最下位レベルのコンテンツ予測ネットワークの出力を初期化し、各スケールで(1)ジョイント最適化を実行してホールを更新し、(2)アップサンプリングしてジョイント最適化を初期化し、次のスケールのコンテンツ制約を設定します。最後に、このステップは、最高の解像度で共同最適化が完了するまで繰り返されます。 フレームワークの概要 私たちは、グローバル コンテンツ項、ローカル テクスチャ項、および TV 損失項の 3 つの項の組み合わせとして表現される損失関数を最適化する画像の修復を目指します。 コンテンツ用語は、画像の意味とグローバル構造を捉えるグローバル構造制約であり、ローカル用語は、既知の領域と一致するようにローカルテクスチャを再定義します。 コンテンツとテクスチャの両方の用語は、固定パラメータを持つ事前トレーニング済みのネットワークを使用して計算されます。 図 2. フレームワークの概要。私たちの方法では、グローバル コンテンツ損失とローカル テクスチャ損失という 2 つの結合損失関数を使用して未知の画像を解決します。全体的なコンテンツ損失は、事前にトレーニングされたコンテンツ予測ネットワークに画像を入力し、その出力を推論 (参照) コンテンツ予測と比較することによって導出されます。 ローカル テクスチャ損失は、x を事前トレーニング済みのネットワーク (テクスチャ ネットワークと呼ばれる) に入力し、その特徴マップ上のローカル ニューラル パッチを比較することによって導出されます。 高解像度画像復元アルゴリズム 穴のある高解像度の画像が与えられた場合、スケールの数 S を持つマルチスケール入力を生成します。 s = 1 は最も粗いスケールであり、s = S は入力画像の元の解像度です。この最適化は反復的なマルチスケール方式で実行します。 まず、入力を粗いスケールに縮小し、コンテンツへの参照を計算します。実際には、新しいスケールにアップサンプリングするときに、幅と高さを 2 倍にします。 各スケールで、式 1 に従って更新し、アップサンプルによって最適化の初期化を設定し、アップサンプルによってスケールでのコンテンツ参照を設定します。このようにして、高解像度の修復結果を繰り返し達成します。アルゴリズム 1 はアルゴリズムの要約です。 実験手順 データセット 私たちは、Paris StreetView と ImageNet という 2 つの異なるデータセットで提案手法を評価しました。 これらの画像に関連付けられたタグやその他の情報は使用されません。 Paris StreetView には、14,900 枚のトレーニング画像と 100 枚のテスト画像が含まれています。 ImageNet には 1,260,000 枚のトレーニング画像と、検証セットからランダムに選択された 200 枚のテスト画像があります。 また、実際の妨害物除去シナリオでアルゴリズムをテストするために、妨害物を含む 20 枚の画像を選択しました。 定量的な比較 まず、低解像度画像 (128×128) の Paris StreetView データセットで、当社の手法とベースライン手法を定量的に比較します。表 1 の結果は、当社の方法が最高の数値性能を達成したことを示しています。これは私たちのアプローチの性質によるものと考えています。PatchMatch と比較すると、画像の正しい構造を推測することができ、Context Encoder と比較すると、既知の領域からテクスチャの詳細を転送することができます。 (図 3) PatchMatch よりも優れた結果は、コンテンツ ネットワークが妥当な構造を予測するのに役立つことを示しています。コンテキスト エンコーダーを上回る当社の結果は、テクスチャ ネットワークによって実行されるニューラル パッチ合成アプローチの有効性を実証しています。 表 1: パリ ストリートビュー データセットの数値比較。 PSNR 値が高いほど良いです。 図 3: コンテキスト エンコーダー (損失)、コンテキスト エンコーダー (敵対的損失)、および PatchMatch の比較。境界から穴の領域にテクスチャを転送する場合、私たちの方法はコンテキスト エンコーダー (損失と敵対的損失の両方を使用する) よりも優れたパフォーマンスを発揮します。正しい構造を推論する場合、当社の方法は PatchMatch よりも優れたパフォーマンスを発揮します。 シンジケーション最適化におけるコンテンツ ネットワークの役割。コンテンツ制約ありとなしの修復結果を比較します。図 4 に示すように、コンテンツ項目を使用して最適化をガイドしないと、修復結果の構造が間違ってしまいます。 図 4: (a) は元の入力、(b) はコンテンツ制約を使用せずに修復した結果、(c) は私たちの結果です。 高解像度画像復元 図 5 は ImageNet データセットの比較結果を示しています。上から下へ: 元の入力、PatchMatch、Context Encoder (両方と敵対的損失を使用)、結果。すべての画像の解像度は 512×512 です (この記事に収まるように縮小されています)。 図 6 は、パリ ストリートビュー データセットの比較結果を示しています。上から下へ: 元の入力、PatchMatch、Context Encoder (両方と敵対的損失を使用)、結果。すべての画像の解像度は 512×512 です (この記事に収まるように縮小されています)。 現実世界の妨害物除去シナリオ 最後に、私たちのアルゴリズムは、任意の形状の穴を処理するように簡単に拡張できます。 これは、穴の周囲の境界の四角形を推定し、その穴を平均ピクセル値で埋め、四角形の境界ボックスが入力の中央にくるように画像を切り取って入力を形成し、入力をコンテンツ ネットワーク入力のサイズに変更することによって行われます。次に、トレーニングされたコンテンツ ネットワークを使用してフォワード パスを実行します。共同最適化では、テクスチャ ネットワークには自然界の穴の形状と位置に対する制限はありません。これは、コンテンツとテクスチャ項目を分離することによる追加の利点です。 Context Encoder は正方形の穴に限定されているため、図 7 に PatchMatch との比較結果を示します。図に示すように、私たちが提案する共同最適化手法は構造をより正確に予測し、明確で現実的な結果を提供します。 図 7: ランダムオブジェクトの削除。左から右へ: 元の入力、オブジェクトの遮蔽、PatchMatch の結果、私たちの結果。 結論は 著者らは、ニューラル パッチ合成を使用したセマンティック修復の最先端技術を進歩させました。コンテンツ ネットワークがセマンティクスとグローバル構造に関する強力な事前情報を提供する場合、テクスチャ ネットワークは高頻度の詳細を生成するのに非常に強力であることがわかります。複雑なシーンの場合、この新しい方法では不連続性や現実に反する画像が生成されることがあります (図 8)。さらに、このアルゴリズムのボトルネックは依然として速度です。研究者たちは今後の研究でこれらの問題に取り組むことを目指している。 図 8: これらは、共同最適化方法が失敗した 2 つの例です。 論文: マルチスケールニューラルパッチ合成を使用した高解像度画像の修復 まとめ ディープラーニングの最近の進歩により、自然画像内の大きな穴を意味的に妥当でコンテキストを考慮した詳細で埋められるようになり、オブジェクトの削除などの基本的な画像処理タスクに影響を与えています。これらの学習ベースの方法は、高レベルの特徴を捉える上で既存の技術よりもはるかに効果的ですが、メモリの制限とトレーニングの難しさにより、非常に低解像度の入力しか処理できません。少し大きめの画像でも、修復した部分がぼやけて見え、不快な境界が目立ってしまいます。私たちは、画像コンテンツとスタイル制約の共同最適化に基づくマルチスケールニューラルパッチ合成法を提案します。この方法は、コンテキスト構造を保持するだけでなく、深層分類ネットワークと同様の中間レベルのプロパティを持つパッチをマッチングおよび適応させることで、高頻度の詳細を生成します。私たちは、ImageNet と Paris Streetview データセットでこの方法を評価し、最先端の修復精度を達成しました。私たちのアプローチは、特に高解像度の画像の場合、従来の方法に比べてより明確で一貫性のある結果を生み出すことを示しています。 論文アドレス: https://arxiv.org/pdf/1611.09969.pdf Github コード: https://github.com/leehomyc/High-Res-Neural-Inpainting |
<<: 人工ニューラルネットワークは、体型を崩すことなく、一瞬で老けたり若返ったりすることができる
>>: 畳み込みニューラルネットワークの父:人工知能が動画から常識を学ぶための次のステップ
データセットをトレーニング セットに分割すると、モデルを理解するのに役立ちます。これは、モデルが新し...
ドローン航空調査は、無線遠隔制御装置と自己完結型プログラム制御装置によって制御される無人航空機であり...
電子コンピュータは 1940 年代に発明され、登場から 10 年以内に人類史上初の AI アプリケー...
4月7日、権威あるAIベンチマーク評価組織MLPerfが最新の推論パフォーマンスリストを公開した。 ...
[中国、深セン、2020年8月10日] ファーウェイは本日、深センで開催されたAscend AI ...
[[361283]]画像ソース: https://pixabay.com/images/id-477...
12月1日、アリババクラウド同義千文の720億パラメータモデルQwen-72Bがオープンソース化され...
ノアとシャオウが編集制作:51CTO テクノロジースタック(WeChat ID:blog)昨日、テク...
時代の発展は常に要求と矛盾の中で発展しています。あらゆる産業革命は発展の力をもたらすだけでなく、大き...
TL;DR — 優れた機械学習アプリケーションを構築することは、ミシュランの星を獲得した料理を作るよ...