AIが髪の毛に至るまで肖像画を生成！北京大学卒業生の最新研究が2.8千個の星を獲得

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「思考がずれない限り、問題よりも解決策の方が常に多くあります。とても簡単です！」

ついに労働者の一日が終わります！疲れた体を引きずりながら仕事を終えようとしていたとき、同僚のシャオ・アがまだ私を励ます声が聞こえた。

彼はすぐにパソコンの電源を入れ、Baidu、Zhihu、Douban、Weibo、WeChatを開いた...

全員が同じ行を入力しました: 肖像画の描画に関する簡単なチュートリアル…

彼は何か驚くべきことをするだろうと思ったよ！彼は女神グルナザールの肖像画を描きたかったことが判明しました。

[[354495]]

若者は若者であり、まだスターを追いかけるエネルギーを持っています。

しかし、私が去る前に、彼は泣き始めました - 「諦める覚悟がある限り、この世で難しいことは何もありません」、すごい！

それは彼にとって難しいことだ。私は芸術的才能のない理工系の人間です。絵画を学んだことも、絵を描いたこともありません。今、女神の肖像画を描きたいと思っています。この美しい髪を見てください。初心者には描くのは不可能です。

「これは決して簡単なチュートリアルではありません。構成、線画、整形...本当に圧倒的で、結果はこのようになっています。」

リトルAの支離滅裂な愚痴を聞いていると、当時の自分を思い出さずにはいられませんでした。私も、科学や工学に疎い人間だったので、同じような愚かなことをしていたのです。

「写真を入力するだけで1秒で画像を生成できるアプリがたくさんあるのをご存知ですか？」と、思わず言ってしまいました。

リトルAはびっくりしました。

「しかし、あなたの要求はかなり高いようですね。それでは、ハイエンドのアーティファクトをお勧めしましょう。」私はすぐに彼にサンプル写真を送りました:

（なぜそんなに早かったのか聞かないでください。答えは計画的だったということです）[ちょっと考えてみましょう]

「まず全体の感じを見てください、芸術的な雰囲気があなたの顔に吹き込まれていませんか？次に表情を見てください、わずかなしかめっ面さえも捉えることができます、そして次に髪の毛を見てください、太くて柔らかくて自然で、一本一本がはっきりと区別されていて、一目見て明らかにプロフェッショナルです.....%￥#%@#」、無意識のうちにまたセールスマンの本性をさらけ出しています...

「すごい、すごい、とてもすごい！一言で言えば、これは何の魔法の武器ですか？」

「このAIツールをお送りします...%￥#%@#、これは北京大学で開発されたものです...」

彼が言葉を終える前に、シャオ・アは結果の写真を私に送ってきました。

「すごい、こんなに簡単だとは思わなかったよ！」彼はそう言って、パソコンを閉じ、ランドセルにしまい、コートを着て、玄関まで大股で歩いていった。この速さは、私がいつも仕事を終える速さとよく似ていた...

最後に、彼女は振り返って私にたくさんの小さなハートをくれました...

私はびっくりしました。「私が先に行かなきゃダメなの？」「待って、まだ話が終わってないよ！」

「忘れてください。この授業を離れるつもりはありません。」

彼だけでなく、皆さんもこの AI ツールの原理に非常に興味を持っているはずなので、詳しく紹介したいと思います。

北京大学卒業生が制作：顕著な物体検出ツール

このAIツールは^U∧2 -Net（ユースクエアネット）と呼ばれており、最近大人気になっています！

GitHub のホットリストに載り、2.8k 個のスターを獲得しただけでなく、トップカンファレンス ICPR 2020 でも選ばれました。さらに重要なのは、この研究の第一著者が北京大学の卒業生である秦学斌氏であることだ。

[[354499]]

多くの開発者の友人はこの名前をよく知っていると思います。彼は以前、境界認識型顕著物体検出ネットワークBASNetを提案しました。これは、「空中でのコピー＆ペースト」などの多くの興味深いツールの作成に使用されました。ARカット＆ペースト

[[354500]]

https://twitter.com/cyrildiagne/status/1256916982764646402

携帯電話でスキャンするだけで、本、植木鉢、雑誌の登場人物など、目に見えるあらゆる実際の物体をわずか 10 秒でコンピューターに「貼り付け」ることができます。

この研究は、わずか数時間で Reddit で約 5,000 件の「いいね！」を獲得し、それ以来 500 万回以上の閲覧回数を記録しています。

秦雪斌氏は以前北京大学で修士号を取得し、現在はカナダのアルバータ大学で博士課程に在籍しています。彼はコンピュータービジョン技術、特に物体検出に非常に興味を持っています。最近リリースされた U^2-Net ディープネットワークアーキテクチャもターゲット検出ツールです。

以前の BASNet ネットワークは「コピーアンドペースト」テストに使用され、うまく機能しました。今回、U^2-Net を使ってポートレート生成のテストを行ったところ、結果も非常に好評でした。

毛の細部まで生成する効果を体感してみましょう。

物体検出は、コンピュータービジョンとデジタル画像処理の重要な分野です。ターゲットの動きのコンピュータービジョン分析は、画像分割、ターゲット検出、ターゲット追跡、ターゲット認識と説明の 3 つのレベルに大まかに分けられます。その中でも、ターゲット検出は最も基本的かつ重要なリンクです。

ディープラーニングの三大巨頭であるヒントン、ベンジオ、ルカンが2006年に畳み込みニューラルネットワーク（CNN）を提案し、画像処理に応用して以来、物体検出技術は大幅に向上し、特に完全畳み込みニューラルネットワーク（FCN）の導入により、物体検出タスクは徐々に最適なSOATに到達しました。

今年の MICCAI 2020 (国際医用画像コンピューティングおよびコンピューター介入) カンファレンスにおいて、U^2-Net は優れたパフォーマンスにより、甲状腺結節セグメンテーションコンテストで 6 位を獲得しました。

次に、これがどのように行われるかについて説明します。

あらゆる AI 処理プロセスは、入力ターゲット、モデルのトレーニング、出力結果の 3 つの段階に分かれています。高品質な生成結果を得るためには、モデルの精度をテストすることに加え、入力ソースも重要です。これも私たちがコントロールできるものです。

U^2-Net では、高画質の写真ソースの方がより詳細な情報が得られるため、写真をアップロードする際には以下の点に注意してください。

写真の頭部の領域は 512 x 512 ピクセルに近いかそれより大きくする必要があります。
写真の全体的なサイズは、960 x 1280 ピクセルが望ましいです。
背景はできる限り明瞭で、邪魔になるものがないようにする必要があります。

写真の通り、秦雪斌氏も自ら実演し、説明してくれました。

次は最も重要なオブジェクト検出モデル (SOD) です。

U ^∧ 2-ネットモデル: ネストされた2層のU字型構造

まず、現在入手可能な最も先進的な SOD モデルとの比較を見てみましょう。

赤い星は U ^∧ 2 モデル (176.3 MB) を表し、比較的小さなモデルサイズで最高のパフォーマンスを示しています。（青い星は^U∧2の4.7MBです）

このパフォーマンスが実現されるのは、U ^∧ 2 が 2 層のネストされた U 字型構造を持ち、ReSidual U-Block (RSU) が異なるサイズの受容野を混合し、異なるスケールからより多くのコンテキスト情報を取得できるためです。さらに、これらの RSU ブロックで使用されるプーリング操作により、計算コストを大幅に増加させることなく、より詳細な情報を詳細に取得できます。

最も重要なのは、このアーキテクチャにより、画像分類タスク用のアーキテクチャを使用せずに、モデルがディープネットワークを最初からトレーニングできるようになることです。

現在のほとんどの SOD ネットワーク設計には問題があります。それは、Alexnet、VGG、ResNet、ResNeXt、DenseNet などの既存の基本ネットワークを使用して深い特徴を抽出することに重点を置いていることです。しかし、これらのバックボーンネットワークは、もともと画像分類タスク用に設計されました。

これらは、顕著なオブジェクトの検出に不可欠なローカルの詳細やグローバルなコントラスト情報ではなく、意味的な意味を表す特徴を抽出します。これらのネットワークは通常、ImageNet データで事前トレーニングする必要があり、比較的非効率的です。対照的に、U∧2-Net は上記の問題を効果的に回避できます。

U ^∧ 2-ネットアーキテクチャ

次に、ブロック構造、ネットワーク監視戦略、トレーニング損失について詳しく紹介します。

残留Uブロック

画像情報抽出では、小さな 1×1 または 3×3 畳み込みフィルターが最も一般的に使用される特徴抽出要素です。必要なメモリが少なく、計算効率が高いためです。ただし、このコンポーネントの受容野はグローバルな情報を取得するには小さすぎるため、唯一の解決策は、拡張畳み込み法を使用して受容野を拡張することです。

ただし、元の解像度の特徴マップに対して複数の拡張畳み込みを実行すると (特に初期段階では)、大量の計算リソースとメモリリソースが消費されます。

グローバルな情報を取得しながら計算コストを削減するために、研究者はピラミッドプーリングモジュール (Pyramid Scene Parseing Network、PSPNet) を使用しました。このモジュールは、元のサイズの特徴マップに対して拡張畳み込みを使用する代わりに、ダウンサンプリングされた特徴マップに対して小さなカーネルフィルターを使用します。

ただし、直接アップサンプリングとカスケードによって異なるスケールの特徴を融合すると、高解像度の特徴が劣化する可能性があります。そこで、U 字型のネットワーク構造にヒントを得て、研究者らはステージ内のマルチスケールの特徴を捉える新しい ReSidual U ブロック (RSU) を提案しました。図に示すように:

テストデータから判断すると、RSU 計算のオーバーヘッドは確かに比較的小さいです。 PLN（通常畳み込みブロック）、RES（残差ブロック）、DSE（密ブロック）、INC（初期化ブロック）と比較すると、消費されるGFLOPS数が最も少なくなります。 (GFLOPS は、正式名称を Giga Floating-point Operations Per Second といい、1 秒あたり 10 億回の浮動小数点演算を意味し、GPU のパフォーマンスパラメータとしてよく使用されます)。

監督戦略

訓練中、研究者らはHEDに似た深い監督を採用した。

その中で、トレーニング損失は次のように定義されます。

各項 L は標準的なバイナリクロスエントロピーを使用して損失を計算します。

トレーニングプロセス中、式(1)は全体的な損失を最小化し、テストプロセス中、融合出力_lfuseが最終的なサリエンシーマップとして選択される。

比較実験: フルスケールでの最高の SOTA

論文では、研究者らはU2モデルを20以上の既存の最先端モデルと比較した。

このうち、各モデルが使用するトレーニングデータセットは、10,553枚の画像を含み、現在ターゲット検出に最大かつ最も一般的に使用されているデータセットであるDUTS-TRです。使用されるベンチマークデータセットは、DUT-OMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S、およびSODです。

まず定性的な比較の結果を見てみましょう。

赤、緑、青はそれぞれ最高、2番目、3番目のパフォーマンスを示します。

表3と表4から、 ^U∧2 -NetはDUT-OMRON、HKU-IS、ECSSDの3つのベンチマークデータセットで大きな進歩を示し、5つの評価指標すべてが最高のSOTAに到達したことがわかります。

その中で、DUTS-TE では、U ^∧ 2-Net の総合的なパフォーマンスは PoolNet に次ぐものであり、PASCAL-S では、U ^∧ 2-Net のパフォーマンスは AFNet、CPD、PoolNet よりわずかに低いだけです。また、境界品質評価指標（RelaxF ^b _β ）では、 ^U∧2 -Netは2位にランクされています。

SOD データセットでは、全体的なパフォーマンスの点では、U ^∧ 2-Net は PoolNet に次ぐ 2 位です。さらに重要なのは、 ^U∧2 -Net モデルのサイズはわずか 4.7 MB であり、これは顕著なオブジェクト検出の分野で最小のモデルであり、他のモデルよりもパラメーターがはるかに少ないことです。

定性的な比較結果: 図に示すように、7 つの SOTA モデルが比較されました。

^U∧2 -Netはさまざまな種類のターゲットを処理し、正確な認識結果を生成できることがわかります。

たとえば、4 行目の画像は、大きくて薄い構造で構成されたオブジェクトのセグメント化におけるパフォーマンスを十分に発揮しており、6 行目の複雑な画像構造では、ほぼ完璧な結果が得られます。

要約すると、 ^U∧2 -Net モデルは、フルサイズの画像と小さいサイズの画像の両方のさまざまなシナリオを処理し、他のモデルと比較して、より高精度の顕著なオブジェクト検出結果を生成できます。

<<: マスクを着用していても、AIはあなたが何を言っているか理解できる

>>: 5GとAI: 現在と未来の補完的なテクノロジー