異種族の創造、AIがキリンの写真を鳥に変換し、人間と機械を欺く

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

AI がどのように画像を生成し検出するかを研究する場合、明確な研究テーマが必要です。最近、コーネル大学の 3 人の研究者、ダニエル V. ルイス、ガブリエルサロモン、エドゥアルドトッドは、生成的敵対的ネットワーク (GAN) を使用して新しいデータを作成し、画像間の変換を研究することで、キリンの写真を鳥の写真に変換するように人工知能をトレーニングすることを決定しました。この論文は、Computer on the Beach (COTB'20) 2020 カンファレンスにも提出されました。

論文アドレス: https://arxiv.org/abs/2001.03637

画像から画像への変換は、衛星画像から地図を生成することから、衣服の輪郭だけから完全な衣服画像を生成することまで、幅広く使用されています。論文の研究では、キリンと鳥類は大きさ、質感、形態が異なるため、キリンを鳥類に変化させることは難しいことが判明した。彼らは、キリンと鳥の画像を大量に使用して、InstaGAN と呼ばれる教師なしのクロスドメイン翻訳モデルをトレーニングしました。

InstaGANは2019年に韓国科学技術院と浦項工科大学の研究者によって提案され、関連論文「InstaGAN: インスタンス認識型画像間翻訳」もICLR2019に採択されました。

最終的な鳥製品は、元の画像のレイアウトと背景を保持しますが、キリンを直接鳥に変換します。生成された鳥は存在しないことを強調することが重要です。これは単に InstaGAN の作成の結果です。

この論文の革新性は、著者自身の言葉によれば、「今回はリンゴをオレンジに変えたのではなく、象をバナナに変えた」ということである。これまでの教師なし画像間変換の例は、立っているライオンを横たわっているライオンに、猫を犬に、馬をシマウマに変換するといったものがほとんどでしたが、これらのトレーニングは比率や形状が非常に似ているため、難易度が異なります。

具体的にはどのようにやったのでしょうか?

GAN をトレーニングして関連画像を生成するために使用されるデータセットは、COCO (Common objects in Context) と Caltech-UCSD Birds 200 の 2 つです。 COCOデータセットには、91種類以上の画像328,000枚が含まれています。著者らは、トレーニング用と検証用にそれぞれ2,546枚と101枚のキリン画像を選択しました。また、200種以上を主にカバーする別の鳥類データセットであるCaltech-UCSD Birds 200-2011から、80%にあたる9,414枚の鳥類画像をトレーニング用に、20%にあたる374枚の画像を検証用に選択しました。

各画像にはキリンと鳥の輪郭が見られます。 AI には 2 つの主なタスクがあります。1 つはキリンを鳥に変えることです。もう 1 つは、見た画像が本物の鳥なのか、偽のキリン鳥なのかを判断することです。

次に、トレーニングを開始します。ほとんどのパラメータは、元の InstaGAN 論文と同じままです。キリンと鳥のデータセットの画像は、双線形補間を使用して 256x256 にサイズ変更され、GPU トレーニングには約 3 週間かかりました (2 つの NVIDIA RTX 2080 GPU を使用した場合、時間は 1 週間半に短縮できます)。

InstaGAN がトレーニングで使用する損失関数には、最小二乗 GAN 損失、サイクル損失、コンテキスト損失、アイデンティティ損失があり、最終結果における重要度に応じて重み付けされます。サイクル損失は最も重要視されます。同じことが LSGAN にも当てはまり、収束性が向上し、消失勾配問題の可能性が減少します。消失勾配問題では、良好な視覚的結果を達成して損失を最小限に抑えるには 100 エポック以上が必要です。

3週間のトレーニングの最後に、彼らには人工の鳥の画像セットである FakeSet が与えられました。次の図は、画像間の変換の例を示しています。

元の画像とマスクだけでなく、変換された画像とマスクも確認できます。ポーズ、空間配置、背景は変更されていないことに注意してください。つまり、InstaGAN は、キリンがほとんど遮られておらず横向きに立っている画像を変換することをかなりうまく学習し、今では同じ位置にある鳥も生成しています。興味深いことに、InstaGAN は興味深い「不正行為」方法を学習しました。明るい背景と対照的な暗い鳥を生成することで、人間や機械の識別子をうまく欺くことができます。

次に、InstaGAN によって生成された完成画像を見てみましょう。

いくつかの変換は印象的です。 InstaGAN は、マクロ撮影のように見せるために、上部の景色をぼかす方法を学習しました。遷移が完全にスムーズではないにもかかわらず、キリンの肩は残っていますが、AI がそれを気付かないように巧みに石に変えました。

背景のぼかし効果はかなり良好です。前景を処理する際に、InstaGAN は木片を鳥の止まり木として作成し、枝や岩の割れ目などのディテールを強調し、近くの鳥の足をぼかしました。全体的な効果は比較的自然です。しかし、いくつかの写真ではキリンの腹部と脚がぼんやりと見えているため、InstaGAN はおそらく葉か何かと間違えることを期待して、それらを緑色に変えた。

もちろん、変換効果は良くない場合も多々あります。異常な背景の影響が考えられるため、AI は画像の外観を変更することに成功しませんでした。また、ここでも、AI がキリンを除去するための一般的な戦略は、鳥の体をキリンの頭、首、肩にコピーして貼り付け、次にキリンの脚をできるだけ隠すことであることは明らかです。この点を念頭に置いて上の写真を見ると、キリンの長い脚がそのまま残っていることがすぐにわかるでしょう。モデルの数々の失敗は、すべてキリンの脚に関係しており、脚を隠すのは難しいのです。

生成された画像のリアリティと品質を評価するために、著者らは定性的および定量的な分析を実行しました。定性分析では、FakeSet から 335 枚の画像をランダムに選択して評価しました。基準は、変換品質、輪郭、テクスチャでした。選択肢は「良い」と「悪い」の 2 つだけでした。各属性の最終スコアは、335 枚の画像の平均スコアであり、0 から 1 までのスコアで表されます (0 は品質が悪いことを、1 は品質が良いことを示します)。属性の値が 0.75 に等しい場合、画像の 3/4 はこの属性で良好なパフォーマンスを示し、画像の 1/4 はパフォーマンスが低いことを意味します。詳細については以下の表をご覧ください。

定量分析では、事前トレーニング済みのMask R-CNN（マスク領域ベースの畳み込みニューラルネットワーク）を使用して新しく生成されたデータセットFakeSetを使用して、2,546枚の画像を分析しました。評価結果によると、289枚の画像はゴミ（鳥の存在さえ検出されなかった）、717枚は不満足（一般的に使用される指標Fスコアが0.8未満）、1,540枚は満足できるものでした。 F スコアは、最高のスコアを優先する歪んだ正規分布に従います。

要約すると、この論文では、FakeSet は実際のデータセットに近い検出およびセグメンテーション結果を達成していると結論付けています。ほとんどの画像は完全に本物ではありませんが、正しい変換の割合も非常に高く、検出およびセグメンテーション結果も非常に信頼性が高い (80% 以上) です。これは、生成された画像が肉眼では認識できないほどリアルであり、最先端のディープニューラルネットワークのテストにも耐えられることを示唆しています。

<<: AIOps で IT 運用にインテリジェンスを組み込む方法

>>: ビッグデータと AI は食品・飲料業界の発展にどのように役立つのでしょうか?