画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

画像スタイルの転送?声の感情移入?いいえ、それはイメージの感情的な伝達です。

コンピュータビジョンの分野には、物体検出、画像変換、スタイル転送など多くのタスクがありますが、「画像感情転送」という言葉を聞いたことがありますか?

ロチェスター大学のロジャー・ボー教授のチームがこの研究課題を提案した[1]。他のコンピューター ビジョン タスクと比較すると、画像の感情転送はより困難であり、画像内のオブジェクトごとに異なる感情転送が必要になります。この研究では、柔軟かつ効果的なオブジェクトレベルの画像感情転送フレームワークと新しいモデルである SentiGAN を提案しました。実験により、このフレームワークがオブジェクトレベルの画像感情転送を効果的に実行できることが示されました。

イメージ感情伝達とは何ですか?

イメージによる感情の伝達は、探求すべき新たな研究課題です。画像変換、画像スタイル転送、および顔の表情転送タスクと比較して、画像感情転送は、シーンの内容を変更せずに、画像の全体的な外観と感触に対するより高レベルで抽象的な変更に重点を置いています。図1aに示すように、濁った海水が澄み、海鳥が着色された後、もともと中立的または否定的な感情を伝えていた画像は、画像の内容は変化していないにもかかわらず、肯定的で温かいものに変わりました。

この研究では、画像翻訳や画像スタイル転送と比較して、画像感情転送の方がより困難であると考えています。困難の 1 つは、異なるカテゴリのオブジェクトに感情を転送するときに、異なるルールを使用する必要があることです。これは、画像内のすべてのオブジェクトにペイント スタイルを均一に追加できるスタイル転送とは異なります。図 1 に示すように、入力画像にポジティブな感情を持たせるには、海水を澄んだ青色に、海鳥をカラフルなものに変換する必要があります。これら 2 つの操作は同じ参照画像に基づいていません。そうでなければ、図 1b と 1c に示すように非現実的になります。

解決

この課題に対処するために、本研究では、オブジェクトレベルで画像の感情転送を実行するための効果的なフレームワークを提案します。全体のプロセスは 2 つのステップに分けられます。

1. 入力画像が与えられると、フレームワークは画像記述生成モデルとセマンティックセグメンテーションモデルを使用してすべてのオブジェクトを検出し、ピクセルレベルのマスクを見つけます。 2 つのモデルを組み合わせる目的は、オブジェクト セットの範囲を大幅に拡張しながら、高品質のオブジェクト マスクを維持することです。

2. 入力画像で検出された各オブジェクトに対して、感情転送に同じオブジェクトを含む参照画像を使用します。この設計により、前述の問題がうまく解決され、フレームワークの柔軟性が維持されます。たとえば、ユーザーは入力画像内の各オブジェクトに異なる感情を割り当てることができます。さらに、参照画像を提供せずに、検出された各オブジェクトに割り当てたい感情語を直接入力することで、感情転送を実行できます(鳥の場合は「カラフル」、空の場合は「晴れ」、山の場合は「壮大」と入力するなど)。オブジェクトと感情の語彙により、システムは対応する参照画像を自動的に取得し、感情の転送を実行できます。

フレームワークの全体的なパフォーマンスは、2 番目のステップであるターゲット レベルの感情転送によって決まります。ここではスタイル転送モデルを直接適用できますが、感情転送タスクでは転送された画像が自然に見えることが必要であり、スタイル転送モデルの固有の要素であるローカル パターン (テクスチャなど) を明示的に転送する必要はありません。そのため、研究者は MUNIT や DRIT などのマルチモーダル画像翻訳モデルを活用するようになりました。コンテンツとスタイルの情報を分離し、入力画像のコンテンツベースの要素をより多く保持できます。これらのデュアルドメイン マッピング モデルは、入力画像と転送画像のドメインを大幅に制限することなく、簡単な変更で感情転送タスクに適応できます。

ただし、上記のモデルを使用する場合、依然として欠点があります。まず、MUNIT と DRIT はもともと画像レベルの変換タスク用に設計されたもので、きめ細かいオブジェクトレベルの転送タスクではパフォーマンスが低下します。 2 番目の質問は、感情の伝達の性質に関するものです。アウトライン、テクスチャ、絵画スタイルと比較すると、画像の感情はより敏感であり、コントラスト、彩度、明るさ、支配的な色などの色ベースの要素に関連することがよくあります。

理想的には、モデルが入力画像のこれらの要素を参照画像に完全に転送できるようにする必要があります。既存のマルチモーダル モデルでは、通常、視覚表現をコンテンツ コードとスタイル コードに分解します。転送は、適応インスタンス正規化 (AdaIN) を通じて、参照画像/オブジェクトのスタイル コードを入力画像/オブジェクトのコンテンツ コードに挿入することです。ただし、下の図 2 に示すように、コンテンツ コードが異なるオブジェクトでは、同じスタイル コードを使用していても、全体的な色の分布が大きく異なります。これは、既存のモデルでは色情報とコンテンツ コードを適切に分離できず、結果として色の転送が不完全になることを示唆しています。

上記の欠点を解決するために、本研究では、感情を考慮したGAN(SentiGAN)という新しい手法を提案しました。最初の欠陥については、研究では対応するオブジェクトレベルの損失関数を作成し、画像レベルの損失とともにモデルをトレーニングしました。 2 番目の欠陥については、コンテンツ コードのグローバル情報の追加転送によって、入力オブジェクトの色情報をより適切に転送できるという観察に基づいて解決策が提案されています。同時に、研究者らは空間情報を維持することで、他のコンテンツ情報(テクスチャなど)の変化も防ぎました。この目的のために、効果的な制約を使用して、転送されたオブジェクトのコンテンツ コードを、参照オブジェクトのコンテンツ コードに全体的に近くし、入力オブジェクトのコンテンツ コードに局所的に近くします。これらの制約は、トレーニング中のコンテンツ分離損失と推論中のコンテンツ調整ステップを通じて適用されます。この研究は、2 つの方法が補完的であり、感情伝達のパフォーマンスを大幅に向上できることを示しています。

本研究で提案された画像スタイル転送フレームワークを以下の図3に示します。

フレームワークの原則は次のとおりです。

入力画像が与えられると、まずオブジェクト マスク抽出を実行してオブジェクトと対応するマスクを抽出します。次に、画像記述生成と画像セマンティック セグメンテーションを使用してすべてのオブジェクトと高品質のマスクを取得します。最後に、SentiGAN を使用してオブジェクトごとに感情転送を実行します。

コアコンポーネント SentiGAN のアーキテクチャを下図に示します。

実験

研究者らは、画像感情転送モデルのパフォーマンスを評価するために 3 つのタスクを作成しました。これら 3 つのタスクはすべて、テスト セットから選択された 50 枚の入力画像に基づいています。これらの画像には、正確なオブジェクト マスクと、比較的中立的または曖昧な感情情報 (ポジティブまたはネガティブな感情方向への移行を容易にするため) が含まれています。

タスク 1: 粗粒度の感情転送

最初のタスクは、画像から粗粒度の感情転送を実行するモデルのパフォーマンスを測定することを目的としています。研究者らは、抽出されたテスト セット内の典型的な肯定的な画像と典型的な否定的な画像を予測するために、画像感情バイナリ分類モデルをトレーニングしました。各入力画像に対して、異なる感情転送モデルが、サンプリングされた 10 セットの正の参照画像とサンプリングされた 10 セットの負の参照画像から入力画像の感情を転送できます。画像感情分類モデルによって得られた各感情転送モデルの移行グラフ評価結果を以下の表1に示します。

表 1 からわかるように、SentiGAN は平均真陽性率と真陰性率が最も高くなっています。これは、SentiGAN が画像内で粗粒度の感情転送を効果的に実行できることを示しています。

さらに、研究者らは 5 人のボランティアに、SentiGAN によって出力された 500 個の転送画像ペア (ポジティブ画像とネガティブ画像) からポジティブな画像を選択するよう依頼しました。表2に示すように、正解を選択する確率は72.4%であり、感情伝達の効果がユーザーに確認できることがわかります。図5は、SentiGAN出力からの感情転送の例を示しています。

タスク2: オブジェクトレベルの感情伝達の効果を検証する

2 番目のタスクは、オブジェクトレベルの感情転送の効果を検証することです。

研究者らは、SentiGAN に 3 つの移行戦略 (オブジェクト レベルの移行、グローバル移行、対応しないオブジェクトのオブジェクト レベルの移行) を実行するよう依頼し、50 セットの移行画像を生成しました。 5 人のボランティアに各グループで最もリアルな画像を選択するよう依頼し、各ボランティアが 50 グループを担当しました。表 3 に示すように、ほとんどのグループでは、ボランティアはターゲット レベルの感情転送によって生成された画像が最も現実的であると信じており、これは図 7 のパフォーマンス例と一致しています。

タスク3: 転送された画像と参照画像間の感情的な一貫性

3 番目のタスクは、転送された画像と参照画像間の感情の一貫性を評価することです。研究者らは、入力画像ごとに、さまざまなモデルによって予測された転送画像を収集し、5 人のボランティアに、参照画像と感情的に最も一致する 1 つ以上の転送画像を選択するよう依頼しました。

下の表 4 に示すように、SentiGAN は大幅に高い選択率を達成しており、参照画像の感情を転送する際に最高のパフォーマンスを達成していることがわかります。例については図 6 を参照してください。

Luo Jiebo教授のチームも、グローバルなイメージ感情転送法を提案しました[2]。興味のある読者は、元の論文を参照することができます。

<<:  iAnalysis 中国データインテリジェンスアプリケーショントレンドレポート

>>:  転移学習におけるドメイン適応の理解と3つの手法の紹介

ブログ    
ブログ    

推薦する

...

一貫性ハッシュアルゴリズムの図

[[380706]]この記事はWeChatパブリックアカウント「Full-Stack Cultiva...

Facebookは機械学習を使ってコンパイラを最適化

Facebook は最近、コンパイラ最適化タスクを実行するための高性能で使いやすい強化学習 (RL)...

科学者が人工結晶で大きな進歩を遂げ、コンピューターをより低電力で動作可能に

コンピューターは小型化、高性能化していますが、動作には大量のエネルギーが必要です。過去 10 年間で...

機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

01 機械学習アルゴリズム1. 分類アルゴリズムこれは教師あり学習法です。 K 最近傍法、決定木、単...

純粋な MLP は下流のタスクには適していませんか? Meta AIらは、トランスフォーマーを上回るスパースMLPを提案した。

注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...

人工知能の台頭は難しく、普通のAI開発者が普及する

[[241542]] Forbes によれば、FORTRAN のパンチカードから Go を使用した分...

販売前ショッピングガイドロボットの未来:推奨と対話システムの統合 + アプリケーションシナリオの深化

[51CTO.com からのオリジナル記事] キーワードマッチングと手動で記述された応答ルールに基づ...

AIには意識があるのでしょうか?意識の定義から始めましょう

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

AIがAIを攻撃、サイバーセキュリティ戦争が激化

最近のサイバーセキュリティ会議では、調査対象となった業界専門家100人のうち62人が、AIを活用した...

人工知能に最適なプログラミング言語

[51CTO.com クイック翻訳]人工知能は 20 世紀半ばから存在しています。それにもかかわらず...

工業情報化省科学技術局長:チップOSはAIを突破しなければ単なる空想に過ぎない

国内メディアの報道によると、12月17日に開催された2019年中国スマート企業発展フォーラムで、工業...

...

警察が採用したボストン・ダイナミクスの犬たちは、感情のない「監視ツール」になるのだろうか?

[[384524]]ニューヨークのマンハッタン北部のアパートで男性2人が人質に取られている。その数...