画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

画像スタイルの転送？声の感情移入？いいえ、それはイメージの感情的な伝達です。

コンピュータビジョンの分野には、物体検出、画像変換、スタイル転送など多くのタスクがありますが、「画像感情転送」という言葉を聞いたことがありますか?

ロチェスター大学のロジャー・ボー教授のチームがこの研究課題を提案した[1]。他のコンピュータービジョンタスクと比較すると、画像の感情転送はより困難であり、画像内のオブジェクトごとに異なる感情転送が必要になります。この研究では、柔軟かつ効果的なオブジェクトレベルの画像感情転送フレームワークと新しいモデルである SentiGAN を提案しました。実験により、このフレームワークがオブジェクトレベルの画像感情転送を効果的に実行できることが示されました。

イメージ感情伝達とは何ですか?

イメージによる感情の伝達は、探求すべき新たな研究課題です。画像変換、画像スタイル転送、および顔の表情転送タスクと比較して、画像感情転送は、シーンの内容を変更せずに、画像の全体的な外観と感触に対するより高レベルで抽象的な変更に重点を置いています。図1aに示すように、濁った海水が澄み、海鳥が着色された後、もともと中立的または否定的な感情を伝えていた画像は、画像の内容は変化していないにもかかわらず、肯定的で温かいものに変わりました。

この研究では、画像翻訳や画像スタイル転送と比較して、画像感情転送の方がより困難であると考えています。困難の 1 つは、異なるカテゴリのオブジェクトに感情を転送するときに、異なるルールを使用する必要があることです。これは、画像内のすべてのオブジェクトにペイントスタイルを均一に追加できるスタイル転送とは異なります。図 1 に示すように、入力画像にポジティブな感情を持たせるには、海水を澄んだ青色に、海鳥をカラフルなものに変換する必要があります。これら 2 つの操作は同じ参照画像に基づいていません。そうでなければ、図 1b と 1c に示すように非現実的になります。

解決

この課題に対処するために、本研究では、オブジェクトレベルで画像の感情転送を実行するための効果的なフレームワークを提案します。全体のプロセスは 2 つのステップに分けられます。

1. 入力画像が与えられると、フレームワークは画像記述生成モデルとセマンティックセグメンテーションモデルを使用してすべてのオブジェクトを検出し、ピクセルレベルのマスクを見つけます。 2 つのモデルを組み合わせる目的は、オブジェクトセットの範囲を大幅に拡張しながら、高品質のオブジェクトマスクを維持することです。

2. 入力画像で検出された各オブジェクトに対して、感情転送に同じオブジェクトを含む参照画像を使用します。この設計により、前述の問題がうまく解決され、フレームワークの柔軟性が維持されます。たとえば、ユーザーは入力画像内の各オブジェクトに異なる感情を割り当てることができます。さらに、参照画像を提供せずに、検出された各オブジェクトに割り当てたい感情語を直接入力することで、感情転送を実行できます（鳥の場合は「カラフル」、空の場合は「晴れ」、山の場合は「壮大」と入力するなど）。オブジェクトと感情の語彙により、システムは対応する参照画像を自動的に取得し、感情の転送を実行できます。

フレームワークの全体的なパフォーマンスは、2 番目のステップであるターゲットレベルの感情転送によって決まります。ここではスタイル転送モデルを直接適用できますが、感情転送タスクでは転送された画像が自然に見えることが必要であり、スタイル転送モデルの固有の要素であるローカルパターン (テクスチャなど) を明示的に転送する必要はありません。そのため、研究者は MUNIT や DRIT などのマルチモーダル画像翻訳モデルを活用するようになりました。コンテンツとスタイルの情報を分離し、入力画像のコンテンツベースの要素をより多く保持できます。これらのデュアルドメインマッピングモデルは、入力画像と転送画像のドメインを大幅に制限することなく、簡単な変更で感情転送タスクに適応できます。

ただし、上記のモデルを使用する場合、依然として欠点があります。まず、MUNIT と DRIT はもともと画像レベルの変換タスク用に設計されたもので、きめ細かいオブジェクトレベルの転送タスクではパフォーマンスが低下します。 2 番目の質問は、感情の伝達の性質に関するものです。アウトライン、テクスチャ、絵画スタイルと比較すると、画像の感情はより敏感であり、コントラスト、彩度、明るさ、支配的な色などの色ベースの要素に関連することがよくあります。

理想的には、モデルが入力画像のこれらの要素を参照画像に完全に転送できるようにする必要があります。既存のマルチモーダルモデルでは、通常、視覚表現をコンテンツコードとスタイルコードに分解します。転送は、適応インスタンス正規化 (AdaIN) を通じて、参照画像/オブジェクトのスタイルコードを入力画像/オブジェクトのコンテンツコードに挿入することです。ただし、下の図 2 に示すように、コンテンツコードが異なるオブジェクトでは、同じスタイルコードを使用していても、全体的な色の分布が大きく異なります。これは、既存のモデルでは色情報とコンテンツコードを適切に分離できず、結果として色の転送が不完全になることを示唆しています。

上記の欠点を解決するために、本研究では、感情を考慮したGAN（SentiGAN）という新しい手法を提案しました。最初の欠陥については、研究では対応するオブジェクトレベルの損失関数を作成し、画像レベルの損失とともにモデルをトレーニングしました。 2 番目の欠陥については、コンテンツコードのグローバル情報の追加転送によって、入力オブジェクトの色情報をより適切に転送できるという観察に基づいて解決策が提案されています。同時に、研究者らは空間情報を維持することで、他のコンテンツ情報（テクスチャなど）の変化も防ぎました。この目的のために、効果的な制約を使用して、転送されたオブジェクトのコンテンツコードを、参照オブジェクトのコンテンツコードに全体的に近くし、入力オブジェクトのコンテンツコードに局所的に近くします。これらの制約は、トレーニング中のコンテンツ分離損失と推論中のコンテンツ調整ステップを通じて適用されます。この研究は、2 つの方法が補完的であり、感情伝達のパフォーマンスを大幅に向上できることを示しています。

本研究で提案された画像スタイル転送フレームワークを以下の図3に示します。

フレームワークの原則は次のとおりです。

入力画像が与えられると、まずオブジェクトマスク抽出を実行してオブジェクトと対応するマスクを抽出します。次に、画像記述生成と画像セマンティックセグメンテーションを使用してすべてのオブジェクトと高品質のマスクを取得します。最後に、SentiGAN を使用してオブジェクトごとに感情転送を実行します。

コアコンポーネント SentiGAN のアーキテクチャを下図に示します。

実験

研究者らは、画像感情転送モデルのパフォーマンスを評価するために 3 つのタスクを作成しました。これら 3 つのタスクはすべて、テストセットから選択された 50 枚の入力画像に基づいています。これらの画像には、正確なオブジェクトマスクと、比較的中立的または曖昧な感情情報 (ポジティブまたはネガティブな感情方向への移行を容易にするため) が含まれています。

タスク 1: 粗粒度の感情転送

最初のタスクは、画像から粗粒度の感情転送を実行するモデルのパフォーマンスを測定することを目的としています。研究者らは、抽出されたテストセット内の典型的な肯定的な画像と典型的な否定的な画像を予測するために、画像感情バイナリ分類モデルをトレーニングしました。各入力画像に対して、異なる感情転送モデルが、サンプリングされた 10 セットの正の参照画像とサンプリングされた 10 セットの負の参照画像から入力画像の感情を転送できます。画像感情分類モデルによって得られた各感情転送モデルの移行グラフ評価結果を以下の表1に示します。

表 1 からわかるように、SentiGAN は平均真陽性率と真陰性率が最も高くなっています。これは、SentiGAN が画像内で粗粒度の感情転送を効果的に実行できることを示しています。

さらに、研究者らは 5 人のボランティアに、SentiGAN によって出力された 500 個の転送画像ペア (ポジティブ画像とネガティブ画像) からポジティブな画像を選択するよう依頼しました。表2に示すように、正解を選択する確率は72.4%であり、感情伝達の効果がユーザーに確認できることがわかります。図5は、SentiGAN出力からの感情転送の例を示しています。

タスク2: オブジェクトレベルの感情伝達の効果を検証する

2 番目のタスクは、オブジェクトレベルの感情転送の効果を検証することです。

研究者らは、SentiGAN に 3 つの移行戦略 (オブジェクトレベルの移行、グローバル移行、対応しないオブジェクトのオブジェクトレベルの移行) を実行するよう依頼し、50 セットの移行画像を生成しました。 5 人のボランティアに各グループで最もリアルな画像を選択するよう依頼し、各ボランティアが 50 グループを担当しました。表 3 に示すように、ほとんどのグループでは、ボランティアはターゲットレベルの感情転送によって生成された画像が最も現実的であると信じており、これは図 7 のパフォーマンス例と一致しています。

タスク3: 転送された画像と参照画像間の感情的な一貫性

3 番目のタスクは、転送された画像と参照画像間の感情の一貫性を評価することです。研究者らは、入力画像ごとに、さまざまなモデルによって予測された転送画像を収集し、5 人のボランティアに、参照画像と感情的に最も一致する 1 つ以上の転送画像を選択するよう依頼しました。

下の表 4 に示すように、SentiGAN は大幅に高い選択率を達成しており、参照画像の感情を転送する際に最高のパフォーマンスを達成していることがわかります。例については図 6 を参照してください。

Luo Jiebo教授のチームも、グローバルなイメージ感情転送法を提案しました[2]。興味のある読者は、元の論文を参照することができます。

<<: iAnalysis 中国データインテリジェンスアプリケーショントレンドレポート

>>: 転移学習におけるドメイン適応の理解と3つの手法の紹介