オープンソースの AI ディープラーニングを適用して、顔の表情の特徴に基づいて画像のキャプションを生成します。概要: 画像キャプションは、画像の自然言語による説明を生成するプロセスです。しかし、現在の画像キャプション モデルのほとんどは、画像に表現されている活動や対人関係に非常に関連性の高い、画像の感情的な側面を考慮していません。このような人間らしさを含んだキャプションを生成できるモデルを開発するために、人間の顔を含む画像から抽出した表情の特徴を使用し、モデルの記述力を向上させることを目指しています。この研究では、顔の表情の特徴をさまざまな方法で埋め込み、画像キャプションを生成する 2 つの Face-Cap モデルを提案します。すべての標準的な評価指標を使用した場合、当社の Face-Cap モデルは、顔を含む約 11,000 枚の画像を含む標準の Flickr 30K データセットから抽出された画像キャプション データセットに適用すると、画像キャプションを生成する最先端のベースライン モデルよりも優れたパフォーマンスを発揮します。キャプションを分析すると、驚くべきことに、キャプションの品質の向上は、画像の感情的な側面に関連する形容詞を追加したことによるものではなく、キャプションに記述された動作のバリエーションの増加によるものであることが判明しました。 表情に基づくオープンソースの人工知能はディープラーニングを特徴とする 画像キャプションの生成に適用される学習 はじめに: 画像キャプション システムは、コンピューター ビジョンと自然言語処理を使用して画像の内容を説明することを目的としています。これはコンピューター ビジョンでは難しいタスクです。意味のある説明を生成するには、オブジェクトだけでなく、オブジェクト間の関係や画像に表示されるアクティビティもキャプチャする必要があるためです。ディープニューラルネットワークを含む最先端のアプローチのほとんどは、画像の事実的な側面を反映したキャプションを生成します[3、8、12、16、20、35、37]。その過程で、より豊かで魅力的な画像キャプションを提供できる感情的な側面が無視されることがよくあります。知的で適応性があり効果的な結果を生み出す知的システムを設計する際には、感情を認識し表現する感情特性を含める必要がある[22]。感情を認識し、それを画像の説明に適用できる画像キャプション システムを設計することは、依然として課題です。 いくつかのモデルでは、感情やその他の非事実情報を画像のキャプションに組み込んでいます[10、23、38]。これらのモデルでは通常、感情語彙が自然言語処理の研究[25]から派生した補足データセットの収集が必要であり、感情は通常、肯定的、中立的、否定的として表現されます。マシューズら例えば、[23]はクラウドソーシングを通じて感情的な画像キャプションのデータセットを構築した。このデータセットでは、話者はポジティブな感情(かわいい猫など)またはネガティブな感情(不気味な猫など)からなる固定の語彙を使用する必要があり、モデルはこのデータセットと標準的な事実のキャプションのセットに基づいてトレーニングされた。ガンら[10]は、事実のキャプションに感情を含むスタイルを追加するためのStyleNetと呼ばれるキャプションモデルを提案しました。彼らは、ユーモラスやロマンチックなどの定義済みのスタイルのセットを指定しました。 これらのタイプのモデルには通常、画像に対する閲覧者の感情を表す画像の説明 (画像に対する肯定的な見方の場合はかわいい猫、否定的な見方の場合は不気味な猫など) が含まれますが、図 1 に示すように、画像の感情的な内容を捉えることは目的としていません。この区別は感情分析の文献でも認識されており、例えば[24]の初期の研究では感情を予測するためのグラフ理論的アプローチが提案されている。テキストの著者が表現したように、まずテキストの実際の内容において肯定的または否定的なテキストの断片(映画のあらすじの説明の一部として「主人公は自分の名誉を守ろうとする」など、善は肯定的な感情を表す)を削除し、著者の主観的な意見を反映する感情的なテキスト(「大胆、想像力豊か、魅力的」など)のみを残します。画像の文脈では、コンテンツに関連付けられた感情の概念に興味があります。 オープンソースの AI ディープラーニングを適用して、顔の表情の特徴に基づいて画像のキャプションを生成する貢献: そのため、この論文では、画像自体の感情的な内容を組み込むために、Face-Cap と呼ばれる画像キャプション モデルを紹介します。顔の感情を自動的に検出し、得られた顔の表情の特徴を適用して画像キャプションを生成します。これらの機能を異なる方法で使用してキャプションを生成する Face-Cap の 2 つのバリエーションを紹介します。私たちの仕事は以下に貢献します: 1. Face-Cap モデルは、感情的な画像とキャプションのペアデータも、収集が難しい感情的なキャプションデータも使用せず、顔の表情の特徴と感情的な内容の両方を含むキャプションを生成します。著者らの知る限り、これは画像キャプション作成タスクに表情分析を適用した最初の研究である。 2. 一連の実験により、これらの Face-Cap モデルはすべての標準評価基準でベースラインを上回り、最先端のモデルであることが実証されました。生成されたキャプションを分析すると、画像内で実行されたアクションをより適切に説明することで、ベースライン モデルよりも改善されていることがわかります。 3. Flickr 30Kデータセット[39]から抽出された顔画像からなる画像キャプションデータセット。これをFlickrFace11Kと呼ぶ。この分野での将来の研究を促進するために、公開されています3。 オープンソースのAIディープラーニングを適用し、表情の特徴に基づいて画像キャプションを生成します。データセット:表情認識モデルのトレーニングには、Facial Expression Recognition 2013(FER-2013)データセット[11]を使用します。ワイルド、幸福、悲しみ、恐怖、驚き、怒り、嫌悪、中立のサンプルが含まれています。これには、Google Search API を介して収集された 35,887 件の例 (トレーニング用に 28,709 件、公開用に 3589 件、非公開テスト用に 3589 件) が含まれています。例はグレースケールで、サイズは 48 x 48 ピクセルです。完全に黒い例を 11 個削除した後、FER-2013 のトレーニング セットを 2 つの部分に分割しました。25,109 個はトレーニング用、3589 個はモデル検証用です。この分野の他の研究[17、27、40]と同様に、トレーニングフェーズ後のモデルのパフォーマンス評価にはFER-2013のプライベートテストセットを使用します。関連する研究と比較するために、モデルのトレーニングや検証には公開テスト セットを適用しません。 画像キャプションモデルを訓練するために、Flickr 30Kデータセットから画像キャプション付きのサブセット[39]を抽出し、これをFlickrFace11Kと呼びます。このデータセットには、CNNベースの顔検出アルゴリズム[18]を使用して検出された人間の顔を含む11,696の例が含まれています。4 Flickr 30Kデータセットは、COCOデータセット[4]などの他の画像キャプションデータセットと比較して、人間の顔を含むサンプルの割合が大きいため、データセットの良いソースであることがわかります。 FlickrFace11K サンプルをトレーニング用に 8696 個、検証用に 2000 個、テスト用に 1000 個に分割し、公開します。5 サンプルの顔の特徴を抽出するために、次の顔の前処理手順と表情認識モデルを使用します。 オープンソースの AI ディープラーニングを適用して、顔の表情の特徴に基づいて画像キャプションを生成します。顔の前処理: 私たちの目標は、FER-2013 で顔の表情認識モデルをトレーニングし、それを FlickrFace11K サンプルの顔の表情の特徴抽出器として使用することなので、サンプルを FER-2013 データと一致させる必要があります。このため、FlickrFace11K の顔は顔検出器を使用して前処理されます。顔は CNN ベースの顔検出アルゴリズムによって検出され、各サンプルから切り取られます。次に、各顔をグレースケールに変換し、FER-2013 データとまったく同じ 48 x 48 ピクセルにサイズを変更します。 オープンソースの AI ディープラーニングを適用して、顔の表情の特徴に基づいて画像キャプションを生成する 結論と今後の作業: この論文では、顔の特徴を採用して画像を説明する 2 つの画像キャプション モデル、Face-Cap を提案しました。この目的のために、顔の表情認識モデルを適用して、人間の顔を含む画像から特徴を抽出します。これらの機能を使用することで、私たちのモデルは画像の感情的な内容に基づいて、画像キャプションの生成を自動的に調整します。最先端のベースライン モデルと比較した標準的な評価指標を使用して、当社のモデルの有効性を示しました。生成されたキャプションは、Face-Cap モデルが画像キャプションを正常に生成し、適切なタイミングで顔の特徴を組み込んでいることを示しています。キャプションの言語分析により、画像の内容を説明する際の有効性が高まり、表現の多様性が増していることが示されました。 今後の取り組みとしては、混乱や好奇心など、より豊かな感情をカバーできる新しい表情認識モデルを設計し、対応する顔の特徴を効果的に適用して画像のキャプションを生成することが考えられます。さらに、我々は[37]のソフトインジェクションアプローチのような、顔の感情を注入するための代替アーキテクチャを探求したいと考えています。 コードアドレス: github.com/omidmn/Face-Cap |
<<: ナレッジグラフは人気があります。今すぐ選んでみませんか。
>>: AIは生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。
データとコンピューティング能力の向上に伴い、「機械学習」(ML)と「ディープラーニング」という用語は...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
[[391010]]昨今、都市化の加速と生活水準の向上に伴い、ペットを飼うことがますます多くの人々の...
OpenAIは2022年11月30日にChatGPTをリリースしました。大規模言語モデル GPT3...
この記事は、WOT2023カンファレンスでの蘭州科技の創設者兼CEOである周明氏の基調講演からまとめ...
[51CTO.com クイック翻訳] 今年の ECR カンファレンスには 25 社を超えるソフトウェ...
私は、IoT を活用して現場サービスと顧客サポートの効率性を向上させることを目指す機器メーカーのクラ...
2021年のAIアプリケーションのハイライト[[438943]] 2021年は世界全体にとって非常...
2023 年は生成 AI テクノロジーが爆発的に普及した年であり、ChatGPT などのツールが研究...
ルール研究所の研究者らは、XML 暗号化プロトコルに重大なセキュリティ上の脆弱性を発見し、シカゴで開...
[[382637]]データセンターが国の経済の原動力となるにつれ、人工知能を導入することでより高い...
[[429833]]ショッピングモールは顔認識カメラをオンにし、情報は「気付かれずに」収集されます...
多くの新製品と同様に、自動運転に対する人々の態度は、過度の信頼から過少な信頼まで二極化しています。自...