人工知能は転移学習を使用して、自然画像から抽出した特徴を使用してイラスト分類の精度を向上させます

人工知能は転移学習を利用して、自然画像から抽出した特徴を利用してイラスト分類の精度を向上させます (特別コメント: 人工知能は転移学習を利用して、自然画像から抽出した特徴を利用してイラスト分類の精度を向上させ、ディープラーニングの分野に新たな空間を提供します。この革新的な点は、興味深い人工知能によって推奨されるに違いありません。ネットユーザー Xiaoxing によって推奨されます!)

人工知能は、自然画像から抽出した特徴を使用して転移学習によりイラストの分類精度を向上させます。はじめに: 物体やテクスチャを認識して識別する人間の能力は疑う余地がありません。実際には、人間は、照明、視点、スタイル、さらにはグラフィックスの抽象化のレベルに関係なく、写真や画像内のほぼすべてのオブジェクトを認識することができます。しかし、コンピューターは以前ほど進歩しておらず、最近まで自然画像内の物体の分類精度は人間のレベルに達していませんでした。 2012 年に登場したディープラーニング技術は、コンピュータービジョン、特に画像分類の分野に大きな革命をもたらし、精度は 95% を超えました。これらの技術は、自然画像には非常に魅力的ですが、画像レベルの認識の別のレベルをほとんど探求していません。

これらのネットワークの成功の鍵の 1 つは、非常に複雑で非線形なピクセル統計、関係、パターンの学習を可能にする、数十万の注釈付き自然画像とキュレーションされたデータセットを利用できることです。ただし、これらのネットワークをトレーニングすることは、時間とリソースの点で非常にコストのかかる作業です。したがって、ディープニューラルネットワークをゼロからトレーニングするには、大量の注釈付きデータと強力な計算能力が必要です。この問題を克服するために、転移学習技術は、既存の事前トレーニング済みアーキテクチャを使用し、より少ないデータで再トレーニングするか、より単純な機械学習アルゴリズムを使用して上位層を分類することで、新しいデータセットに役立てることを目指しています。

自然画像から抽出した特徴を利用してイラスト分類の精度を向上させる転移学習を備えた人工知能の貢献: この研究では、画像分類タスクのために、画像、特にイラスト画像の領域を探求したいと考えています。私たちは、イラストが局所レベルでは、自然な画像とはまったく異なるストローク、エッジ、またはテクスチャの統計を描写しているという直感に頼っています。ただし、より高いレベルでは、オブジェクトの形状を構成する基本的な部分は、その形状とまったく同じままです。まず、公開されているディープニューラルネットワークVGG-19 [SZ14]から始めます。これは、120万枚以上の画像を含む自然画像データセットImaNet [RDS*15]でトレーニングされています。まず、コンテンツ別にラベル付けされたイラスト画像の新しいデータセットでこのようなネットワークを評価します。パフォーマンスが低いことに注目し、ネットワークのいくつかのレイヤーのみを変更して新しいコンテンツをより適切にキャプチャできるようにする、適応型レイヤーベースの最適化戦略を提案します。したがって、高レベルレイヤーに類似したまま、自然な画像とは異なる画像の低レベルの特徴をキャプチャするレイヤーを最初からやり直してトレーニングすることを提案します。

この論文の貢献は次のとおりです。 - コンテンツ別にラベル付けされたイラスト画像の新しいデータセットを提供します。 - 新しいデータセット上で既存のアーキテクチャ[SZ14]のパフォーマンスを評価します。 - 私たちは、データに合わせて最適化された転移学習技術に基づく 2 つの新しいモデルを提案します。最初のモデルは従来の機械学習技術を活用しており、トレーニングには少量の新しいデータが必要です。 2 番目に最適化されたモデルでは、より大きなトレーニングデータセットが必要ですが、元のネットワークにすでに存在する情報を活用するため、ネットワークを最初からトレーニングする場合よりも必要なデータ量ははるかに少なくなります。 - 少数の自然画像セットでは、アーキテクチャの変更にもかかわらず、新しいネットワークが自然画像を正確に分類できることを示します。

人工知能は転移学習を使用して、自然画像から抽出された特徴を使用してイラスト分類の精度を向上させます。私たちの目標は、イラストとクリップアートデータのクラスラベルを正しく予測できるモデルを見つけることです。 120万枚以上の画像を含むImageNetデータセット[RDS*15]など、実際の物体のラベル付き画像を含む標準的なデータセットは数多くあります。しかし、私たちが分析しようとしている漫画のようなスタイルに適したデータセットは存在しません。そのため、まずコンテンツ別にラベル付けされたイラスト画像のデータセットを作成します（セクション4）。このデータセットは、異なるタスクに使用される 2 つのデータセットで構成されています。 826 クラスに分類された 180,000 枚を超える画像を含むノイズの多いデータセットと、4,000 枚を超える画像と 23 クラスを含むキュレーションされたデータセット。キュレーションされたデータセットとノイズの多いデータセットの両方を、トレーニング、評価、およびテストデータの固定セットに分割します。

まず、自然画像のクラス予測に非常に優れた性能を発揮することが示されている既存のVGG19 [SZ14]ディープニューラルネットワークを評価します。セクション 5 では、このアーキテクチャの概要を示し、実際のシナリオでのパフォーマンスを示します。得られた精度が低かったため、これをベースライン（ベースラインVGG19）と見なし、転移学習技術[RASC14、LLZ*11、OBLS14]に触発された2つの新しいモデルを提案します。セクション6.1で説明した最初のモデル（ベースラインVGG19 + SVM）では、SVMを使用してディープネットワークVGG19から抽出された特徴を分類しました。パフォーマンスは以前のアーキテクチャに比べて向上しましたが、まだ低いです。したがって、セクション 7 で説明する 2 番目のモデル (最適化された VGG19+ SVM) を提案します。このモデルは、2 つのステップに基づいています。まず、ノイズの多いデータセットを使用して適応型レイヤーベースの最適化を実行します。次に、前と同様に、最適化されたネットワークの特徴を抽出し、キュレーションされたデータセットを使用して SVM をトレーニングします。このモデルは、トップ 1 ランキングで 86.61% の精度を達成し、トップ 5 ランキングで 97.21% の精度を達成しました。上位 1 位と上位 5 位の精度はそれぞれ 20% と 10% 向上します。

自然画像から抽出した特徴を使用してイラストの分類精度を向上させる転移学習を使用する人工知能提案モデル: 示すように、イラストデータセットでディープネット VGG19 によって得られた精度は、自然画像と比較して大幅に低下します。主な理由は、データセット内の画像の統計が元の画像と異なることです。データのパフォーマンスを向上させるための 1 つのアイデアは、新しい制御ネットワークを作成し、それを最初からトレーニングすることです。しかし、これは 2 つの理由から良い考えではありません。1 つ目は、VGG19 をトレーニングするためのデータの量が不足していること、2 つ目は、モデルがすでに学習したすべての情報が失われることです。この問題に対処するために、転移学習に関する過去の研究[RASC14、LLZ*11、DJV*13]からインスピレーションを得て、2つの新しいモデルを評価します。最初のモデル（セクション 6.1）では、CNN から高レベルの特徴を抽出し、それを画像記述子として使用してサポートベクターマシン (SVM) をトレーニングしました。 2番目のモデル（セクション7）では、VGG19ネットワークの下位層をさらにリセットし、データセットを使用して最適化しました。理論的には形状やオブジェクトをキャプチャすることを目的とした高レベルは、ほとんど変更されていません。

ベースライン VGG19 + SVM: サポートベクターマシン (SVM) は、分類と回帰のための教師ありアルゴリズムです。 SVM は、異なるクラスのサンプル間の境界が最小になるようにクラスを分類する最適な超平面を見つけようとします。 SVM の一種は、非線形カーネルを使用してデータを高次元空間にマッピングし、その後で最適な超平面を見つけます。私たちの研究では、特徴が非常に大きい場合に効果的であることと、異なるデータサンプル間の境界を最大化できるため堅牢であることから、非線形サポートベクターマシンを使用しています。さらに、ディープネットワークほど多くのデータは必要ないため、厳選されたデータセットを使用してトレーニングできます。

トレーニングと評価キュレーションされたデータセットを次のカテゴリに分割しました。データの 16% を検証用、64% をトレーニング用、20% をテスト用データとして使用します。各画像について、ネットワーク VGG19 の 2 番目の完全接続層を取得して特徴ベクトルを取得します。トリプルクロス検証を使用することで、二乗ユークリッド距離を使用するラジアル基底関数カーネル (RBF) によって最高のパフォーマンスが得られ、スラック変数 C = 1 によってトレーニング中に多少のエラーが許容され、分類器がより柔軟で安定し、トレーニング中の各サンプルの重み γ = 0.0001 であることがわかりました。 SVM をトレーニングするための決定関数は One-vs-One Residual (OVR) です。これは、各クラスの分類器をトレーニングし、そのクラスのサンプルを最適な超平面の一方の側に配置し、残りを異なるクラスの最も近いサンプル間の最適なマージンでもう一方の側に配置する最適な超平面を見つけます。トレーニング後、トップ 1 とトップ 5 の精度はそれぞれ 62.04% と 85.64% に向上しました。 RBF 関数と SVM 分類の強力な非線形マッピングにより、VGG19 から取得された画像記述子はより良い結果を達成できます。それにもかかわらず、ネットワークは依然としてイラスト画像の低レベルの特徴を認識できず、イラスト画像の統計を使用してネットワークを最適化すると、まだ改善の余地があることがわかります。

自然画像から抽出した特徴を使用してイラストの分類精度を向上させる転移学習を使用した人工知能結論: この研究では、ディープニューラルネットワークの高レベルレイヤーを、自然画像とイラストという 2 つの異なるドメイン間でどのように転送できるかを検討しました。ラベル付けされキュレーションされたデータを含む新しいイラストレーションデータセットを提案しました。自然画像用にトレーニングされたディープニューラルネットワークは、漫画やクリップアートなどのより抽象的な説明を使用してターゲットデータセットを分類するときに失敗することがわかりました。私たちは、元のネットワークのパフォーマンスをそれぞれ 30 ～ 60% 向上させる 2 つのモデルを提案し、そのモデルが写真に対して依然として十分に機能することを示しました。

将来の仕事には興味深い道がたくさんあります。 Curated データセットでは、Noisy データセットの利用可能なデータのほとんどが除外され、826 個のうち 23 個のみが使用されます。現在は手作業で行われているため、クラウドソーシングプラットフォームを使用してデータを収集することで改善できる可能性があります。現在の実験では、これらの概念がネットワーク内にまだ存在していることが示唆されているため、ImageNet データセット上でネットワークの精度を徹底的に評価するために、さらなる実験を実施したいと考えています。非常に興味深い問題は、そのようなネットワークにおける抽象化と知覚を調査し、たとえば、そのようなモデルがゲシュタルトの法則を自動的に学習するかどうか、または物体を認識するために不可欠なエッジや部分が何であるかを予測するかどうかを調べることです。（特別コメント：人工知能は転移学習を利用して自然画像から抽出した特徴を利用してイラスト分類の精度を向上させ、ディープラーニングの分野に新たな空間を提供します。この革新的な点は、興味深い人工知能が推奨する必要があります。ネットユーザーXiaoxingが推奨します！）

<<: テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

>>: Alibaba のエンジニアは、ナレッジグラフデータ構築の「難題」にどのように取り組んでいるのでしょうか?