人工知能は転移学習を使用して、自然画像から抽出した特徴を使用してイラスト分類の精度を向上させます

人工知能は転移学習を使用して、自然画像から抽出した特徴を使用してイラスト分類の精度を向上させます

人工知能は転移学習を利用して、自然画像から抽出した特徴を利用してイラスト分類の精度を向上させます (特別コメント: 人工知能は転移学習を利用して、自然画像から抽出した特徴を利用してイラスト分類の精度を向上させ、ディープラーニングの分野に新たな空間を提供します。この革新的な点は、興味深い人工知能によって推奨されるに違いありません。ネットユーザー Xiaoxing によって推奨されます!)

人工知能は、自然画像から抽出した特徴を使用して転移学習によりイラストの分類精度を向上させます。はじめに: 物体やテクスチャを認識して識別する人間の能力は疑う余地がありません。実際には、人間は、照明、視点、スタイル、さらにはグラフィックスの抽象化のレベルに関係なく、写真や画像内のほぼすべてのオブジェクトを認識することができます。しかし、コンピューターは以前ほど進歩しておらず、最近まで自然画像内の物体の分類精度は人間のレベルに達していませんでした。 2012 年に登場したディープラーニング技術は、コンピューター ビジョン、特に画像分類の分野に大きな革命をもたらし、精度は 95% を超えました。これらの技術は、自然画像には非常に魅力的ですが、画像レベルの認識の別のレベルをほとんど探求していません。

これらのネットワークの成功の鍵の 1 つは、非常に複雑で非線形なピクセル統計、関係、パターンの学習を可能にする、数十万の注釈付き自然画像とキュレーションされたデータセットを利用できることです。ただし、これらのネットワークをトレーニングすることは、時間とリソースの点で非常にコストのかかる作業です。したがって、ディープ ニューラル ネットワークをゼロからトレーニングするには、大量の注釈付きデータと強力な計算能力が必要です。この問題を克服するために、転移学習技術は、既存の事前トレーニング済みアーキテクチャを使用し、より少ないデータで再トレーニングするか、より単純な機械学習アルゴリズムを使用して上位層を分類することで、新しいデータセットに役立てることを目指しています。

自然画像から抽出した特徴を利用してイラスト分類の精度を向上させる転移学習を備えた人工知能の貢献: この研究では、画像分類タスクのために、画像、特にイラスト画像の領域を探求したいと考えています。私たちは、イラストが局所レベルでは、自然な画像とはまったく異なるストローク、エッジ、またはテクスチャの統計を描写しているという直感に頼っています。ただし、より高いレベルでは、オブジェクトの形状を構成する基本的な部分は、その形状とまったく同じままです。まず、公開されているディープニューラルネットワークVGG-19 [SZ14]から始めます。これは、120万枚以上の画像を含む自然画像データセットImaNet [RDS*15]でトレーニングされています。まず、コンテンツ別にラベル付けされたイラスト画像の新しいデータセットでこのようなネットワークを評価します。パフォーマンスが低いことに注目し、ネットワークのいくつかのレイヤーのみを変更して新しいコンテンツをより適切にキャプチャできるようにする、適応型レイヤーベースの最適化戦略を提案します。したがって、高レベル レイヤーに類似したまま、自然な画像とは異なる画像の低レベルの特徴をキャプチャするレイヤーを最初からやり直してトレーニングすることを提案します。

この論文の貢献は次のとおりです。 - コンテンツ別にラベル付けされたイラスト画像の新しいデータセットを提供します。 - 新しいデータセット上で既存のアーキテクチャ[SZ14]のパフォーマンスを評価します。 - 私たちは、データに合わせて最適化された転移学習技術に基づく 2 つの新しいモデルを提案します。最初のモデルは従来の機械学習技術を活用しており、トレーニングには少量の新しいデータが必要です。 2 番目に最適化されたモデルでは、より大きなトレーニング データセットが必要ですが、元のネットワークにすでに存在する情報を活用するため、ネットワークを最初からトレーニングする場合よりも必要なデータ量ははるかに少なくなります。 - 少数の自然画像セットでは、アーキテクチャの変更にもかかわらず、新しいネットワークが自然画像を正確に分類できることを示します。

人工知能は転移学習を使用して、自然画像から抽出された特徴を使用してイラスト分類の精度を向上させます。私たちの目標は、イラストとクリップアートデータのクラスラベルを正しく予測できるモデルを見つけることです。 120万枚以上の画像を含むImageNetデータセット[RDS*15]など、実際の物体のラベル付き画像を含む標準的なデータセットは数多くあります。しかし、私たちが分析しようとしている漫画のようなスタイルに適したデータセットは存在しません。そのため、まずコンテンツ別にラベル付けされたイラスト画像のデータセットを作成します(セクション4)。このデータセットは、異なるタスクに使用される 2 つのデータ セットで構成されています。 826 クラスに分類された 180,000 枚を超える画像を含むノイズの多いデータセットと、4,000 枚を超える画像と 23 クラスを含むキュレーションされたデータセット。キュレーションされたデータセットとノイズの多いデータセットの両方を、トレーニング、評価、およびテスト データの固定セットに分割します。

まず、自然画像のクラス予測に非常に優れた性能を発揮することが示されている既存のVGG19 [SZ14]ディープニューラルネットワークを評価します。セクション 5 では、このアーキテクチャの概要を示し、実際のシナリオでのパフォーマンスを示します。得られた精度が低かったため、これをベースライン(ベースラインVGG19)と見なし、転移学習技術[RASC14、LLZ*11、OBLS14]に触発された2つの新しいモデルを提案します。セクション6.1で説明した最初のモデル(ベースラインVGG19 + SVM)では、SVMを使用してディープネットワークVGG19から抽出された特徴を分類しました。パフォーマンスは以前のアーキテクチャに比べて向上しましたが、まだ低いです。したがって、セクション 7 で説明する 2 番目のモデル (最適化された VGG19+ SVM) を提案します。このモデルは、2 つのステップに基づいています。まず、ノイズの多いデータセットを使用して適応型レイヤーベースの最適化を実行します。次に、前と同様に、最適化されたネットワークの特徴を抽出し、キュレーションされたデータセットを使用して SVM をトレーニングします。このモデルは、トップ 1 ランキングで 86.61% の精度を達成し、トップ 5 ランキングで 97.21% の精度を達成しました。上位 1 位と上位 5 位の精度はそれぞれ 20% と 10% 向上します。

自然画像から抽出した特徴を使用してイラストの分類精度を向上させる転移学習を使用する人工知能 提案モデル: 示すように、イラスト データセットでディープ ネット VGG19 によって得られた精度は、自然画像と比較して大幅に低下します。主な理由は、データセット内の画像の統計が元の画像と異なることです。データのパフォーマンスを向上させるための 1 つのアイデアは、新しい制御ネットワークを作成し、それを最初からトレーニングすることです。しかし、これは 2 つの理由から良い考えではありません。1 つ目は、VGG19 をトレーニングするためのデータの量が不足していること、2 つ目は、モデルがすでに学習したすべての情報が失われることです。この問題に対処するために、転移学習に関する過去の研究[RASC14、LLZ*11、DJV*13]からインスピレーションを得て、2つの新しいモデルを評価します。最初のモデル(セクション 6.1)では、CNN から高レベルの特徴を抽出し、それを画像記述子として使用してサポートベクターマシン (SVM) をトレーニングしました。 2番目のモデル(セクション7)では、VGG19ネットワークの下位層をさらにリセットし、データセットを使用して最適化しました。理論的には形状やオブジェクトをキャプチャすることを目的とした高レベルは、ほとんど変更されていません。

ベースライン VGG19 + SVM: サポート ベクター マシン (SVM) は、分類と回帰のための教師ありアルゴリズムです。 SVM は、異なるクラスのサンプル間の境界が最小になるようにクラスを分類する最適な超平面を見つけようとします。 SVM の一種は、非線形カーネルを使用してデータを高次元空間にマッピングし、その後で最適な超平面を見つけます。私たちの研究では、特徴が非常に大きい場合に効果的であることと、異なるデータ サンプル間の境界を最大化できるため堅牢であることから、非線形サポート ベクター マシンを使用しています。さらに、ディープ ネットワークほど多くのデータは必要ないため、厳選されたデータセットを使用してトレーニングできます。

トレーニングと評価 キュレーションされたデータセットを次のカテゴリに分割しました。データの 16% を検証用、64% をトレーニング用、20% をテスト用データとして使用します。各画像について、ネットワーク VGG19 の 2 番目の完全接続層を取得して特徴ベクトルを取得します。トリプルクロス検証を使用することで、二乗ユークリッド距離を使用するラジアル基底関数カーネル (RBF) によって最高のパフォーマンスが得られ、スラック変数 C = 1 によってトレーニング中に多少のエラーが許容され、分類器がより柔軟で安定し、トレーニング中の各サンプルの重み γ = 0.0001 であることがわかりました。 SVM をトレーニングするための決定関数は One-vs-One Residual (OVR) です。これは、各クラスの分類器をトレーニングし、そのクラスのサンプルを最適な超平面の一方の側に配置し、残りを異なるクラスの最も近いサンプル間の最適なマージンでもう一方の側に配置する最適な超平面を見つけます。トレーニング後、トップ 1 とトップ 5 の精度はそれぞれ 62.04% と 85.64% に向上しました。 RBF 関数と SVM 分類の強力な非線形マッピングにより、VGG19 から取得された画像記述子はより良い結果を達成できます。それにもかかわらず、ネットワークは依然としてイラスト画像の低レベルの特徴を認識できず、イラスト画像の統計を使用してネットワークを最適化すると、まだ改善の余地があることがわかります。

自然画像から抽出した特徴を使用してイラストの分類精度を向上させる転移学習を使用した人工知能 結論: この研究では、ディープ ニューラル ネットワークの高レベル レイヤーを、自然画像とイラストという 2 つの異なるドメイン間でどのように転送できるかを検討しました。ラベル付けされキュレーションされたデータを含む新しいイラストレーションデータセットを提案しました。自然画像用にトレーニングされたディープ ニューラル ネットワークは、漫画やクリップアートなどのより抽象的な説明を使用してターゲット データセットを分類するときに失敗することがわかりました。私たちは、元のネットワークのパフォーマンスをそれぞれ 30 ~ 60% 向上させる 2 つのモデルを提案し、そのモデルが写真に対して依然として十分に機能することを示しました。

将来の仕事には興味深い道がたくさんあります。 Curated データセットでは、Noisy データセットの利用可能なデータのほとんどが除外され、826 個のうち 23 個のみが使用されます。現在は手作業で行われているため、クラウドソーシング プラットフォームを使用してデータを収集することで改善できる可能性があります。現在の実験では、これらの概念がネットワーク内にまだ存在していることが示唆されているため、ImageNet データセット上でネットワークの精度を徹底的に評価するために、さらなる実験を実施したいと考えています。非常に興味深い問題は、そのようなネットワークにおける抽象化と知覚を調査し、たとえば、そのようなモデルがゲシュタルトの法則を自動的に学習するかどうか、または物体を認識するために不可欠なエッジや部分が何であるかを予測するかどうかを調べることです。 (特別コメント:人工知能は転移学習を利用して自然画像から抽出した特徴を利用してイラスト分類の精度を向上させ、ディープラーニングの分野に新たな空間を提供します。この革新的な点は、興味深い人工知能が推奨する必要があります。ネットユーザーXiaoxingが推奨します!)

<<:  テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

>>:  Alibaba のエンジニアは、ナレッジ グラフ データ構築の「難題」にどのように取り組んでいるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習は「原子幾何学」の秘密を明らかにし、数学の発展を促進した

代数多様体とその方程式。代数幾何学は、一方では方程式の研究である代数学、他方では図形の研究である幾何...

RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

分布の不一致を避けるために、強化学習のトレーニングはオンラインで環境と対話する必要がありますか? G...

「手抜きアルゴリズム」は大企業をターゲットにしており、これがそれだ

[[342088]]基本的なデータ構造の統合は、大規模システムの基礎となります。たとえば、Redis...

百度の王海鋒氏:マルチモーダルな深い意味理解により、AIは現実世界をよりよく理解できるようになる

7月4日に開催された百度AI開発者会議(Baidu Create 2018)で、百度上級副社長兼AI...

これらの仕事は今後5年以内に機械に置き換えられる可能性があり、8500万人が解雇される危険にさらされている。

5G ネットワークの誕生と普及により、5G ネットワークのサポートにより、モノのインターネットの新...

スマートドライビングが誕生してから10年経った今、なぜ理想的なビジネスモデルの実現が難しいのでしょうか?

[[420239]] 2011年7月14日、紅旗HQ3は長沙から武漢までの286キロの高速道路を疾...

AIがビジネスにどのように役立つか

[[353997]]人工知能は誕生以来、成功と失敗の時期を経験し、技術の進歩も限界と放棄に直面してき...

2022 年の 5 つの主要な AI と機械学習のトレンド

[[414740]]人工知能と機械学習の分野では、企業が今から準備しておくべき大きなトレンドがいくつ...

2024年までにAIがすべての仕事をどう変えるのか

仕事の環境は、主に GenAI の進歩によって、前例のない変化を遂げています。ほんの数年前には初期段...

...

無人スーパーマーケットの仕組みをご存知ですか?

[[280914]]近年、無人スーパーマーケットが大人気となり、さまざまなeコマース企業が独自の無...

人工知能が登場して60年になります。人工知能について私たちはどんな誤解をしているのでしょうか?

8月23日、百度のCEOであるロビン・リー氏は中国国際知能産業博覧会で講演し、一般の人々は人工知能...

2つのセッションでは人工知能技術が注目を集めました。AI技術はこれらの業界で導入されています

近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...

「新しいインフラ」に注力 - Powerleader がコンピューティングパワーで人工知能を強化

「新インフラ」の7つの主要分野の一つとして、人工知能は政策推進と産業成熟度の大幅な向上の恩恵を受け、...