高精度なCVモデルを取得するには? Baidu EasyDLの超大規模ビジュアル事前トレーニングモデルをぜひお試しください

高精度なCVモデルを取得するには? Baidu EasyDLの超大規模ビジュアル事前トレーニングモデルをぜひお試しください

ディープラーニングの分野では、「転移学習」という用語がますます注目を集めています。パフォーマンスが優れている教師あり学習と比較して、多くの退屈なラベル付けプロセスを排除できます。簡単に言えば、大規模なデータセットでトレーニングされた事前トレーニング済みモデルに小さなデータセットを移行して、新しいデータに対するより良い認識効果を得ることです。新しいモデルの開発コストを大幅に節約できるため、実際のアプリケーションでより広く注目されています。これを踏まえ、Baidu EasyDLのゼロ閾値AI開発プラットフォームは、転移学習ツールと組み合わせた超大規模ビジュアル事前トレーニングモデルを導入し、開発者が少量のデータを使用して高精度のAIモデルを迅速にカスタマイズできるようにしました。

高品質なデータを得ることは難しく、転移学習によってモデルのパフォーマンスが向上する

ディープラーニングモデルをトレーニングする場合、通常は大量のデータが必要になりますが、データの収集やラベル付けなどのデータ準備プロセスには多くの人的、費用、時間のコストがかかります。この問題を解決するには、事前トレーニング済みのモデルを使用できます。事前学習済みモデルAを出発点として、これに基づいて再調整し、事前学習済みモデルとそれが学習した知識を使用して、別のタスクBを実行する能力を向上させます。簡単に言えば、大規模なデータセットで学習した事前学習済みモデルに小さなデータセットを移行して、新しいデータに対するより良い認識効果を得ることです。これが転移学習です。転移学習は機械学習の手法として、さまざまなディープラーニングタスクで広く使用されています。転移学習を実装する場合、多くのディープ ネットワーク移行方法がありますが、その中で最もシンプルなディープ ネットワーク移行方法は「Fine-tune」です。主に、トレーニング済みのモデル パラメータを新しいモデルに移行して、新しいモデルのトレーニングに役立ちます。

特定のモデル開発タスクでは、通常、大規模な公開データセットでトレーニングおよび収束され、良好な結果が得られたモデルを事前トレーニングの重みとして選択し、その後、ビジネス データを使用してモデルを微調整します。微調整中は、デフォルトのソース ドメイン (事前トレーニング済みモデル) とターゲット ドメイン データセット (ユーザー ビジネス データセット) に強い相関関係が必要です。つまり、データが同一に分散されている必要があります。このようにして、事前トレーニング済みモデルの大量の知識を活用して、特定のビジネス シナリオをターゲットとし、優れた結果をもたらすモデルを迅速かつ効率的にトレーニングできます。

しかし、実際のアプリケーション シナリオでは、データ セットの分布がソース データ セットの分布と異なるという問題に多くのユーザーが直面します。たとえば、事前トレーニング済みモデルのデータはすべて自然の風景ですが、ユーザーのデータセットはすべてアニメのキャラクターです。ソース データ セットとターゲット データが大きく異なるこのような問題は、特定のアプリケーションで負の転移につながる可能性が高く、トレーニングの収束が遅くなり、モデルのパフォーマンスが低下するという形で現れます。

そのため、さまざまなシナリオを網羅し、あらゆるユーザーのニーズをカバーする超大規模データセットが非常に重要です。この包括的な超大規模データセットでトレーニングされたモデルは、あらゆる分野のユーザーのニーズに適応し、ユーザーのビジネスデータセットをより適切に調整し、ユーザーが独自のデータセットでより優れたモデルを取得できるように支援します。

Baidu の超大規模事前トレーニング済みモデルは、このような背景から生まれました。視覚的な面では、Baidu が独自に開発した超大規模視覚事前トレーニング済みモデルは、画像分類と物体検出の両方をカバーしています。画像分類用の事前トレーニング済みモデルは、10万以上のオブジェクトカテゴリと6,500万枚の超大規模画像を含む膨大なインターネットデータを使用した大規模なトレーニングを通じて取得され、さまざまな画像分類シナリオに適しています。オブジェクト検出用の事前トレーニング済みモデルは、800以上のカテゴリ、170万枚の画像、1,000万以上のオブジェクトボックスのデータセットを使用した大規模なトレーニングを通じて取得され、さまざまなオブジェクト検出アプリケーションシナリオに適しています。公開データセットを使用してトレーニングされた事前トレーニング済みモデルと比較すると、さまざまなデータセットでパフォーマンスの向上度合いが異なり、モデルのパフォーマンスと一般化の両方が大幅に向上しました。

実際のテストデータは、Baiduの超大規模ビジュアル事前トレーニングモデルの強力な機能を実証しています。

(以下の実験データセットはさまざまな業界のものです)

画像分類

画像分類モデルでは、Baidu の超大規模事前トレーニング済みモデルを使用した Resnet50_vd は、さまざまなデータセットで通常のモデルよりも平均 12.76% 向上しています。Baidu の超大規模事前トレーニング済みモデルを使用した Resnet101_vd は、通常の事前トレーニング済みモデルよりも平均 13.03% 向上しています。Baidu の超大規模事前トレーニング済みモデルを使用した MobilenetV3_large_1x は、通常の事前トレーニング済みモデルよりも平均 8.04% 向上しています。

ResNet50_vd、ResNet101_vd、MobileNetV3_large_x1_0は、Baiduの超大規模事前学習モデルに基づいて学習されています。その中には、いくつかの特別なモデルがあります。EffcientNetB0_smallは、SEモジュールのないEffcientNetB0です。精度が大きく変わらないことを保証しながら、トレーニングと推論の速度を大幅に向上させます。ResNeXt101_32x16d_wslは、大量の画像に基づく弱教師付き事前学習モデルです。精度は高いですが、予測時間は比較的長くなります。Res2Net101_vd_26w_4sはさらに、単一の残差ブロックに階層的な残差接続を構築し、ResNet101よりも精度が高くなります。

さらに、画像分類モデルのモデル効果をさらに向上させるために、トレーニングレベルでは、画像分類に mix_up 関数と label_smoothing 関数が追加され、モデルのトレーニング状況に応じて、単一ラベル分類タスクでオンまたはオフに切り替えることができます。 Mix_up は、トレーニング サンプルから 2 つのサンプルをランダムに抽出し、単純なランダム加重合計を実行するデータ強化方法です。重みは保存され、サンプル ラベルは同じ重みで重み付けされ、それに応じて合計されます。次に、予測結果が加重合計ラベルと比較され、損失が計算されます。異なるサンプルの特徴を混合することで、モデルの誤ったラベルのメモリが削減され、モデルの一般化能力が向上します。 Label_smoothing は、クラス間の距離を増やし、クラス内の距離を減らす正則化手法です。モデルが予測結果に自信を持ちすぎて、予測が実際の状況から外れてしまうことを防ぎます。また、ラベルの柔らかさが不十分なために生じるオーバーフィッティングの問題も、ある程度軽減します。

物体検出

物体検出モデルでは、百度の超大規模事前学習済みモデルを採用したYOLOv3_DarkNetは、通常のモデルと比較して、さまざまなデータセットでのモデル性能が平均4.53%向上しました。百度の超大規模事前学習済みモデルを採用したFaster_RCNNは、通常の事前学習済みモデルと比較して、平均1.39%向上しました。

さらに、物体検出の方向では、EasyDLには、Baiduの超大規模事前トレーニング済みモデルに基づいてトレーニングされたYOLOv3_DarknetとFaster_R-CNN_ResNet50_FPNが組み込まれています。そのうち、Cascade_Rcnn_ResNet50_FPNは、複数の検出器をカスケード接続し、異なるIOUで再サンプリングメカニズムを設定することで、検出器と位置決めの精度をさらに向上させます。さらに、ユーザーのニーズに応えて、2つの新しいYOLOv3バリアントモデルが追加されました。そのうち、YOLOv3_MobileNetV1は、元のYOLOv3スケルトンネットワークをMobileNetv1に置き換えます。YOLOv3_DarkNetと比較して、新しいモデルのGPUでの推論速度は約73%向上しています。 YOLOv3_ResNet50vd_DCNは、スケルトンネットワークをResNet50-VDに置き換えます。ネイティブDarkNet53ネットワークと比較して、速度と精度に一定の利点があります。GPU推論速度が基本的に変わらないことを保証しながら、モデル効果は1%向上します。同時に、変形可能な畳み込みの追加により、不規則なオブジェクトの検出効果も積極的に向上します。

さまざまなデータに基づくと、Baidu の超大規模視覚事前トレーニング モデルは、公開データセットでトレーニングされた事前トレーニング モデルと比較して、パフォーマンスが大幅に向上していることがわかります。

EasyDLは閾値ゼロで、高精度のAIモデルを効率的にカスタマイズします

Baidu EasyDL は、エンタープライズ開発者向けの PaddlePaddle ディープラーニング プラットフォームをベースとしたゼロ閾値 AI 開発プラットフォームです。インテリジェント ラベリング、モデル トレーニング、サービス展開などの全プロセス機能をワンストップでサポートします。豊富な事前トレーニング済みモデルが組み込まれており、画像分類、オブジェクト検出、テキスト分類、オーディオおよびビデオ分類など、複数の種類のモデルをサポートし、パブリック クラウド/プライベート化/デバイスなどの柔軟な展開方法をサポートします。 EasyDL は、工業、小売、製造、医療などの業界で広く導入されています。

データの準備、モデルのトレーニングからサービスの展開まで、モデルの開発と適用のプロセスにおいて、開発者は各リンクで異なる限界や困難に直面する可能性があります。

データ準備フェーズで、ビジネスニーズに基づいて適切なトレーニング データを選択し、正しく注釈を付けるにはどうすればよいでしょうか。

モデルのトレーニングでは、適切なモデルをどのように選択し、精度をどのように向上させるのでしょうか?

展開の「ラストマイル」に到達したとき、どのようにハードウェアを選択し、ビジネス統合を迅速に完了するのでしょうか?

質問に答えるチャンスです!

今週の土曜日、AIファストトラックは「世界の歴史都市」西安に到着します。また、オープンソースフレームワークアドバンストキャンプでは、BaiduのシニアR&Dエンジニアが、開発プロセス全体の6つの主要な方向、ターゲット検出、「オールラウンド」OCR、最先端のNLPテクノロジー、デプロイメントツール、Kunlunチップについて詳細な説明を行います。AIアプリケーションを持ち、ディープラーニングテクノロジーを愛し、技術のブレークスルーを求めている開発者は、[ハイテクヒルトンホテル7階ホール3]に交流に来てください。歴史、科学研究、教育、産業の重要な発展を遂げたこのような都市で、皆さんと一緒にAIの道を築くことを楽しみにしています。

同日、AIファストトラック[EasyDLゼロ閾値モデル開発キャンプ]も[西安ヒルトンホテルハイテクゾーン7階ホール1]で開催されます。百度のシニアR&Dエンジニアが半日かけて技術原理をわかりやすく説明し、ビジネスとテクノロジーを組み合わせて業界のベンチマークケースを分析し、学生がモデル開発を完了できるようにステップバイステップで指導します。また、デバイス側のモデル技術原理の紹介とデモンストレーション、モデル効果の向上における長年蓄積された研究開発経験の共有もあり、 EasyDL モデル開発の真の意味を短時間で効率的に習得するのに役立ちます。

同時に、オンラインライブ放送も同時開催されます。ポスターの QR コードをスキャンするか、登録リンクをクリックしてグループにサインアップし、完全なクラススケジュールとライブ放送リンクを入手してください。

登録リンク: https://paddle.wjx.cn/jq/93404058.aspx?udsid=793872

<<:  スポーツと人工知能が出会うとき(スポーツレビュー)

>>:  ドイツ企業の47%は、人工知能の最大の利点は生産効率の向上であると考えている。

ブログ    
ブログ    

推薦する

微分方程式と機械学習: 類似点と相違点の例

AI分野におけるモデリング手法として、微分方程式と機械学習がありますが、それぞれの利点は何でしょうか...

人工知能が教育評価の近代化に貢献

教育評価は、教育の質の継続的な向上を促進する「牛の鼻」として、確立された教育目標に基づき、一定の教育...

バイオメディカルホログラフィックイメージング用の RNN が 50 倍高速化

[[407014]]デジタル ホログラフィーは、生物医学イメージングでよく使用される顕微鏡技術です。...

...

2021年に機械学習を始めるためのガイド

この質問は、機械学習コミュニティのソーシャル メディアでよく聞かれます。機械学習を始めるにはどうすれ...

Amazon Rekognition の紹介

Amazon Rekognition を使用すると、アプリケーションに画像およびビデオ分析機能を簡単...

多関節ロボットの主な分類、利点、欠点は何ですか?

多関節ロボットは、多関節アームロボットまたは多関節ロボットアームとも呼ばれ、今日の産業分野で最も一般...

LIama2を運営して8400万元稼ごう!最速のAI推論チップのコスト見積もりが白熱した議論を巻き起こす

史上最速の大規模モデル推論を実現するには、1171万ドル(8410万元)の費用がかかりますか? ? ...

指紋、顔、音声認識技術は、本当に簡単に解読できます。

【AI世代編集部注】顔認識は今年、CCTVの315ガラで痛烈に批判された。この技術は人々が安心して...

機械学習における不均衡なクラスに対処するための 5 つの戦略

クラスの不均衡: 希少疾患の機械学習データセット(陽性が約 8%)があるとします。この場合、トレーニ...

...

早く来なさい!最初の Python チャットボット プロジェクトの構築

Python を使用すると、お客様専用のチャットボット プログラムの構築など、さまざまな目標を達成で...

ガートナー:今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する

9月30日、ガートナーの最近の調査によると、人工知能技術計画を持つテクノロジーおよびサービスプロバイ...

...