限られたデータでモデルのパフォーマンスを最大化するにはどうすればよいですか? Baidu のエンジニアがデータ拡張サービスを構築

AI モデルの開発プロセスでは、トレーニングデータが不十分なためにモデルのパフォーマンス向上が妨げられる開発者が多くいます。優れた結果をもたらすディープラーニングモデルは、通常、大規模なラベル付きデータセットによってサポートされています。したがって、モデルのパフォーマンスを向上させるための一般的なアプローチは、データの量と多様性を増やすことです。しかし、実際には、大量の高品質データを収集することは容易ではありません。特定の分野やアプリケーションシナリオでは、大量のデータを取得することさえ困難です。では、より少ないデータでモデルのパフォーマンスを向上させるにはどうすればよいでしょうか?

ディープラーニングの発展により、データ拡張技術は開発者がデータ不足の問題を解決するのに役立ちます。データ拡張技術は、データ自体をある程度撹乱することで「新しい」データを生成します。モデルは大量の「新しい」データを継続的に学習することで、一般化能力を向上させます。

さまざまなデータセットのデータ特性によって、それらに適用可能なデータ拡張戦略の組み合わせが決まります。データ特性に関する専門的な理解がなければ、ユーザーがデータセットの特性と強く相関するデータ拡張戦略の組み合わせを構築することは困難です。たとえば、標準的な ImageNet データ前処理プロセスでは、ランダムクロップやランダムフリップなどのデータ強化技術が使用され、優れた効果が得られています。ただし、一部の特定のユーザーシナリオ (小売 SKU カットアウトシナリオなど) では、データの端に重要な情報がある場合、ランダムクロップによって情報が失われ、一部の特定のユーザーシナリオ (デジタル認識など) では、ランダムフリップによって機能の混乱が発生します。そのため、データの特徴に基づいてデータ強化戦略の組み合わせを自動的に検索する方法が、注目されている研究方向となっています。

自動データ拡張分野の学術研究を振り返ると、最も影響力のある論文は、2018年にGoogleが提案したAutoAugment技術です。その後、関連する最適化論文が次々と発表されました。図 1 に示すように、既存の方法に基づいたモデリングのアイデアをいくつか簡単に整理します。

図1 自動データ拡張アルゴリズムのモデリングアイデアの分類

1) 強化学習: AutoAugment [1] は、強化学習に基づくアーキテクチャ検索アルゴリズムを利用しています。離散化された検索空間で、近似ポリシー最適化 (PPO) アルゴリズムを使用してポリシージェネレーターをトレーニングします。ポリシージェネレーターの報酬信号は、生成されたポリシーがサブネットワークトレーニングに適用された後の検証セットの精度です。問題は、 AutoAugment の検索コストが非常に高く、業界のビジネスニーズを満たすことができず、ビジネスモデル開発への適用が難しいことです。

2) 密度マッチング：Fast AutoAugment[2]は、データ拡張後の検証データのデータポイントが元のトレーニングデータセットの分布と可能な限り一致することを期待して、密度マッチング戦略を採用しています。この考え方は、データセットの歪みを引き起こすいくつかの強化戦略を直感的に排除できますが、 「最適な戦略をどのように見つけるか」という問題は解決しません。

3) 遺伝的進化：PBA[3]はPBTの遺伝的進化戦略を採用しており、複数のネットワークを同時にトレーニングする際にネットワークの重みを継続的に「利用」および「摂動」して、最適なデータ拡張スケジューリング戦略を取得します。この考え方により、適者生存を通じて最適な戦略を直感的に探すことができます。

4) グリッド検索：RandAugment[4]は、強度と確率パラメータを統合することで検索空間を大幅に削減し、グリッド検索を使用したデータ拡張検索の問題を解決することを目指しています。しかし、この技術には戦略の解釈可能性がありません。実装手段はさておき、この論文はむしろAutoAugmentの自己否定に近いものです（注：RandAugmentもGoogleが作成した論文です）。

5) 敵対的学習：敵対的AutoAugment[5]は、AutoAugmentをベースにしたGANの敵対的なアイデアを借用し、ポリシージェネレーターが困難なサンプルを継続的に生成できるようにし、ポリシージェネレーターと分類器を並行してトレーニングできるようにすることで、検索時間を短縮します。しかし、全体的な検索コストは依然として非常に高いです。

6) 微分可能性：DADA[6]はDARTSのアルゴリズム設計の考え方を借用し、離散パラメータ空間をGumbel-Softmaxを介して微分可能なパラメータ最適化問題に再パラメータ化し、探索コストを大幅に削減します。

上記のモデリングのアイデアのうち、遺伝的進化と微分化モデリングのアイデアは、自動データ拡張検索のコストをオンラインビジネスが負担できるリソース範囲にまで下げ、優れた戦略解釈性を備えているため、モデル開発への応用に適しています。モデリングのアイデアの評価と判断に基づいて、Baidu のエンジニアは、開発者がモデル効果をさらに最適化できるように、遺伝的進化と微分化可能なアイデアをゼロ閾値 AI 開発プラットフォーム EasyDL に適用することを決定しました。

EasyDLは、企業の開発者にインテリジェントなラベリング、モデルのトレーニング、サービスの展開などのフルプロセス機能を提供します。AIモデル開発プロセスにおける複雑なタスクに便利で効率的なプラットフォームソリューションを提供し、豊富な事前トレーニング済みモデルと最適化された複数のアルゴリズムネットワークを内蔵しています。ユーザーは少量のビジネスデータで高精度のモデル効果を得ることができます。 EasyDL は、さまざまなユーザーグループ向けに、クラシックバージョン、プロフェッショナルバージョン、業界バージョンの 3 つの製品バージョンを提供しています。

現在、遺伝子進化PBA技術はEasyDLプラットフォームに実装され、EasyDL事業における差別化可能な技術アイデアの実践も継続的に模索されています。

PBAはPBT[7]の遺伝的進化戦略を採用し、ニューラルネットワークのグループ（集団、試行）をトレーニングすることでハイパーパラメータのスケジューリングを見つけます。高性能トライアルの重みは、トライアル間で定期的に低パフォーマンストライアルにコピーされ (エクスプロイト)、図 2 の PBT フローチャートに示すように、特定のハイパーパラメータ摂動戦略 (エクスプロイト) が存在します。

図2 PBTアルゴリズムフローチャート

しかし、プラットフォーム上で機能を実装するのは簡単ではありません。エンジニアは、論文のオープンソースコードを再現する過程でいくつかの問題を発見しました。

1) オープンソースコードでは、Ray の Population Based Training 実装を使用していますが、このインターフェースでは、並列試行が同期エクスプロイトを実現できることを保証することはできません。特にリソースが限られている場合、進化度の高い試行と進化度の低い試行の間でエクスプロイトが発生する可能性が高くなります。このような誤った進化は許容されません。

2) オープンソースコードでは、シングルマシンマルチカードバージョンの検索機能のみが実装されています。マルチマシンマルチカード機能に拡張したい場合は、Ray をベースに二次開発を行う必要があります。

3) オープンソースコードは、画像分類のための自動データ拡張検索のみを実装しており、オブジェクト検出などの他のタスクのためのデータ拡張検索機能は提供していません。

4) オープンソースコードにおける既存の拡張演算子の実装方法は、比較的非効率的です。

上記のすべてを考慮して、Baidu のエンジニアは最終的にPBA に基づく自動データ拡張検索サービスをゼロから構築しました。

この自社開発の自動データ拡張検索サービスには、次の機能があります。

標準の PBT アルゴリズムが実装されており、公平な進化を保証するために集団試験の同期的な活用と探索をサポートします。
分散拡張をサポートし、同時接続数を制限なく柔軟に調整できます。
検索サービスはタスクから分離されており、PaddlePaddle ディープラーニングプラットフォームの画像分類およびオブジェクト検出タスクをすでにサポートしており、他の視覚タスクやテキストタスクにも拡張できます。
データ拡張演算子は C++ に基づいて効率的に実装されています。

自社開発の能力はどの程度効果的でしょうか?公開データセットでは、Baiduのエンジニアが自社開発した自動データ拡張検索サービスを既存のベンチマークと連携させました。表1のImageNetベンチマークはPaddleClas[8]フレームワークでトレーニングされ、表2のCocoベンチマークはPaddleDetection[9]フレームワークでトレーニングされました。

結果は、EasyDL 自動データ拡張サービスが AutoAugment と同等の高い精度を達成でき、速度面でも大きな利点があることを示しています。現在、データ拡張検索に使用される分類および検出演算子は AutoAugment と連携しています。今後、より効率的な演算子が継続的に拡張され、モデルの効果をさらに向上させていきます。

モデル	データ変更戦略	TOP1 アクセラレーター	データ拡張戦略の検索時間 (GPU 時間)
レスネット50	標準変換	0.7731	\
	自動拡張	0.7795	15000[1](P100)
	EasyDL自動データ拡張サービス	0.7796	45(V100)
モバイルネットV3_ 小さい_x1_0	標準変換	0.682	\
モバイルネットV3_ 小さい_x1_0	EasyDL自動データ拡張サービス	0.68679	28(V100)

表1 ImageNetベンチマーク[8]

モデル

データ変更戦略

ボックスAP

強化された戦略検索時間 (GPU 時間)

より速い_RCNN_R50_

言語

自動拡張

39.9

48*400[10](TPU)

EasyDL自動データ拡張サービス

39.3

90(V100)

表2 ココベンチマーク[9]

EasyDL は現在、クラシックバージョンで手動データ拡張サービス、プロフェッショナルバージョンで自動データ拡張検索サービスを開始しています。単一ラベル画像分類タスクでは、エンジニアはパフォーマンス評価のために 11 個のオンラインタスクをランダムに選択しました。下の図に示すように、自動データ拡張サービスのプロフェッショナル版を使用した後、11のタスクの精度が平均5.42％向上し、最も高いタスクでは18.13％の改善を達成しました。

図3 画像分類単一分類効果評価

物体検出タスクでは、ランダムに選択した 12 個のオンラインタスクの効果を評価しました。効果の比較は下の図に示されています。自動データ拡張サービスのプロフェッショナルバージョンを使用した後、11 個のタスクの精度は平均 1.4% 向上し、最高のタスクでは4.2% の向上を達成しました。

図4 物体検出効果の評価

EasyDL プラットフォームは、インタラクティブなインターフェースを通じて、ユーザーにシンプルで使いやすい操作環境を提供します。同様に、EasyDL のデータ拡張サービスの使用も非常に簡単です。

現在、トレーニング環境のリソース消費量の違いにより、EasyDL Classic Edition と Professional Edition では 2 つのデータ拡張戦略が提供されています。

クラシックバージョンでは、手動で構成されたデジタル拡張戦略が開始されました。図 5 に示すように、ユーザーはトレーニングモデルページで「手動構成」を選択して、データ拡張演算子を使用できます。

プロフェッショナルバージョンでは、トレーニング環境の複数の選択肢により、自動検索戦略がサポートされるようになりました。図 6 に示すように、新しいタスクページの「データ拡張戦略」で「自動検索」を選択し、検索する演算子の範囲を設定すると、すぐに自動データ拡張が実現されます。

図5: 従来の手動データ拡張の使用プロセス

図6 プロフェッショナル版の自動データ拡張使用プロセス

開発者が EasyDL を使用して効果的なモデルをより便利かつ効率的に開発できるようにするために、EasyDL ではフレームワーク設計に複数のコンポーネントと機能が組み込まれています。 EasyDL インテリジェント検索サービスの全体的なアーキテクチャ図 (図 7) に示されているように、その基礎となる基本コンポーネントは分散インテリジェント検索であり、マルチマシンおよびマルチカード検索、トレーニングのフォールトトレランス、複数の検索最適化アルゴリズムのサポートなどの機能を備えています。この製品は、分散インテリジェント検索が提供するコア機能に基づいて、自動データ拡張検索、ハイパーパラメータ検索、NAS 検索などのサービスを構築しており、ユーザーは技術的な詳細を気にすることなく、EasyDL が提供する複数の検索サービスを簡単に使用してモデル結果を最適化できます。

図7 EasyDLインテリジェント検索サービスの全体アーキテクチャ

あらゆる業界で AI の導入が加速する中、コストを削減し効率を高めるために AI 機能を活用し、インテリジェントな変革の道を歩み始める企業が増えています。しかし、AI が産業を強化するプロセスでは、大規模な商業化は非常に複雑であり、企業は多大なエネルギーを投資する必要があります。さまざまな業界やシナリオの差別化と断片化により、AI に対する需要も異なります。したがって、シナリオの変化に応じて AI モデルをカスタマイズおよび開発できるプラットフォームが重要です。 EasyDL は、アルゴリズムしきい値がゼロのプラットフォーム機能を通じて、常に変化するシナリオ要件をカバーし、特定のビジネスに柔軟に適応できる複数の展開方法を提供します。

EasyDL は、工業製造、スマートセキュリティ、小売、日用消費財、輸送、インターネット、教育、トレーニングなどの業界で広く導入されているゼロスレッショルド AI 開発プラットフォームです。

同時に、百度はゼロ閾値AI開発プラットフォームEasyDLに加えて、企業のデータサイエンティストやアルゴリズムエンジニアチームを対象としたフル機能のAI開発プラットフォームBMLも立ち上げ、包括的で柔軟にカスタマイズ可能で、深く統合された機械学習開発プラットフォームを提供しています。

Baidu で「EasyDL」を検索するか、リンクにアクセスして高精度の AI モデルを開発してください。 https://ai.baidu.com/easydl/

[1]:Cubuk ED、Zoph B、Mane D、et al。Autoaugment：データからの拡張ポリシーの学習[J]。arXivプレプリントarXiv：1805.09501、2018。

[2]:Lim S、Kim I、Kim T、et al. 高速自動拡張[C]//ニューラル情報処理システムの進歩。2019:6665-6675。

[3]:Ho D、Liang E、Chen X、et al. 人口ベースの拡張：拡張ポリシースケジュールの効率的な学習[C]//国際機械学習会議。2019：2731-2741。

[4]:Cubuk ED、Zoph B、Shlens J、et al。Randaugment：検索空間を縮小した実用的な自動データ拡張[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops。2020：702-703。

[5]: Zhang X、Wang Q、Zhang J、et al。敵対的自動拡張[J]。arXivプレプリントarXiv：1912.11188、2019。

[6]:Li Y、Hu G、Wang Y、et al. DADA: 微分可能な自動データ拡張[J]。arXivプレプリントarXiv:2003.03780、2020年。
[7]：Jaderberg M、Dalibard V、Osindero S、et al. Population based training of neural networks[J]. arXiv preprint arXiv:1711.09846, 2017.

[8]:https://paddleclas.readthedocs.io/zh_CN/latest/advanced_tutorials/image_augmentation/ImageAugment.html#id6

[9]:https://github.com/PaddlePaddle/PaddleDetection/tree/master/configs/autoaugment

[10]: Zoph B、Cubuk ED、Ghiasi G、et al。物体検出のためのデータ拡張戦略の学習[J]。arXivプレプリントarXiv：1906.11172、2019。

<<: Raspberry Pi でボストンロボットドッグを DIY すれば、50 万ドル節約できます。オープンソースのチュートリアルで誰でも始められます。

>>: AIが自動運転データセンターを構築する方法

マスク氏のChatGPTバージョンが急成長中！ Pythonなしで11人が2か月間懸命に働いた

限られたデータでモデルのパフォーマンスを最大化するにはどうすればよいですか? Baidu のエンジニアがデータ拡張サービスを構築

マスク氏のChatGPTバージョンが急成長中！ Pythonなしで11人が2か月間懸命に働いた

脳コンピューターインターフェースの新発見！眠りに落ちた後、脳は起きている時の経験を再生する

2023年雲奇会議開幕アリババの蔡崇馨氏：AI時代の最もオープンなクラウドを構築

NLPは単語を分割せずに実行できます。ハルビン工科大学の最新モデルは、複数のタスクでBERTに勝ちました

Haiyun Jiexun の Ren Zhongping 氏: アイデアから実現まで、AI はわずか 10 クリックで実現します。

ChatGPTの不正行為から逃れるのは難しいです！ 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究

Windows コンピューターでディープラーニングモデルをトレーニングしますか?非常に詳細な設定チュートリアルはこちら

インテリジェントな人間とコンピュータの相互作用とは何ですか?

成功するAIチームの特徴

推薦する

国産のハイエンドチップはどれくらい強いのか？業界関係者6人がこう考えている

自動テストの落とし穴は何ですか?どうすれば解決できるでしょうか?

手紙を開かずに読むことはできますか？ MITのX線技術がネイチャー誌に掲載される

未来に向けて：IoT + AIが人類の進化の方向となる

ディープラーニングを使用して、写真用の強力な画像検索エンジンを構築します

AIによる自動思考の隠れたコストについて

Uber劉延東：Uberがフードデリバリーサービスを開始したとき、世界中のフードデリバリー会社は衝撃を受けた

中国の博士が強化学習を使ってSpaceXのロケットを回収

次世代の人工知能は将来のテクノロジーの展望を一変させるだろう

ニューラルネットワークにおける量子化と蒸留