Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

背景

Baiduは昨年11月にカスタマイズされた画像トレーニングサービスを開始しました(https://ai.baidu.com/customize/app/model/)。画像処理におけるディープラーニングが成熟するにつれて、CNN ベースの転移学習が非常に効果的であることが証明されました。ますます多くの従来型ビジネスやインターネット ビジネスが、効率性と自動化を向上させるためにビジネスをアップグレードする必要に直面しています。電子商取引の画像検索など、大量の画像をリアルタイムで処理する必要がある状況でも、テキスト検索と同様に、画像を使用して類似商品を検索することが必要になってきています。

ディープラーニングの分野では常に人材が不足しており、従来の企業には独自のディープラーニングモデルをトレーニングする方法がありません。さらに、ビジネス主導の企業には、ディープラーニング モデルをトレーニングするために数十万のデータ ポイントを蓄積する手段がないことがよくあります。大手 AI 企業は、多くの場合、人材の蓄えとデータにおいて比類のない優位性を持っています。その結果、テクノロジー大手はデータと人材を独占するケースが多くなります。

Google は今年初め、機械学習の専門知識や能力を必要とせずに、高品質のカスタマイズされたモデルをトレーニングすることを目的とした AutoML サービスを開始しました。それ以来、テクノロジー大手は、自社のモデルの利益率を犠牲にして、AI の専門家ではない人々に自社のビジネス シナリオ用のモデル生成を支援するサービス ツールを提供するなど、思い切った対策を講じてきました。ただし、Google の AutoML サービスはまだアルファ モードであり、オンラインではドキュメントは提供されていません。

今回、百度は小規模サンプルに基づく画像トレーニングサービスを開始し、データ、モデリング、テスト、展開、オンラインリリースなどの一連のプロセスをウェブサイトに統合しました。ユーザーはマウスをクリックするだけで自分のモデルを入手でき、しかも無料なので非常に良心的です。

トレーニングプロセス

独自のモデルをトレーニングするのは実はとても簡単です。簡単に言うと、わずか 4 つのステップで独自のモデルを取得できます。

1. モデルを作成する: Baidu アカウントにログインし、基本情報を送信して、「モデルの作成」をクリックし、モデル名と使用シナリオを入力して、モデルの作成を開始します。

2. データ セットをアップロードします。形式要件に従って画像を整理し、トレーニング画像圧縮パッケージをアップロードして、トレーニング セットの準備を完了します。

3. トレーニング モデル: データセット内のトレーニング データを選択し、トレーニングを実行します。同じモデルの複数の反復がサポートされています。

4. モデルの検証: トレーニングが完了したら、効果を検証し、検証画像を送信して、モデルの精度を検証できます。

5. モデルのローンチ:「トレーニング完了」後、モデルのローンチを申請できます。即日ローンチされる予定です。ローンチ後、「マイモデル」の「ローンチ詳細」を確認し、独自にカスタマイズされた画像認識APIを取得します。同時に、通常の使用についてはAPIドキュメント(http://ai.baidu.com/docs#/ImageClassify-API/564753d3)を参照してください。

6. 拡張トレーニング: 将来的に認識タイプを拡張する必要がある場合は、「データセット管理」に入り、新しい圧縮パッケージをアップロードし続けるか、単一の分類ラベルに基づいて拡張することができます。

トレーニング結果

全モデルのスクリーンショット

カリフォルニア工科大学101

アドレス: http://www.vision.caltech.edu/Image_Datasets/Caltech101/

101 オブジェクトの識別。精度は95.18%、F1スコアは0.93です。全体的な精度は許容範囲内です。各カテゴリの精度を確認するために、ここで具体的な結果を開きました。

バレル: 精度 100.00% F1 スコア 1.00

アリ: 精度 88.89% F1 スコア 0.89

アンカー: 精度 81.82% F1 スコア 0.72

モデルの一般化能力はまだ不十分であることがわかります。一貫性の高い単純なオブジェクトの場合、認識率は 100% に達します。複雑なアリの形状の場合、精度はわずか 89% です。複雑な形状のアンカーの場合、多くの場合、遮蔽物や付随するオブジェクトがあり、モデルの機能はさらに困難になり、精度は 82% に低下します。このネットワークは、複雑さが不十分であるといういくつかの特徴も示しています。おそらく、より深いネットワークの方がうまくいくでしょう。 F1 が 0.72 に低下し、リコール スコアがより低いレベルに達したことを示していることは注目に値します。つまり、省略による損失が正確な識別による利益よりも大きいシナリオに適用する場合、このモデルは比較的大きな損失を引き起こします。

花(5クラス、4242枚の画像):

データ: https://www.kaggle.com/alxmamaev/flowers-recognition/data精度 91.89% F1スコア 0.92

複雑な画像の場合、特にその数が単一でない場合は、精度が大幅に低下することがわかります。しかし、人間を基準として比較すると、まだ十分に許容できるレベルです。

食べ物(20 クラス x 1000 画像):

データ: https://www.vision.ee.ethz.ch/datasets_extra/food-101/

精度 82.18% F1スコア 0.82

このデータセットは非常に有名であり、挑戦的です。食べ物は花のように決まったスタイルがないので、形や材質も多種多様であり、また食材や場所など不確定な要素も伴います。これは機械にとっては非常に困難です。 ResNet またはその他の非常に深いネットワークを使用した業界最高の結果では、101 のカテゴリとカテゴリあたり 1000 のサンプルで 90% を超える精度が達成されています。

最後に、すべてのモデルのスクリーンショットを紹介します。

要約する

Baidu の画像トレーニング サービスは、いくつかのシナリオでは非常にうまく機能しますが、いくつかのシナリオでは状況に対処できないようです。しかし、これはすでにゼロから1への飛躍であり、AIの専門家ではない人でも独自のモデルをトレーニングする楽しさを体験できるようになります。そして、それは実際にあなた自身のビジネスに役立つために使用することができます。 AIの最前線に立つこの兄弟たちに、心から敬意を表したいと思います。

提案

  1. データのアップロードやトレーニング モデルの進行状況など、トレーニング プロセスの詳細を正確に表示することで、待機時の煩わしさを軽減できます。
  2. 複数のモデルを同時にトレーニングできるようにすることで、顧客は最適なトレーニング データセットを見つけるプロセスを高速化できます。
  3. ユーザーがさまざまなクラス間の結果を観察し理解するのに役立つヒートマップを提供します。
  4. ネットワーク アーキテクチャのオプションを指定することができ、モデル アーキテクチャが異なるとデータ セットに対するパフォーマンスも異なります。
  5. 透明性を高めるために、いくつかの技術文書を提供します。たとえば、学習速度、トレーニング セットと検証セットの比率、早期終了条件、オプティマイザーの選択などです。一部のハイパーパラメータは手動で調整することもでき、おそらくアマチュアの専門家がより良いパラメータセットを提供できるでしょう。

<<:  中国と米国の人工知能の格差はどれほど大きいか:米国の人材総数は中国の約20倍

>>:  李嘉誠は率直に言った。「人工知能の時代には、これらのいくつかの業界だけが大きな成功を達成するのに役立ちます。」

ブログ    

推薦する

Facebook エンジニアがまとめた 14 種類のアルゴリズム面接モード

プログラマー職の面接では、多くの場合、プログラミング面接プロセスを受ける必要があり、雇用主はこれを利...

敵対的サンプルとディープニューラルネットワークの学習

概要過去 6 か月間で、人工知能の分野は科学技術分野で最も頻繁に言及される用語の 1 つになりました...

中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

3D ポートレート合成は、常に AIGC の注目を浴びている分野です。 NeRF と 3D 対応 ...

...

3つの側面での共同の取り組みにより、人工知能はスマート交通の発展に貢献します。

[[442361]]都市化の継続的な進展と自動車保有数の急速な増加により、我が国の交通発展は困難な...

...

「顔認識」に関する法的問題

[[403922]]漫画 孟賢東インターネットの急速な発展に伴い、顔認識技術は生活のあらゆる場所に応...

放射線科医は再び危機に陥っている!海外の主要5機関が共同で最新の「胸部X線」ベンチマークを発表

胸部X線(CXR)検査は、さまざまな病気のスクリーニングや診断に広く使用されている臨床画像診断法です...

7つの予測ストレージ分析ツールの比較

人工知能技術は、機械学習、計算統計、さまざまなディープラーニングモデルの使用を通じて主流になりました...

7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

大規模言語モデルは優れたパフォーマンスを持ち、ゼロショットまたは少数ショットのプロンプトで新しいタス...

人工知能はさまざまな業界でどのように応用されているのでしょうか?

「人工知能」という用語は、人間の意思決定を模倣または複製できる機械とは対照的に、複雑でインテリジェ...

2021年のAIの現状: 言語モデル、ヘルスケア

人工知能は、人間の活動と市場投資の2つの主要分野である健康と言語に拡大しています。 「State o...

人工知能はデジタルマーケティング革命において否定できないトレンドとなっている

人工知能 (AI) は、現在、デジタル マーケティング革命における否定できないトレンドとなっています...

人工知能「XiaoIce」がデザイナーに変身した経緯が明らかに

最近、一部のネットユーザーは、ファッションブランドSELECTEDがWeChat公式アカウントでMi...

中国の独立知的財産TianyuanディープラーニングエンジンとTensorFlowおよびPyTorchの比較を体験

[51CTO.com からのオリジナル記事] ディープラーニングを軸に早くから事業を開始した中国の ...