データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

AI モデルを開発する場合、データの量と品質がモデルの有効性に直接影響します。現場でデータを収集した後、企業は大量のデータからトレーニング要件を満たす関連データをフィルタリングし、品質の低いデータや無関係なデータを排除する必要があることがよくあります。このステップはデータ クリーニングと呼ばれます。

一般的に、データのクリーニングでは、トレーニング タスクに役立たないデータを主にクリーニングします。たとえば、安全ヘルメットをかぶった工場労働者を認識するモデルをトレーニングする場合、ラベル付けトレーニング用にビデオ フレームを抽出した後、大量の写真から労働者が写っている写真のみを保持したいと考えています。このステップでは、従来の方法では手動でスクリーニングを行いますが、これには多くの人材が必要であり、漏れが発生しがちです。人工知能の発展に伴い、Baidu Brain AI Open Platformなどの多くのプラットフォームが、顔検出と体検出の一般的なインターフェイスを提供しています。ユーザーは、まずインターフェイスを呼び出してデータを処理し、肖像画について収集されたデータをフィルタリングしてから、特定の検出および認識ステップに入ることができます。では、さまざまなデータ処理機能を統合し、人間の介入を最小限に抑え、ビデオデータの収集、フレーム抽出、データのクリーニング、インテリジェントなラベル付けを自動的に完了し、高品質のトレーニングデータを効率的に抽出できるソリューションはあるのでしょうか?

百度は、データ処理に対する強い需要を持つユーザーが増えていることに注目し、今年4月にデータ収集、データクリーニング、データラベリングなどの機能を統合した新しいインテリジェントデータサービスプラットフォームEasyDataを立ち上げました。上記のデータ処理作業が完了すると、EasyDLプラットフォーム上でモデルのトレーニングとモデルの展開を実行できます。

データクリーニングの具体的な機能として、EasyData は現在、非類似性、ぼかし除去、回転、切り取り、ミラーリングという 5 つの基本的なデータクリーニング機能をリリースしています。では、従来の機能に加えて、EasyData には業界独自の究極の秘密が他に何があるのでしょうか?

アプリケーションから始めて、高度なクリーニング機能によりデータ処理がより効率的になります

スマートパーク管理などのシナリオでは、工場の公園や森林地帯に誰かが侵入していないかを監視したり、作業員が安全ヘルメットを着用しているかどうかを確認したりする必要があります。このようなシナリオでの画像クリーニングのニーズを満たすために、EasyData は顔や人体のないデータをフィルターする高度なクリーニング機能を導入しました。 EasyData は、Baidu Brain AI Open Platform が提供する最先端のテクノロジー機能と連携しています。ユーザーは、Baidu Smart Cloud で対応するサービスを有効にするだけで (顔検出と体検出は無料で試すことができます)、簡単な設定で EasyData プラットフォーム上でこれらの機能を直接使用して、自動データクリーニングを行うことができます。

1. 顔のない写真をフィルターする

これまでBaidu Smart Cloudの顔検出サービスを使用したことがない場合は、高度なクリーニング機能を初めて使用するときに、「無料トライアルを申請する」ように求められます。リンクをクリックして、Baidu Smart Cloudの顔検出ページに入ります。指示に従ってサービスを有効にしてから、EasyDataページに戻り、通常どおりに使用してください。

基本的なデータクリーニングサービスと同様に、顔のない画像のフィルタリングもデータセットベースで実行されます。データ クリーニング ページで、顔のない画像のフィルターを選択し、[保存] をクリックしてタスクを送信し、クリーニングを開始します。 「ラベルを保持」にチェックを入れると、顔のない画像が除外されるだけでなく、顔のフレームもクリーンアップされたデータセットに同期されます。

タスクを送信するときに顔のフレームを保持するには、チェックボックスをオンにします

たとえば、下の図では、顔画像に加えて、クリーニング前のデータセットには風景写真、車両、その他のオブジェクトも含まれています。顔フィルタリングは、顔のないこれらの画像をフィルタリングし、マスクを着用した顔や隠れた顔など、顔を含む画像を保持します。

クリーニング前のデータセットには、顔、風景、静物の写真が含まれています

クリーニング後、データセットには顔写真のみが保存されます

[[340754]]

マスクを着用した人の顔写真

2. 人物が写っていない写真をフィルタリングする

人体の写っていない画像をフィルタリングする場合も、Baidu Smart Cloud の人体検出機能を使用します。使用する前に、Baidu Smart Cloud で対応するサービスを有効にする必要があります。人体のない画像をフィルタリングするために、人体の検出と属性分析 (https://ai.baidu.com/tech/body/attr) とポートレートのセグメンテーション (https://ai.baidu.com/tech/body/seg) の 2 つのインターフェースが使用されます。テンプレートが画像分類とオブジェクト検出であるデータセットは、人間検出と属性分析インターフェースを呼び出し、テンプレートが画像セグメンテーションであるデータセットは、ポートレートセグメンテーションインターフェースを呼び出します。 Baidu Smart Cloud のポートレートセグメンテーション API は、ポートレート画像に対応するバイナリ画像を返します (ポートレートは 1、背景は 0)。対応するラベル変換はバックエンドで実行され、返されたバイナリ画像は対応するラベルに変換されます。

クリーニング前のデータセットには、風景、静物、人物が含まれています。

データのクリーニングとフィルタリング後に保持された 5 つの人体画像

テンプレートは画像検出のデータセットをクリーンアップした後のラベルです

テンプレートは画像セグメンテーションデータセットをクリーンアップした後のラベルです

幅広いニーズに焦点を当て、さまざまな基本的なデータクリーニング機能を提供します

1. 類似した写真を削除する

カメラを使って自動的に写真を撮る場合、同じシーンが長時間続くため、フレーム抽出を行っても類似した写真が大量に残ってしまいます。類似画像が大量にあるとデータ価値が低く、多くのストレージスペースを占有します。一方、手動でのスクリーニングは時間がかかり、労力がかかり、エラーが発生しやすくなります。 EasyData プラットフォームが開始した非類似化画像機能は、画像の類似性検索機能を使用して、画像のペアワイズ相関を計算します。自動的に類似画像を判別し、非類似画像を保持できます。具体的な操作も非常に簡単です。

下の図に示すように、類似性を除去する前のデータセットには 8 枚の写真があります。写真の類似性に応じて、写真を 3 つのカテゴリに分類できます。クリーニング後のデータセットには 3 枚の写真がありますが、これはクリーニング前の 3 種類の写真のうちの 1 枚です。

類似性を取り除く前の8枚の写真

類似性を排除した後、3枚の写真が残る

ドットをドラッグして類似度スコアを変更します

2. 画像のぼやけを除去する

カメラの揺れや高速で移動する物体により、写真が不鮮明になり、画質が低下します。手動選択によってぼやけた画像を削除するための統一された基準がないため、簡単に省略や過剰削除が発生する可能性があります。 EasyData のぼかし除去画像を使用すると、ぼやけた画像を簡単に除去できます。

サンプル写真を例にとると、クリーニング前には品質の異なる 5 枚の写真があり、クリーニング後は高品質の写真が 2 枚残ります。さらに、ぼやけた画像が一部削除されていない、または高品質の画像が保持されていないとユーザーが考える場合は、明瞭度スコアを調整して再度クリーニングすることを検討できます。

ぼかし除去前のさまざまな品質の画像 5 枚

ぼかし除去後も鮮明な画像が保持されます

ドットをドラッグして明瞭度スコアを変更します

一般的なクリーニングでは、1 つのクリーニング タスクで複数のクリーニング操作を実行できます。たとえば、類似度の低い画像とぼやけた画像を同時に削除するには、類似度の低い画像とぼやけた画像を同時に削除します。

現在のデータクリーニング サービスがサポートできるデータセットの最大サイズは 50,000 枚の画像です。 EasyData プラットフォームをベースとしたビッグデータ処理プラットフォームは、基本的なクリーニング サービスを提供します。20,000 枚の画像のデータセットはわずか 1 時間でクリーニングでき、50,000 枚の画像のデータセットはわずか 2 時間でクリーニングできます。高度な清掃サービスでは、QPS を設定することで清掃効率を柔軟に調整することもでき、より便利で迅速になります。

EasyData プラットフォームでは、スマート パーク管理などのシナリオでビデオをキャプチャして自動的にアップロードするニーズを考慮して、ユーザーがダウンロードできる SDK も無料で提供しています。SDK をビジネス現場のデータ収集端末に接続し、プラットフォーム上でキャプチャ時間と間隔を設定することで、元のビデオ データを画像データに自動的にキャプチャし、EasyData プラットフォームにアップロードして後続の処理を行うことができます。

EasyData は、Baidu Brain が立ち上げた業界初のインテリジェントなデータ収集および処理プラットフォームであり、ハードウェアとソフトウェアの統合とエンドツーエンドのクラウドコラボレーションを提供します。画像、テキスト、オーディオ、ビデオの 4 種類のデータの処理をサポートしています。そのうち、画像データは、収集、クリーニング、注釈付けのワンストップ処理をサポートし、モデル開発におけるさまざまなデータ管理ニーズをカバーします。 EasyData で処理されたデータは、EasyDL モデルのトレーニングに直接適用できます。EasyDL の事前トレーニング済みモデルと自動転移学習メカニズムにより、AI モデルを効率的に開発できます。

今すぐEasyDataをお試しください: https://ai.baidu.com/easydata/

 

<<:  人工知能と機械学習の購入者ガイド

>>:  AIがあなたをビデオから消去しました!効果はシルキーで跡が残りません

ブログ    

推薦する

クラウド コンピューティングに必要な 5 つの機械学習スキル

機械学習と人工知能は、IT サービス分野に浸透し続け、ソフトウェア エンジニアが開発したアプリケーシ...

8/8/6/3のマンバ論文はついにICLR2024で却下された。ネットユーザー:吊り下げられた心臓はついに死んだ

数日前、ICLR 2024 の最終合格結果が発表されました。 ICLR 2024 カンファレンスで ...

Google Cloud データベースに AI 機能が追加

Google Cloud は、顧客による人工知能アプリケーションの開発を促進するために、BigQue...

橋梁点検におけるUAV技術の応用

これらの技術の応用により、長期的にはドローンが開発され、橋梁点検の分野で応用されるでしょう。では、橋...

人工知能は第4世代に入り、人工直感が開発の次のステップとなる

AI はこれまでに開発された最も強力なテクノロジーの 1 つですが、すでに 4 回の進化を経ています...

詩人のような機械学習: ML の仕組みについての素晴らしい啓示

機械学習はデータ内のパターンを使用して物事にラベルを付けます。魔法のように聞こえますが、核となる概念...

清華大学の崔鵬氏:因果推論技術の最新開発動向

著者 | 真実を追求する実践主義者人工知能が発展し続けるにつれて、セキュリティとコンプライアンスの問...

清華大学のJiTuアップデート:微分可能レンダリングをサポートし、マルチタスク速度はPyTorchを上回る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Weilingsi チームは、グラフ同型性の下での同変性と高い計算効率を備えた「自然グラフ ネットワーク」メッセージ パッシング メソッドを提案しました。

最近、ウェリングスチームによる研​​究では、グラフの局所的な対称性を研究することで新しいアルゴリズム...

...

会員数3億人、商品数4億点、大規模電子商取引の商品推奨にディープラーニングを応用!

電子商取引業界では、ユーザーに対する商品の推奨は常に非常にホットで重要なトピックです。比較的成熟した...

機械学習について知っておくべき6つの革命的な教訓

私たちは、ロボット工学、スマート家電、スマート小売店、自動運転車技術などによって推進される新しい時代...

自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

企業が機械学習アプリケーションから学ぶべき教訓

ビジネスの世界において機械学習 (ML) アプリケーションが継続的に宣伝され、大々的に宣伝されている...

...