人工知能を活用した機械駆動型データ自動ラベル付け法

人工知能を活用した機械駆動型データ自動ラベル付け法

[[416242]]

オブジェクト検出、オブジェクト認識、セグメンテーション タスク用の自動注釈ソリューション。

こんにちは、友達。このブログ投稿では、AI 技術を使用してデータ ラベルを自律的に生成する取り組みについて共有したいと思います。

記事全文は、こちらからご覧いただけます - https://lnkd.in/gJDKQCY https://lnkd.in/gJDKQCY

私たちのアプローチに入る前に、まずはデータラベリングが一般の人にも分かりやすい言葉で何であるかを理解しましょう。機械学習におけるデータラベル付けとは、生データ(画像、ビデオ、音声ファイル、テキストファイルなど)を識別し、機械学習モデルがそこから学習して推論できるようにコンテキストを提供する 1 つ以上の意味のある有益なラベルを追加するプロセスです。最先端の機械学習モデルのほとんどは、大量のラベル付きデータが利用可能であることに大きく依存しており、これは教師ありタスクに不可欠なステップです。データのラベル付けは、コンピューター ビジョン、自然言語処理、音声認識など、さまざまなユース ケースで必要です。従来、この退屈で平凡なデータ注釈付けのプロセスは、主に人間によって行われてきました。人間が最初からデータにラベルを付けるという膨大な作業と労力を最小限に抑えられるよう、私たちは多くの手作業を削減することを目的とした自動化アルゴリズム ソリューションを提案します。このようなラベル データが実際に必要な場所への参照を見てみましょう。ここでは、コンピューター ビジョンのタスクについて説明します。コンピューター ビジョンとは、簡単に言えば、人間の視覚 (人間の目で見るもの) の複雑さを再現し、周囲の環境を理解することです。コンピューター ビジョンのタスクには、デジタル画像を取得、処理、分析、理解する方法のほか、意思決定などの形で数値情報や記号情報を生成するために現実世界から高次元データを抽出する方法も含まれます。コンピュータービジョンの分野には、さまざまなタスクがあります。分類、検出、セグメンテーションなどの詳細については説明しません。ただし、以下の図は、これらのタスクの簡潔な概要と目標を示し、コンテキスト内のオブジェクト (「バナナ」) の例を示しています。

ラベル付きデータのコンテキスト要件の例

モデルがオブジェクト「バナナ」を検出するように監視するために、注釈付きのラベルがモデルに入力され、バナナのピクセルの表現を学習してコンテキスト内での位置を特定できるようになります。その後、このラベルを使用して、目に見えないデータや新しいデータについて推論を行うことができます。インスタンス セグメンテーション タスクの目的は、オブジェクトを検出し、それらのオブジェクトを特定し、その数、サイズ、形状に関する情報を提供することです。私たちは、最先端のインスタンスセグメンテーションモデルの 1 つである「Mask R-CNN」をフレームワークのコアバックボーンとして使用しましたが、ニーズや目標に応じて他のネットワークアーキテクチャを使用することもできます。画像内のオブジェクトを検出しながら、各オブジェクトに対して高品質のセグメンテーション マスクを生成するため、Mask R-CNN を使用します。 COVID 感染を検出するという私たちの特定のテストケースでは、感染領域の正確な位置特定が重要であるため、この場合はピクセルレベルの検出がより適切です。

私たちのアプローチ

以下に、当社のツール パイプラインを示します。これは主に、検出器トラッカー、自動ラベル付けモジュール、および機械で注釈付けされたラベルを出力してディスクに保存する I/O モジュールで構成されています。

ステップ1: ピクセルレベルの分類のためのオブジェクトの検出と追跡

ラベル付けされたインスタンスが少数(<10 サンプル)の COVID 感染を検出するために、カスタムの弱くトレーニングされた MASK-RCNN モデルが使用されました。感染領域をマークするために、VIA (VIA) 画像注釈ツールを使用しました。これは、シンプルでスタンドアロンな画像、音声、ビデオの手動注釈ソフトウェアです。 VIA は Web ブラウザで実行され、インストールやセットアップは必要ありません。完全な VIA ソフトウェアは、サイズが 400 KB 未満の単一のスタンドアロン HTML ページにインストールでき、ほとんどの最新の Web ブラウザーでオフライン アプリケーションとして実行されます。 VIA は、HTML、Javascript、CSS のみに基づいたオープン ソース プロジェクトです (外部ライブラリに依存せず)。 VIA は Visual Geometry Group (VGG) によって開発され、BSD-2-Clause ライセンスの下でリリースされたため、学術プロジェクトと商用アプリケーションの両方で使用できます。検出器は、ローカリゼーション マスク、境界ボックス、およびクラスを取得するために使用されます。次に、中心追跡アルゴリズムを使用して、入力ビデオ データ ストリーム上の複数の感染領域を均一に追跡してマークします。以下に、MASK-RCNN Covid 検出器の一部を示します。 ステップ 2: フレームごとのラベル付けデータ 事前トレーニング済みの検出器モデルからの推論を使用して、境界ボックスの位置を取得し、JSON メタデータを作成します。 Mask-RCNN を使用してフレームがセグメント化されると、対応する関心領域 (ROI) が生成されます。さらに、各 ROI のマスクが生成され、画像フレーム全体に対して輪郭検出が実行されます。次に、等高線から (x, y) 座標を抽出します。最後に、これらの形状、面積、座標のプロパティがフレームごとにディスクに保存されます。自動ラベル付けアルゴリズムの一部を以下に示します。 例 - コロナウイルス感染検出と自動ラベル付け 私たちは、コロナウイルス感染地域に自動コンピュータラベルを生成することを目標に、アプローチをテストしました。機械生成ラベルと人間が注釈を付けたラベルの結果を以下に示します。自動注釈エンジンは、オブジェクト検出モデルを再トレーニングしたり、さまざまなタスクに使用できる注釈付きデータを生成したりするために使用できる、かなり高品質の合成ラベルを生成することがわかります。

まとめ

データのラベル付けは簡単な作業ではなく、教師あり学習パイプラインの重要なコンポーネントの 1 つです。これは多くの手作業を必要とする作業です。そうすれば、人間が行う膨大な作業を最小限に抑えることを目指して、こうした日常的で労働集約的で時間のかかる作業のほとんどを機械で自動化できるようになります。私たちは、直感的なアプローチでこの一般的な問題に焦点を当て、ラベルが限られていることや、大量のインスタンスを最初から自分でラベル付けする必要があることによるボトルネックを大幅に軽減します。

注意:- 当社のツールは現在アルファテスト段階です。現在、私たちが設計したフレームワークは、MASK R-CNN と VIA アノテーション形式に基づいています。また、YOLO や対応する YOLO 互換の注釈形式などのさまざまな最先端の検出器を組み込むようにプロトタイプを一般化する予定です。さらに、COCO 注釈形式を統合する予定です。ツール用のさまざまなライブラリ (Torch、TensorFlow、Caffe など) を提供しながら、さまざまな画像注釈をすべてフレームワークの一部として統合することは価値があります。

<<:  人工知能とビッグデータはオリンピック選手のパフォーマンス向上の重要な要素となっている

>>:  データセキュリティ:アルゴリズムの限界

推薦する

OpenAIも996に取り組んでいますか?元従業員が告白:コード貢献度4位、6日間勤務することが多かった

AI 業界の人なら、OpenAI が先進的な技術と高い給与で AI 業界のリーダーであることは知って...

...

...

PageRankアルゴリズムとPR値の転送の詳細な分析

PageRank アルゴリズムは、Google のランキング アルゴリズム (ランキング式) の一部...

2022年のスマート製造のトレンド

製造業は過去 1 世紀にわたって大きく変化しました。 新しい高度なテクノロジーが業界を前進させるにつ...

...

「ディープラーニング」市場の動向を多面的に分析

[[192373]]業界分析2016 年、世界のディープラーニング市場規模は 2 億 2,700 万...

AIによる顔の改変など、新たな形の著作権侵害が引き起こす論争についてどう思いますか?

2019年にインターネット上で爆発的に広まった「ZAO」と呼ばれる顔を変えるソフトウェアなど、20...

性質:大きなモデルは役割を演じているだけで、実際には自己認識を持っていない

大型モデルはどんどん「人間らしく」なってきていますが、本当にそうなのでしょうか?現在、Nature ...

未来はここにあります。人工知能がもたらすリスクをどう軽減できるでしょうか?

この新しい時代に成功するには、企業のセキュリティは AI がもたらすリスクを軽減し、AI がもたらす...

人工知能技術が現代農業の発展を促進する

わが国の著名な学者である周海中氏は、1990年代に「科学技術の進歩により、人工知能の時代が到来しよう...

...

...