近年、機械学習データ(MLデータ)を深く理解する必要性に対する認識が高まっています。しかし、大規模なデータセットの検出には多くの人的資源と物的資源が必要になることが多いため、コンピュータービジョンの分野での広範な応用にはさらなる開発が必要です。 通常、オブジェクト検出 (コンピューター ビジョンのサブセット) では、境界ボックスを定義することによって画像内のオブジェクトが特定されます。境界ボックスは、オブジェクトを識別するだけでなく、そのコンテキスト、サイズ、シーン内の他の要素との関係も理解します。同時に、クラスの分布、オブジェクト サイズの多様性、クラスが出現する一般的な環境を包括的に理解することで、評価およびデバッグ中にトレーニング モデルのエラー パターンを発見し、より的を絞った方法で追加のトレーニング データを選択できるようになります。 実際には、私は次のようなアプローチを取ることが多いです。
以下では、 Renumics Spotlight を使用してインタラクティブなオブジェクト検出の視覚化を作成する方法について説明します。例として、次のことを試してみます:
Renumics Spotlight でのターゲットの視覚化。出典: 著者作成 COCOデータセットの人間の画像をダウンロードするまず、次のコマンドを使用して必要なパッケージをインストールします。 FiftyOne の再開可能なダウンロード機能を使用すると、COCO データセットからさまざまな画像をダウンロードできます。簡単なパラメータ設定で、1 人以上の人物が写っている画像 1,000 枚をダウンロードできます。具体的なコードは次のとおりです。 次に、次のコードを使用できます。 画像内の人物のコンテキストを指定するために、ファイル パス、境界ボックス カテゴリ、境界ボックス、境界ボックスに含まれる人物、メイン カテゴリ (人物は存在しますが) などの列を含む Pandas DataFrame としてデータを準備します。 これを Spotlight で視覚化できます。 インスペクター ビューの [ビューの追加] ボタンを使用し、境界ビューで bboxs_persons とファイルパスを選択すると、画像に対応する境界ボックスが表示されます。 豊富なデータを埋め込むデータを構造化するには、さまざまな基本モデルの画像埋め込み(つまり、高密度ベクトル表現)を使用できます。これを行うには、画像の 2D 類似性マップを提供する UMAP や t-SNE などの次元削減技術を使用して、画像全体の Vision Transformer (ViT) 埋め込みをデータセットの構造に適用します。さらに、事前トレーニング済みのオブジェクト検出器の出力を使用してデータを構造化し、含まれるオブジェクトのサイズや数でデータを分類することもできます。 COCO データセットはすでにこの情報を提供しているので、直接使用できます。 Spotlight にはgoogle/vit-base-patch16-224-in21k (ViT) モデルと UMAP のサポートが統合されているため、ファイル パスを使用してさまざまな埋め込みを作成すると、自動的に適用されます。 上記のコードを使用すると、Spotlight はさまざまな埋め込みを計算し、UMAP を適用して結果を類似度マップに表示します。その中で、異なる色は主要なカテゴリを表します。これに基づいて、類似性マップを使用してデータを探索できます。 YOLOv8の事前トレーニングの結果オブジェクトを素早く識別できるUltralytics YOLOv8 は、高度なオブジェクト検出モデルです。高速画像処理用に設計されており、特に大量のデータに適用すると、ユーザーが長時間待機する必要がなくなり、さまざまなリアルタイム検出タスクに適しています。 これを行うには、まず事前トレーニング済みのモデルを読み込みます。 さまざまなテストを実行します。 12GB の GeForce RTX 4070 Ti では、上記のプロセスは 20 秒以内に完了します。その後、結果を DataFrame にラップし、Spotlight を使用して視覚化できます。次のコードを参照してください。 次に、Spotlight はさまざまな埋め込みを再度計算し、類似度グラフに UMAP を適用して結果を表示します。ただし今回は、検出されたオブジェクトに対するモデルの信頼レベルを選択し、類似度グラフを使用して信頼度の低いクラスター間での検索をナビゲートできます。結局のところ、これらの画像のモデルは不明であるため、通常は多少類似しています。 もちろん、上記の簡単な分析は、このようなモデルが以下のシナリオで体系的な問題に遭遇することも示しています。
これらの問題が実際に人物検出の目標に影響を与えるかどうかを判断できます。影響を与える場合は、データセットに追加のトレーニング データを追加して、これらの特定のシナリオでモデルのパフォーマンスを最適化することを検討する必要があります。 まとめ要約すると、Spotlight などの事前トレーニング済みモデルとツールを使用すると、オブジェクト検出の視覚化プロセスが容易になり、データ サイエンスのワークフローが強化されます。独自のデータを使用して上記のコードを試して実験することができます。 翻訳者紹介51CTO コミュニティの編集者である Julian Chen 氏は、IT プロジェクトの実装で 10 年以上の経験があります。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティの知識と経験の普及に重点を置いています。 原題: 画像内の物体検出のための ML データの探索と視覚化の方法、著者: Markus Stoll リンク: https://itnext.io/how-to-explore-and-visualize-ml-data-for-object-detection-in-images-88e074f46361. |
>>: LLaVA オープンソース モデルに基づくビデオチャット アシスタントの構築
DAMOアカデミーは宇宙から地球を眺める新たな方法を発見しました!9月18日、2020年雲啓大会にお...
【中国杭州、2020年5月25日】本日、「クリエイティブビジョン | インテリジェントな世界への目を...
最近は寒波が次々と襲来し、ダウンジャケットは冬を過ごすための必需品となっています。浙江大学は、暖かい...
ここ数週間、私は PyTorch で char-rnn のバージョンを実装することに多くの時間を費や...
1969年、アポロ11号が月面着陸に成功し、アームストロング船長は、今日でも数え切れないほどの人々が...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
これは、AI テクノロジーが身元調査業界に革命をもたらし、これまで以上に効率的でコスト効率の高いソリ...
Facebook は多言語機械翻訳モデル「M2M-100」をオープンソース化したばかりだが、今度は...
研究者らが開発した新しい技術は、機械学習モデルの推論と人間の推論を比較し、ユーザーがモデルの行動パタ...
ベストセラー作家のバーナード・マー氏はフォーブス誌に「人工知能はいかにして資本主義を殺すか」と題する...
機械学習の力を活用して日常のさまざまなタスクを処理するテクノロジーである人工知能は、すでに私たちの仕...
[51CTO.com クイック翻訳] AlphaBeta Consulting Company が最...
...
昨日、国内のAIスタートアップ企業Rokidは杭州で新製品発表会を開催し、Meスマートポータブルスピ...