BBAug: PyTorch 用のオブジェクト検出境界ボックスデータ拡張パッケージ

BBAug: PyTorch 用のオブジェクト検出境界ボックスデータ拡張パッケージ

多くのニューラル ネットワーク モデルと同様に、オブジェクト検出モデルは大量のデータでトレーニングすると最も効果的に機能します。通常、利用可能なデータは限られており、世界中の多くの研究者が利用可能なデータの量を増やすための拡張戦略を調査しています。 Google の Brain チームはそのような研究を実施し、「物体検出のためのデータ拡張戦略の学習」と題した論文を発表しました。この論文では、著者らは、物体検出問題に対して優れたパフォーマンスを発揮する戦略と呼ばれる一連の拡張を特定しています。この戦略は強化された検索を通じて得られ、一般的なモデルのパフォーマンスが向上します。

著者らは、強化戦略をサブ戦略のセットとして定義しています。モデルのトレーニング中に、サブ戦略の 1 つがランダムに選択され、画像が拡張されます。各サブ戦略には、画像に順番に適用される拡張機能があります。各変換には、確率と大きさという 2 つのハイパーパラメータもあります。確率は強化が適用される可能性を示し、大きさは強化の度合いを示します。次のコードは、この記事で使用されている戦略を示しています。

  1. ポリシー= [  
  2. [('TranslateX_BBox', 0.6, 4), ('イコライズ', 0.8, 10)],
  3.   [('TranslateY_Only_BBoxes', 0.2, 2), ('Cutout', 0.8, 8)],
  4.   [('シャープネス', 0.0, 8), ('ShearX_BBox', 0.4, 0)],
  5.   [('ShearY_BBox', 1.0, 2), ('TranslateY_Only_BBoxes', 0.6, 6)],
  6.   [('Rotate_BBox', 0.6, 10), ('色', 1.0, 6)],
  7. ]

この戦略には 5 つのサブ戦略があり、最初のサブ戦略には TranslateX_BBox と Equalize の拡張機能が含まれます。 TranslateX_BBox 操作は、画像を x 軸上で 4 だけ移動します。この場合、サイズは直接ピクセルに変換されるのではなく、サイズに応じてピクセル値が拡大縮小されます。この強化の確率も 0.6 です。つまり、この強化を選択した場合、適用される確率は 60% です。各強化には関連する確率があるため、ランダム性の概念が導入され、トレーニングにランダム性の程度が追加されます。一般的に、Brain Team は v0、v1、v2、v3 の 4 つの戦略を提案しています。この記事では v0 ポリシーを示しますが、他の 3 つのポリシーには、いくつかの異なる変換を含むサブポリシーがさらに含まれています。一般的に、増加は3つのカテゴリーに分類され、著者らは次のように定義しています。

色の操作: 境界ボックスの位置に影響を与えずにカラー チャネルを歪めます。

幾何学的操作: 画像を幾何学的に歪め、それに応じて境界ボックスの位置とサイズを変更します。

境界ボックス操作: 境界ボックスに含まれるピクセルの内容のみが歪められます。

経営学修士

では、この点に関して BBAug はどのような貢献をしたのでしょうか? BBAug は、Google Brain Team のすべての戦略を実装する Python パッケージです。このパッケージは、これらの戦略をより簡単に使用できるようにするラッパーです。実際の拡張は、優れた imgaug パッケージによって行われます。

上記の戦略は、以下に示すようにサンプル画像に適用されます。各行は異なるサブ戦略であり、各列はそのサブ戦略の異なる実行です。

ご覧のとおり、サブポリシーの実行間にはある程度の変動があり、トレーニングにランダム性が加わります。これは、BBAug が実装した 4 つの戦略のうちの 1 つにすぎません。 4 つの戦略すべての完全な視覚化を確認するには、パッケージの GitHub ページ (https://github.com/harpalsahota/bbaug) をご覧ください。このパッケージには、戦略をカスタマイズする機能や、画像の外側にある境界ボックスが部分的に画像の外側にある場合は自動的に削除または切り取られる機能など、便利な機能もいくつか用意されています。たとえば、下の画像では、変換拡張が適用され、境界ボックスが部分的に画像の外側に押し出されています。これに合わせて新しい境界ボックスが縮小されていることがわかります。

境界ボックス領域のみに影響する拡張機能を作成することも可能です。次の画像では、solarisaugmentation は境界ボックス領域にのみ適用されています。

ランダムな戦略を使用して単一の画像を拡張するのはどれくらい簡単ですか?それは次のように簡単です:

  1. bbaug輸入ポリシーから 
  2. # ポリシー v0 セットを選択 
  3. aug_policy =ポリシー.policies_v0 ()  
  4. # 選択したポリシーセットでポリシーコンテナをインスタンス化します 
  5. ポリシーコンテナ=ポリシー.ポリシーコンテナ (aug_policy)  
  6. # ポリシーセットからランダムにポリシーを選択する 
  7. ランダムポリシー=ポリシーコンテナ.select_random_policy ()   
  8. # 拡張を適用します。拡張された画像と境界ボックスを返します。  
  9. # 画像は画像のNumPy配列です 
  10. # 境界ボックスは、ピクセル単位 (int) の境界ボックスのリストです。  
  11. # 例: [[x_min, y_min, x_man, y_max], [x_min, y_min, x_man, y_max]]  
  12. # ラベルは、バウンディングボックスのクラスラベルであり、intの反復可能オブジェクトです(例:[1,0])。  
  13. img_aug、 bbs_aug = policy_container .apply_augmentation(ランダムポリシー、イメージ、バウンディングボックス、ラベル)  
  14. # image_aug: 拡張された画像のNumPy配列 
  15. # bbs_aug: 拡張境界ボックスの numpy 配列 (形式: [[label, x_min, y_min, x_man, y_max],...])

要約する

このパッケージは、Google Brain チームによって導き出された強化戦略を実装します。現在、4 つの戦略すべてが実装されており、パッケージには、ユーザーがこれらの戦略を PyTorch トレーニング パイプラインに統合するのに役立つノートブックも付属しています。

<<:  瀋陽・撫順モデル区長江デルタ知能製造業投資促進会議と2021年第3回ファーウェイクラウド「人工知能競技・無人車両チャレンジカップ」が本格的に開幕

>>:  顔認識のために服を着る必要があるかどうかは激しい議論を巻き起こしたが、専門家は心配しすぎる必要はないと述べている。

ブログ    
ブログ    
ブログ    

推薦する

人工知能は航空宇宙に貢献しており、我が国の有人宇宙計画の宇宙ステーションの軌道上建設ミッションは着実に前進している。

中国有人宇宙工程弁公室によると、2021年以来、我が国の有人宇宙計画は宇宙ステーションの重要技術検証...

MITの中国人博士課程学生がChatGPTをJupyterに移行し、自然言語プログラミングをワンストップソリューションに

自然言語プログラミングは Jupyter で直接実行できます。 MIT の中国人博士課程の学生によっ...

人工知能技術の助けを借りて、人々は携帯電話を通じて皮膚がんを診断できるようになるかもしれない

最近、「ネイチャー」誌は表紙に次のような記事を掲載した。「ディープラーニングアルゴリズムを使用して皮...

AI、ブロックチェーン、ロボット:テクノロジーは仕事の未来をどのように変えるのでしょうか?

編集者注:人工知能、ブロックチェーン、ロボットなどの破壊的な新技術が継続的に発展する中、人々はそれら...

看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?

研究によると、共感と前向きな指導は、医師が患者の痛みを和らげ、術後の回復を早め、精神科薬の使用を減ら...

人間に一歩近づく | MIT×UMichが物体の空間関係を理解できる人工知能を研究

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

疫病流行中の人間の行動にAIが混乱!データ変更による作業の「異常」は手動での制御が必要

[[327938]]ビッグデータダイジェスト制作著者: 劉俊環半年前に Taobao をオープンした...

クラシック絵文字パッケージにこの「続編」があることが判明しました。ステーブルビデオのクリエイティブなゲームプレイが人気

AI を使って古典的な絵文字を動画にアップグレードする、この創造的な遊び方が最近かなり人気になってい...

...

ゲーム開発における機械学習の活用

機械学習のメリット機械学習は多くの分野で驚異的な進歩を遂げてきました。応用分野の観点から見ると、機械...

NVIDIA はフーリエ モデルを使用して前例のない天気予報精度を実現

現代の数値天気予報 (NWP) は 1920 年代にまで遡ります。今日では、数値天気予報はいたるとこ...

...

...

IoTとAIを活用して価値を加速させる4つの効果的な方法

Twitter、LinkedIn、そして多くの IoT 関連の Web サイトを見ると、モノのインタ...

2023 年までにデータセンターで注目される AI と ML の 10 大アプリケーション

人工知能 (AI) と機械学習 (ML) は、データセンター分野の重要なテクノロジーとなっています。...