ディープラーニングベースの検出および認識アルゴリズムをSAR画像のインテリジェントな解釈に適用する

ディープラーニングベースの検出および認識アルゴリズムをSAR画像のインテリジェントな解釈に適用する

近年、AlphaGo が囲碁で人間のプレイヤーを圧倒したことで、人工知能技術は一般に知られるようになりました。人工知能(1956 年に提案)は知識に関する学問であり、知識を表現する方法と知識を獲得して使用する方法を研究する科学です。機械がチューリングテストに合格できれば、人間のような知能を持っているとみなすことができます。

ディープラーニング入門

60年間の発展を経て、人工知能はゆっくりと進歩し、弱い人工知能(狭い分野での人間の知能を備えた知能)は実現されたと言えます。汎用人工知能や強い人工知能までには、まだ長い道のりがあります。初期にはエキスパートシステム方式が採用されていましたが、さまざまなルールを考慮するために多くの業界の専門家が必要でした。ルールテーブルが複雑すぎて、結果が理想的ではありませんでした。

その後、データから知識を学習する方法(機械学習と統計学習)が徐々にエキスパートシステムに取って代わり、良好な結果を達成しました。機械学習の方法には、主に kNN、ランダムツリー、人工ニューラルネットワーク、サポートベクターマシン、ランダムフォレストなどがあります。その中でも、人工ニューラルネットワークは多くの浮き沈みを経験してきましたが、近年、ディープラーニングという新しい名前で復活を遂げています。

ディープラーニングは、2006 年に Hinton が提案したディープ ビリーフ ネットワーク DBN に由来しています。レイヤーごとの教師なし事前トレーニングを通じて、より深いニューラル ネットワークのトレーニングに成功し、ディープ ニューラル ネットワークと呼ばれるようになりました。この学習プロセスはディープラーニングと呼ばれます。業界では、コンピュータービジョンと音声の進歩により、ディープラーニングが復活しつつあります。

2011年、ヒントン氏はマイクロソフトのエンジニアにディープラーニングを紹介し、音声認識の分野で大きな進歩をもたらしました。 2012年にヒントンの学生アレックスが提案したAlexNetが大規模オブジェクト分類データセットImageNet上で大成功を収めたことで、コンピュータービジョンの分野におけるすべてのタスクがディープラーニングによって支配されるようになりました。

現在までに、音声と画像の分野における最も先進的なアルゴリズムは、ディープラーニング手法に基づいています。 20 年以上の努力を経て、ヒントン、ベンジオ、ヒントンはついにディープラーニングの第 3 次ルネッサンスの到来を告げました。ディープラーニングの詳細については、2015年に3人が共同でNature誌に発表したレビューを参照してください。ディープラーニングのルネッサンスの本質は、ビッグデータ、コンピューティング能力、アルゴリズムによって推進されています。

ディープラーニングに基づく検出・認識手法

コンピューター ビジョンのタスクにはさまざまな種類がありますが、大まかに低レベル、中レベル、高レベルの 3 つのカテゴリに分類できます。低レベルのコンピューター ビジョンには、セグメンテーション、画像復元、超解像が含まれ、出力は処理されたピクセルです。中級レベルのコンピューター ビジョンは、主に特徴抽出を指します。

高度なコンピューター ビジョンには、主に検出と認識という 2 つのタスクが含まれます。コンピュータ ビジョンの分野で使用されるディープラーニング モデルは、主に畳み込みニューラル ネットワーク (CNN) です。CNN は、畳み込み層とプーリング層が交互に配置され、複数の完全接続層で構成されています。ローカル共有重みとプーリング操作によって、パラメーターの数が大幅に削減されます。

では、従来の方法と比較したディープラーニングの利点は何でしょうか。ここで、中国科学院コンピューティング技術研究所の Shan Shiguang 氏の文章を引用したいと思います。「ディープラーニングの導入は、エンドツーエンドでデータ主導の考え方を具体化します。つまり、プロセスへの介入を可能な限り少なくし、人為的な仮定を可能な限り少なくすることです。」

その最大の利点は、従来の方法のように手動で特徴を設計する必要なく、最適な特徴を自動的に抽出できることです。

コンピュータビジョンとSAR画像

コンピュータ ビジョン (CV) の目的は、人間の目と脳をシミュレートして、自動検出、認識、追跡などのタスクを完了することです。コンピュータービジョンの用途は多岐にわたり、自動運転、スマートセキュリティ、スマート医療、無人スーパーマーケット、モバイルインターネット(Meitu、Jimeng、Douyin、Kuaishouなどのさまざまな携帯電話アプリ、Baidu、Tencent、Alibaba、JD.com、Didi、Huawei、Xiaomiでもこのような人材の需要が高い)などがある。

それぞれの分野は数千億ドル規模の巨大市場であるため、研究が特に活発で、コミュニティが発達しており、斬新なアルゴリズムやアイデアが次々と生まれ、その多くがオープンソースコードを提供しています。特に、最近急速に発展している無人スーパーやモバイルインターネットは、まさに私たちの生活を変えつつあります。

CV分野と比較すると、SAR画像の研究者は少なく、コミュニティも不完全で、研究の進展も遅いです。主な理由は依然として市場によって決定され、後者に対応するユーザーが少なすぎるためです。

既存のディープラーニングターゲット検出アルゴリズムはすべて、日常生活の写真内のオブジェクトを検出します。図 1 は、PASCAL VOC データセット (CV 分野で検出器のトレーニングとテストに特に使用されるデータセット) の 2 つの例を示しています。SAR 画像はこれらの画像とは大きく異なります。

図1 PASCAL VOCデータセットとマイクロ波リモートセンシングデータセットからの画像の例

1.撮像機構が異なります。光学イメージングは​​、物体から反射された光信号を受信して​​画像を形成する受動的なイメージング方法です。 SAR イメージングは​​、送信された電磁信号を受信し、距離や方位の圧縮などの操作を実行してイメージングを実現するアクティブなイメージング方法です。反射係数が大きい物体は SAR 画像上で明るく表示され、この明るさの違いによって単一チャネルのグレースケール画像が形成されます。SAR 画像には、特殊な乗法コヒーレントスペックルノイズもあります。これは光学イメージングとはまったく異なる分野であり、根本的に異なります。

2.撮影角度が異なります。 PASCAL VOC は、水平方向から撮影された自然画像です。光学リモートセンシングと SAR リモートセンシングはどちらも上から見た視点で観測および撮影するため、異なる画像が生成され、天候、照明、視点の影響を受けやすくなります。

SAR 画像は観測角度に非常に敏感です。これは、散乱信号の強度が物体のさまざまな部分の散乱係数に依存するためです。観測角度のわずかな変化によって散乱強度が劇的に変化する可能性がありますが、これは光学リモートセンシングでは発生せず、識別が非常に困難になります。

3. SAR 画像のターゲットはまばらでサイズが小さく、入力画像は巨大で、コヒーレントなスペックルノイズがあり、トレーニングデータは比較的不足しています。

ディープラーニングに基づくSAR画像船舶認識手法

SAR 画像のターゲット検出および認識アルゴリズムの開発は、コンピューター ビジョンの分野における開発と似ています。従来の方法では、機能を手動で設計し、複数のプロセスを個別に最適化します。検出方法には、候補領域の CFAR 抽出と識別の 2 つのプロセスが含まれます。CFAR は SAR 画像の統計モデルに大きく依存しています。ただし、実際のシーンの SAR 画像は大きく異なるため、効果的で適用可能なモデルを確立することは困難です。

検出と認識という2つのタスクにおいて、SAR画像はコンピュータビジョンの分野で使用される画像との相違点よりも類似点が多いため、CV分野の優れたアルゴリズムからさらに学ぶ必要があります。

ディープラーニングベースのターゲット検出と認識を実行する前に、データセットを確立する必要があります。軍用車両認識用のデータセットはMSTARです。認識にはいくつかの古典的なCNN(VGG / GoogLeNet / ResNetなど)を使用し、精度が99.5%に達することがわかりました[1]。さらに、実装は非常にシンプルで便利です。

船舶ターゲット認識については、上海交通大学が2017年に最初のOpenSARShipデータセットを提案しました。これには10のターゲットカテゴリが含まれています。しかし、カテゴリ間のサンプル数が非常に不均衡であるため、より優れた分類モデルをトレーニングすることが困難であり、優れたデータセットが依然として必要です。

SAR画像における船舶ターゲット検出のタスクのために、私たちは(私たちの知る限り)最初の公開データセットSSDD[2]を確立しました。このデータセットは、10を超える大学や研究機関(中国科学院電子研究所、中国科学院リモートセンシング研究所、清華大学、中国電子科技集団公司38、南開大学、中国科学技術大学、復旦大学、中国地質大学、武漢大学、国家国防科学技術大学、中国電子科学技術大学、北京航空航天大学、ハルビン工程大学、第一航空宇宙科学技術院など)で使用されています。

このデータセットは比較的シンプルですが、この分野のギャップを埋め、統一されたデータセットとテスト標準を提供し、この分野の健全な発展を促進します。私たちはデータセットに対していくつかの作業を行い、従来の方法と比較してFaster R-CNNやSSDなどの検出器の驚くべきパフォーマンスを検証し、SAR画像内の船舶ターゲットの特定の特性に基づいてアルゴリズムを改善しました。

図2に検出結果を示す。1行目はFaster R-CNNの検出結果、2行目はSSD[3]の検出結果、3行目は回転境界を用いた検出結果である。具体的な内容については次の記事[4]で説明する。レンダリングから、ディープラーニングに基づくターゲット検出アルゴリズムがあらゆるシナリオに適応できることがわかります。

優位性分析

ディープラーニングターゲット検出方法の利点:

***、トレーニング プロセスは面倒ですが、予測には 1 回の順方向伝播のみが必要であり、CNN 圧縮および加速操作後の速度は非常に速くなります。

第二に、ディープラーニングの導入は、エンドツーエンドのデータ駆動型の考え方を具体化します。つまり、プロセスへの介入をできるだけ少なくし、人為的な仮定をできるだけ少なくすることで、分類と検出のパフォーマンスを大幅に向上させることができます。

3 つ目は、拡張性が強いことです。新しいターゲットを検出して識別する必要がある場合は、サンプルを追加して再トレーニングするだけで済みます。構造を変更したり、特別な機能を設計したりする必要はありません。

第4に、適応力が強く、広い海域と陸上目標を区別する必要がなく、さまざまな複雑な背景に適応できます。

特に近年の人工知能分野への巨額の資本投資により、ディープラーニングに基づくターゲット検出および認識アルゴリズムが、将来 SAR 画像のインテリジェントな解釈の主な手段になると考えています。

学習リソースとディスカッションの交換

機械学習コースは必須です。スタンフォード大学の Andrew Ng による CS229 が優れています。ディープラーニング コースとしては、スタンフォード大学の Fei-Fei Li による CS231 と Andrew Ng による deeplearning.ai が優れています (NetEase Cloud Classroom モバイル アプリにはビデオと中国語の字幕があります)。

Facebook Artificial Intelligence Research Institute FAIR が開発した Detectron と、Google が開発した Tensorflow オブジェクト検出 API は、ほとんどのオブジェクト検出アルゴリズムを実装する 2 つの比較的優れたオブジェクト検出フレームワークです。

参考文献

1 Jianwei Li、Changwen Qu、Shujuan Peng。改良された Faster R-CNN に基づく SAR 画像内の船舶検出。2017BIGSARDATA、北京。

2 Shao Jiaqi、Qu Changwen、Li Jianwei。SARターゲット認識における畳み込みニューラルネットワークモデルの性能分析。1-6。10.1109/BIGSARDATA.2017.8124917。

3 Li Jianwei、Qu Changwen、Shao Jiaqi。深層学習に基づく SAR 画像船舶検出データセットとパフォーマンス分析、第 5 回高解像度地球観測年次会議。

4 Jianwei Li、Changwen Qu、Shujuan Peng。ゲート付き特徴ピラミッド ネットワークと有向境界ボックスを使用した SAR 画像におけるマルチスケールで密に配置された船舶検出。IEEE ACCESS。

<<:  ニューラルネットワークの詳細な説明、順方向伝播と逆方向伝播

>>:  ブロックチェーンは人工知能をどのように変えるのでしょうか?

ブログ    
ブログ    

推薦する

人工知能とデジタル技術はどのようにエネルギー効率を向上させるのでしょうか?

世界的なエネルギー危機が深刻化するにつれ、エネルギーの使用と管理の技術の継続的な開発と進歩も促進され...

科学者らが磁場を使ってバイオニックロボットの動きを制御する新たな解決策を発表

科学者は長い間ロボット工学の分野に興味を持っており、最近のバイオニックソフトロボットはロボット工学の...

エンジニアはETLを書くべきか? - 効率的なアルゴリズム/データサイエンス部門の構築方法を教えます

[[174647]]序文多くのインターネット企業のアルゴリズム関連部門(検索、レコメンデーション、広...

2021 年の人工知能のトップ 10 トレンド

コロナウイルスのパンデミック以前、AI業界は2020年に大きな成長を遂げると予想されていました。 2...

OpenAIが数学定理推論モデルGPT-fを初めてリリース、23の導出結果が専門データベースに収録

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

USTC 統合入力フィルタリング フレームワーク: すべてのデータ モダリティをサポートするフィルタリング可能性の最初の理論的分析

モバイル デバイスの計算能力が向上し、センサー データのリアルタイム分析の需要が高まるにつれて、モバ...

AI科挙制度がイノベーションを阻害する!あなたの目に映る良いモデルは単なる「ランキングマシン」です

2010 年に ImageNet ベースのコンピューター ビジョン コンペティションが開始され、ディ...

Hacker Newsのランキングアルゴリズムの仕組み

[[83666]]この記事では、Hacker News ウェブサイトの記事ランキング アルゴリズムの...

AmodalSynthDrive: 自動運転のための合成アモーダル知覚データセット

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

McKinsey AI Notes: 19 の業界における 400 を超える人工知能の使用事例を解読すると、1 兆ドルの価値はどこにあるのか?

[[229251]]最近、マッキンゼーは、人工知能が分析技術の年間価値の40%を占め、毎年3.5兆...

最も人気のある 5 つの AI プログラミング言語

はじめに: AI 開発についてさらに詳しく知りたいですか? この記事では、AIプログラムを作成する際...