Google MobileNetを超えろ! Huawei がエッジツーエッジ ニューラル ネットワーク アーキテクチャ GhostNet を提案 | オープンソース

Google MobileNetを超えろ! Huawei がエッジツーエッジ ニューラル ネットワーク アーキテクチャ GhostNet を提案 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

同じ精度、速度、計算の複雑さで、以前の SOTA アルゴリズムよりも少なくなります。これは、Huawei の Noah's Ark Lab が提案した新しいエッジツーエッジ ニューラル ネットワーク アーキテクチャである GhostNet です。

GhostNet の核となるのは Ghost モジュールです。通常の畳み込みニューラル ネットワークと比較すると、出力特徴マップのサイズを変えずに、必要なパラメータの総数と計算の複雑さが削減され、プラグ アンド プレイになっています。

ImageNet 分類タスクでは、GhostNet は、Google の MobileNet シリーズ、Megvii の ShuffleNet シリーズ、IGCV3、ProxylessNAS、FBNet、MnasNet など、さまざまな計算複雑性レベルで他の競合製品よりも一貫して優れています。

GhostNet に関する論文は CVPR 2020 に収録されており、モデルとコードは GitHub でオープンソース化されています。 Huawei Noah's Ark Labはどのようにそれを実現したのでしょうか?作者陣の解釈をもとに一つずつ見ていきましょう。

コアコンセプト: より少ないパラメータでより多くの特徴マップを生成する

通常、モデルが入力データを包括的に理解できるようにするために、トレーニングされたディープ ニューラル ネットワークには、豊富な、あるいは冗長な特徴マップが含まれます。

下の図に示すように、ResNet-50 では、特徴マップが最初の残差ブロックによって処理された後、多くの類似した「特徴マップ ペア」が存在し、それらは同じ色のボックスで注釈が付けられます。

この操作によりパフォーマンスは向上しますが、多数の畳み込み層を駆動してこれらの特徴マップを処理するために、より多くのコンピューティング リソースが必要になります。

ディープニューラルネットワークをモバイルデバイスに適用する流れの中で、パフォーマンスを低下させず、計算量を減らす方法を確保することが研究の焦点の 1 つになっています。

Google の MobileNet チームと Megvii の ShuffleNet チームは最近、計算オーバーヘッドの少ないディープ ニューラル ネットワークを構築するさまざまな方法を考案しました。しかし、彼らが採用している深い畳み込みやシャッフル演算は、より小さな畳み込みカーネル(浮動小数点演算)を使用して、依然として畳み込みに取り組んでいます。

Huawei Noah Lab チームはこの道をたどらず、別のアプローチを採用しました。

「特徴マップ ペア」の 1 つの特徴マップが、他の特徴マップを簡単な操作 (上図のレンチ) で変換することによって取得できる場合、特徴マップの 1 つは、他の特徴マップの「ファントム」と見なすことができます。

これは、畳み込み演算を使用してすべての特徴マップを取得する必要がないことを意味しますか? 「ファントム」機能マップも、より安価な操作を使用して生成できますか?

これが GhostNet の基盤である Ghost モジュールです。このモジュールは、通常の畳み込み層と同じ数の特徴マップを生成するために、より少ないパラメータを使用します。必要な計算パワー リソースは、通常の畳み込み層よりも低くなっています。既存の設計されたニューラル ネットワーク構造に統合すると、計算コストを削減できます。

具体的な操作についてはここでは詳しく述べませんが、ご興味があれば論文をご覧ください(アドレスは記事の最後にあります)。

新しいエンドツーエンドのニューラルネットワークアーキテクチャGhostNetの構築

研究チームは、Ghost モジュールを活用して、小規模な CNN 専用に設計された Ghost ボトルネック (G-bneck) を提案しました。そのアーキテクチャを下の図に示します。これは ResNet の Basic Residual Block に似ており、複数の畳み込み層とショートカットを統合しています。

Ghost ボトルネックは、主に 2 つのスタックされた Ghost モジュールで構成されます。最初のレイヤーは拡張レイヤーとして使用され、チャネル数を増やします。 2 番目は、ショートカット パスに合わせてチャネルの数を減らすために使用されます。次に、ショートカットを使用して、これら 2 つの Ghost モジュールの入力と出力を接続します。

研究チームによると、ここではMobileNetV2のアイデアが借用されており、2番目のGhostモジュール以降はReLUは使用されず、他のレイヤーの各レイヤーの後にバッチ正規化(BN)とReLU非線形アクティベーションが適用されます。

ここで言及した Ghost ボトルネックは、上図の Stride = 1 の場合に当てはまります。 Stride = 2 の場合、ショートカット パスは、ダウンサンプリング レイヤーと Stride = 2 の深度方向畳み込みによって実装されます。

さらに、効率上の理由から、Ghost モジュールの最初の畳み込みは点ごとの畳み込みです。

研究チームは、Ghost ボトルネックに基づいて、MobileNetV3 の基本アーキテクチャの利点を踏襲し、MobileNetV3 のボトルネックを Ghost ボトルネックに置き換える GhostNet を提案しました。

最初のレイヤーは 16 個の畳み込みカーネルを持つ標準的な畳み込みレイヤーで、その後に徐々に増加するチャネルを持つ一連の Ghost ボトルネックが続きます。

ゴースト ボトルネックは、入力特徴マップのサイズに応じて、さまざまなステージに分割されます。各ステージの最後のゴースト ボトルネック (Stride = 2) を除き、他のすべてのゴースト ボトルネックには、Stride = 1 が適用されます。

最後に、グローバル平均プーリングと畳み込み層を使用して、特徴マップを最終的な分類のための 1280 次元の特徴ベクトルに変換します。 SE モジュールは、一部の Ghost ボトルネックの残余レイヤーでも使用されます。 MobileNetV3 と比較すると、ここでは Hard-swish 活性化関数が ReLU に置き換えられています。

研究チームによると、ここで紹介したアーキテクチャはあくまでも基本的な設計参考であり、ハイパーパラメータの調整や自動アーキテクチャ検索に基づくゴーストモジュールによって、さらにパフォーマンスが向上するとのこと。

ImageNet 分類タスクが Google MobileNet を上回る

このアイデアに基づいて設計されたニューラル ネットワーク アーキテクチャのパフォーマンスはどの程度でしょうか?研究チームはあらゆる面からそれを検証した。

まず、CIFAR-10 データセットで、VGG-16 および ResNet-56 アーキテクチャの Ghost モジュールを使用し、いくつかの代表的な最先端モデルと比較しました。

Ghost-VGG-16 (s=2) は、最高のパフォーマンス (93.7%) で競合製品を上回りますが、計算電力消費 (FLOP) は大幅に少なくなります。 VGG-16 よりもはるかに小さい ResNet-56 では、Ghost モジュールに基づくモデルにより計算量が半分に削減され、同等の精度が達成されます。

この論文では、Ghost モジュールによって生成された特徴マップが提供されています。下の図は、Ghost-VGG-16 の第 2 層の特徴を示しています。左上の画像は入力であり、左の赤いボックス内の特徴マップは初期畳み込みから取得され、右の緑のボックス内の特徴マップは、簡易深度変換後のゴースト特徴マップです。

研究チームは、生成された特徴マップは元の特徴マップから派生したものの、実際には両者の間には大きな違いがあり、これは生成された特徴が特定のタスクのニーズを満たすのに十分な柔軟性があることを意味していると述べた。

次に、ImageNet データセットの分類タスクで、ニューラル ネットワーク アーキテクチャ全体のパフォーマンスをテストし、ImageNet 検証セット上の単一のクロップのトップ 1 パフォーマンスを測定しました。

下の図は、GhostNet と、MobileNet シリーズ、ShuffleNet シリーズ、ProxylessNAS、FBNet、MnasNet などの既存のいくつかの優れた小規模ネットワーク構造との比較を示しています。

モデルは、計算の複雑さに応じて、約 50、約 150、200-300MFLOPS の 3 つのレベルに分けられます。通常、FLOP が大きいほど、これらの小規模ネットワークはより高い精度を達成し、その有効性を実証します。

GhostNet は、さまざまなレベルの計算の複雑さにおいて、一貫して他の競合製品よりも優れたパフォーマンスを発揮します。研究チームは、これは主に GhostNet が特徴マップを生成するためにコンピューティング リソースをより効率的に利用しているためだと説明しました。

GhostNet はモバイル デバイス向けに設計されているため、MobileNet の一般的な設定に従い、バッチ サイズ 1 のシングル スレッド モードを使用して TFLite ツールも使用し、ARM ベースの電話 (Huawei P30 Pro) での GhostNet の実際の推論速度をさらに測定し、他のモデルと比較しました。

上の図に示すように、GhostNet は同じレイテンシの MobileNetV3 と比較してトップ 1 の精度が約 0.5% 向上しています。一方、GhostNet では同じ精度を達成するために必要な実行時間が短くなります。

たとえば、精度が 75.0% の GhostNet では遅延はわずか 40 ミリ秒ですが、同様の精度の MobileNetV3 では 1 つの画像を処理するのに約 46 ミリ秒かかります。

その結果、研究チームは、GhostNet は Google の MobileNet シリーズ、ProxylessNAS、FBNet、MnasNet などの他の最先端モデルよりも全体的に優れていると述べています。

ファーウェイ ノアの箱舟ラボの研究成果

この研究の中心著者は主に Huawei Noah Lab の出身者です。

第一著者は、以前の研究機関が北京大学であったHan Kai氏です。 2人目の著者は、同じく北京大学を卒業した王雲和氏です。 3 番目の著者は、Noah’s Ark Lab の主任コンピューター ビジョン サイエンティストであり、この論文の責任著者でもある Tian Qi です。

この論文は、Huawei のコンピューター ビジョンに関する最新の研究成果の 1 つです。

以前、CVPR 2020の結果が発表された際、王雲和氏は知乎で彼のチームの論文が合計7本含まれていることを明らかにした。

これらは過去6か月間のチームの懸命な努力の結果であると彼は語った。えーっと…

この研究にご興味がございましたら、以下のポータルを保存してください。

論文の宛先:

https://arxiv.org/abs/1911.11907

プロジェクトのオープンソースアドレス:

https://github.com/huawei-noah/ghostnet

<<:  脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド

>>:  彼はボストンダイナミクスのロボット犬を使って人力車を引いているのです!ネットユーザー:これは私が今まで見た中で最もスチームパンクなものだ

ブログ    
ブログ    
ブログ    

推薦する

将来、ロボットは手術を支援し、反復作業をより効率的に実行できるようになるかもしれない。

人々は人工知能の急速な発展と、さまざまな業界でのその応用事例を目撃してきました。ヘルスケアは、AI、...

オープン語彙検出オープンワールド物体検出コンペティション2023優勝チームソリューション共有

OVDテクノロジーの紹介物体検出は、コンピューター ビジョンの分野における中核的なタスクです。その主...

人工知能技術は、ビルインターホン業界の発展における主流技術の一つとなっている。

現在、人工知能、ビッグデータ、顔認識技術、クラウドコンピューティングなどの新技術が急速に発展し、産業...

AIは英語のエッセイを添削できますか? IELTS、CET-4、CET-6の採点、コメント、エラー修正が必要です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Recast.AIでチャットボットを作成する

[[355279]] 2018 年 2 月の Gartner レポートによると、「2020 年までに...

...

人工知能が消去された画像を完璧な結果で再現します!

革命的な新しい人工知能プログラムは、画像の欠けている部分をすべて完璧に再現できることをすぐに納得させ...

...

心理測定分析における AI とビッグデータの活用

心理測定分析における AI とビッグデータの活用人工知能 (AI) とビッグデータは、採用担当者が個...

遠隔医療市場は2020年に65%近く成長すると予測

フロスト・アンド・サリバンの新しい遠隔医療市場予測によると、COVID-19パンデミックの影響で、遠...

生成 AI とデータ品質は共存できますか?

このハイテク時代では、生成型人工知能については誰もが知っているか、少なくとも聞いたことがあると思いま...

DrivingDiffusion: 最初のサラウンドワールド モデル: BEV データとシミュレーションの新しいアイデア!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Python による AI 音声クローン作成のエンドツーエンド ガイド

AI 音声クローニングは、音声の固有の特徴を捉えて正確に複製する技術です。この技術により、既存のサウ...

...

...