グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

コンピュータービジョンのネットワーク構造は新たな革命を迎えようとしているのでしょうか?

畳み込みニューラル ネットワークから注意メカニズムを備えた視覚トランスフォーマーまで、ニューラル ネットワーク モデルは入力画像をグリッドまたはパッチ シーケンスとして扱いますが、このアプローチでは変化するオブジェクトや複雑なオブジェクトをキャプチャすることはできません。

例えば、人間が絵を観察するとき、その絵全体を自然に複数のオブジェクトに分割し、オブジェクト間の空間的などの位置関係を構築します。つまり、人間の脳にとって絵全体はグラフであり、オブジェクトはそのグラフ上のノードであるということです。

最近、中国科学院ソフトウェア研究所、華為ノアの方舟研究所、北京大学、マカオ大学の研究者らが共同で、視覚タスク向けに画像からグラフレベルの特徴を抽出できる新しいモデルアーキテクチャ、Vision GNN (ViG) を提案しました。

論文リンク: https://arxiv.org/pdf/2206.00272.pdf

まず、画像をグラフのノードとしていくつかのパッチに分割し、最も近いパッチを接続してグラフを構築します。次に、ViG モデルを使用して、グラフ全体のすべてのノードの情報を変換および交換します。

ViG は 2 つの基本モジュールで構成されています。Grapher モジュールはグラフ畳み込みを使用してグラフ情報を集約および更新し、FFN モジュールは 2 つの線形レイヤーを使用してノード機能を変換します。

画像認識や物体検出タスクの実験でも、ViG アーキテクチャの優位性が実証されています。一般的な視覚タスクにおける GNN の先駆的な研究は、将来の研究に役立つインスピレーションと経験をもたらすでしょう。

論文の著者は、中国科学院ソフトウェア研究所の博士課程の指導者であり、マカオ大学の名誉教授である呉恩華教授です。呉教授は、1970 年に清華大学の工学機械数学部を卒業し、1980 年に英国マンチェスター大学のコンピュータサイエンス学部で博士号を取得しました。主な研究分野はコンピュータグラフィックスと仮想現実で、仮想現実、リアルなグラフィックス生成、物理ベースのシミュレーションとリアルタイムコンピューティング、物理ベースのモデリングとレンダリング、画像とビデオの処理とモデリング、ビジュアルコンピューティング、機械学習などが含まれます。

ビジュアルGNN

ネットワーク構造は、パフォーマンスを向上させる上で最も重要な要素となることが多く、データの量と質が保証されていれば、モデルを CNN から ViT に変更することで、よりパフォーマンスの高いモデルを得ることができます。

しかし、ネットワークが異なれば入力画像の扱いも異なります。CNN は画像上でウィンドウをスライドさせ、変換不変性とローカル機能を導入します。

ViT と多層パーセプトロン (MLP) は、画像をパッチ シーケンスに変換します。たとえば、224×224 の画像を複数の 16×16 パッチに分割し、最終的に長さ 196 の入力シーケンスを形成します。

グラフ ニューラル ネットワークはより柔軟です。たとえば、コンピューター ビジョンでは、画像内のオブジェクトを認識することが基本的なタスクです。オブジェクトは通常は四辺形ではなく不規則な形状である可能性があるため、ResNet や ViT などの以前のネットワークで一般的に使用されていたグリッドまたはシーケンス構造は冗長であり、処理が柔軟ではありません。

物体は複数の部分から構成されていると見なすことができます。たとえば、人間は大まかに頭、上半身、腕、脚に分けることができます。

これらのパーツは関節でつながっており、自然にグラフィック構造を形成しています。このグラフを解析することで、最終的にこの物体が人間である可能性があると認識できます。

さらに、グラフは一般的なデータ構造であり、グリッドとシーケンスはグラフの特殊なケースとして見ることができます。画像をグラフとして表示すると、視覚的に柔軟かつ効果的になります。

グラフ構造を使用するには、入力画像を複数のパッチに分割し、各パッチをノードとして扱う必要があります。各ピクセルをノードとして扱うと、グラフ内のノードの数が多すぎます (>10K)。

グラフが確立された後、まずグラフ畳み込みニューラル ネットワーク (GCN) を使用して、隣接するノード間の特徴を集約し、画像の表現を抽出します。

GCN がより多様な特徴を取得できるようにするために、著者はグラフ畳み込みにマルチヘッド操作を適用します。集約された特徴は、異なる重みを持つヘッドによって更新され、最終的に画像表現にカスケードされます。

従来の GCN では通常、複数のグラフ畳み込み層を再利用してグラフ データの集約的な特徴を抽出していましたが、ディープ GCN の過剰平滑化現象によりノード特徴の一意性が低下し、視覚認識のパフォーマンスが低下していました。

この問題を緩和するために、研究者は ViG ブロックにさらに多くの特徴変換と非線形活性化関数を導入しました。

まず、グラフ畳み込みの前後に線形レイヤーを適用して、ノード機能を同じドメインに投影し、機能の多様性を高めます。層の崩壊を避けるために、グラフ畳み込みの後に非線形活性化関数が挿入されます。

特徴変換能力をさらに向上させ、過剰平滑化現象を軽減するためには、各ノードでフィードフォワードネットワーク (FFN) を使用することも必要です。 FFN モジュールは、2 つの完全に接続された層を持つ単純な多層パーセプトロンです。

Grapher モジュールと FFN モジュールでは、各完全接続層またはグラフ畳み込み層の後にバッチ正規化が実行されます。Grapher モジュールと FFN モジュールの積み重ねによって ViG ブロックが構成され、これは大規模ネットワークを構築するための基本単位でもあります。

オリジナルの ResGCN と比較して、新しく提案された ViG は特徴の多様性を維持でき、レイヤーが追加されるにつれてネットワークはより強力な表現を学習することもできます。

コンピュータビジョンのネットワークアーキテクチャでは、一般的に使用されるTransformerモデルは通常、等方性構造(ViTなど)を持ちますが、CNNはピラミッド構造(ResNetなど)を使用する傾向があります。

他のタイプのニューラル ネットワークと比較するために、研究者は ViG 用に等方性ネットワーク アーキテクチャとピラミッド型ネットワーク アーキテクチャの両方を構築しました。

実験比較段階では、研究者らは画像分類タスク用に、1,000 のカテゴリ、1 億 2,000 万枚のトレーニング画像、および 5 万枚の検証画像を含む ImageNet ILSVRC 2012 データセットを選択しました。

ターゲット検出タスクでは、118,000 枚のトレーニング画像と 5000 枚の検証セット画像を含む、80 個のターゲット カテゴリを持つ COCO 2017 データセットが選択されました。

等方性 ViG アーキテクチャでは、主な計算プロセス中にフィーチャ サイズを変更せずに維持できるため、拡張が容易で、ハードウェア アクセラレーションに適しています。既存の等方性 CNN、Transformer、MLP と比較すると、ViG は他のタイプのネットワークよりも優れたパフォーマンスを発揮することがわかります。その中で、ViG-Ti は 73.9% のトップ 1 精度を達成しました。これは、計算コストが同程度であるにもかかわらず、DeiT-Ti モデルよりも 1.7% 高い値です。

ピラミッド構造の ViG では、ネットワークが深くなるにつれて特徴マップの空間サイズが徐々に縮小され、画像のスケール不変特性を利用して同時にマルチスケール特徴が生成されます。

ほとんどの高性能ネットワークは、ResNet、Swin Transformer、CycleMLP などのピラミッド構造を使用します。 Pyramid ViG をこれらの代表的なピラミッド ネットワークと比較すると、Pyramid ViG ファミリーは CNN、MLP、Transformer などの最先端のピラミッド ネットワークを上回るか、それに匹敵することがわかります。

結果は、グラフ ニューラル ネットワークが視覚タスクをうまく実行でき、コンピューター ビジョン システムの基本的な構成要素になる可能性があることを示しています。

ViG モデルのワークフローをよりよく理解するために、研究者は ViG-S で構築されたグラフ構造を視覚化しました。 2 つの異なる深さ (ブロック 1 と 12) のサンプルの図 1。五芒星は中心ノードであり、同じ色のノードはその隣接ノードです。すべてのエッジを描画すると煩雑になるため、中央の 2 つのノードのみを視覚化します。

ViG モデルはコンテンツ関連のノードを一次近傍として選択できることがわかります。浅いレベルでは、色やテクスチャなどの低レベルおよびローカルな特徴に基づいて隣接ノードが選択されることが多いです。深いレイヤーでは、中心ノードの隣接ノードはより意味的であり、同じカテゴリに属します。 ViG ネットワークは、コンテンツと意味表現を通じてノードを徐々に接続し、オブジェクトをより適切に認識するのに役立ちます。​

<<:  7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブ インターフェースを生成できます

>>:  AI と ROI に関する真実: AI は本当に成果をもたらすことができるのか?

ブログ    

推薦する

...

WiFiベースの電子タグ位置決めアルゴリズム

無線通信の急速な発展に伴い、屋内測位のための無線ネットワークと RFID 技術の組み合わせがますます...

BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニ...

賢くなる方法: 神経科学にヒントを得た人工知能

[[201067]]私はデイビッド・マーが「神経科学のチューリング」のような存在だといつも感じていま...

よく使われる類似度指標の概要: コサイン類似度、ドット積、L1、L2

類似度の測定は機械学習において重要な役割を果たします。これらのメトリックは、オブジェクト、データ ポ...

アプリケーション管理における AI/ML のユースケース

[[320826]]概要人工知能ベースの運用 (AIOps) は、人工知能と従来の AM/IM 運用...

このAI職種の平均学歴は中学卒程度であり、最も絶望的な職業として認識されている

[[437446]] 2020年2月、「人工知能トレーナー」は正式に新しい職業となり、国家職業分類カ...

12の性能項目で1位を獲得、GPT-4に最も近い中国最大級のモデルが登場!いよいよ本格的に営業開始です!

中国はいつになったら、極めて強力な一般化能力を持つさまざまな知的存在を創造し、人類の真の助手となるこ...

スマートコミュニティはどれくらい「スマート」なのでしょうか?知能の背後にある技術的応用を解釈する

モノのインターネット技術の発展と普及に伴い、WIFi、GPRS、LoRaWANなどの通信プロトコルが...

西側メディア:将来の兵士はロボットの「羊飼い」になる

Reference News Networkは1月4日、スペインの新聞Vanguardiaが2020...

...

顔認証の時代が本当に到来しました。あなたも参加してみませんか?

データによると、顔認識市場の規模は今後数年間、年間約20%の高い成長率を維持すると予想されています。...

予想外?今年の建国記念日に最も多く目にするのはドローンかもしれません!

[[426834]]国慶節のゴールデンウィークが近づいてきました。旅行の計画はお決まりですか?昨今...

LIama2を運営して8400万元稼ごう!最速のAI推論チップのコスト見積もりが白熱した議論を巻き起こす

史上最速の大規模モデル推論を実現するには、1171万ドル(8410万元)の費用がかかりますか? ? ...

体型の変化は千差万別! MIT が宇宙探査用人工物を開発 - モジュール式の自己再構成可能なマイクロロボット

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...