グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

コンピュータービジョンのネットワーク構造は新たな革命を迎えようとしているのでしょうか?

畳み込みニューラル ネットワークから注意メカニズムを備えた視覚トランスフォーマーまで、ニューラル ネットワーク モデルは入力画像をグリッドまたはパッチ シーケンスとして扱いますが、このアプローチでは変化するオブジェクトや複雑なオブジェクトをキャプチャすることはできません。

例えば、人間が絵を観察するとき、その絵全体を自然に複数のオブジェクトに分割し、オブジェクト間の空間的などの位置関係を構築します。つまり、人間の脳にとって絵全体はグラフであり、オブジェクトはそのグラフ上のノードであるということです。

最近、中国科学院ソフトウェア研究所、華為ノアの方舟研究所、北京大学、マカオ大学の研究者らが共同で、視覚タスク向けに画像からグラフレベルの特徴を抽出できる新しいモデルアーキテクチャ、Vision GNN (ViG) を提案しました。

論文リンク: https://arxiv.org/pdf/2206.00272.pdf

まず、画像をグラフのノードとしていくつかのパッチに分割し、最も近いパッチを接続してグラフを構築します。次に、ViG モデルを使用して、グラフ全体のすべてのノードの情報を変換および交換します。

ViG は 2 つの基本モジュールで構成されています。Grapher モジュールはグラフ畳み込みを使用してグラフ情報を集約および更新し、FFN モジュールは 2 つの線形レイヤーを使用してノード機能を変換します。

画像認識や物体検出タスクの実験でも、ViG アーキテクチャの優位性が実証されています。一般的な視覚タスクにおける GNN の先駆的な研究は、将来の研究に役立つインスピレーションと経験をもたらすでしょう。

論文の著者は、中国科学院ソフトウェア研究所の博士課程の指導者であり、マカオ大学の名誉教授である呉恩華教授です。呉教授は、1970 年に清華大学の工学機械数学部を卒業し、1980 年に英国マンチェスター大学のコンピュータサイエンス学部で博士号を取得しました。主な研究分野はコンピュータグラフィックスと仮想現実で、仮想現実、リアルなグラフィックス生成、物理ベースのシミュレーションとリアルタイムコンピューティング、物理ベースのモデリングとレンダリング、画像とビデオの処理とモデリング、ビジュアルコンピューティング、機械学習などが含まれます。

ビジュアルGNN

ネットワーク構造は、パフォーマンスを向上させる上で最も重要な要素となることが多く、データの量と質が保証されていれば、モデルを CNN から ViT に変更することで、よりパフォーマンスの高いモデルを得ることができます。

しかし、ネットワークが異なれば入力画像の扱いも異なります。CNN は画像上でウィンドウをスライドさせ、変換不変性とローカル機能を導入します。

ViT と多層パーセプトロン (MLP) は、画像をパッチ シーケンスに変換します。たとえば、224×224 の画像を複数の 16×16 パッチに分割し、最終的に長さ 196 の入力シーケンスを形成します。

グラフ ニューラル ネットワークはより柔軟です。たとえば、コンピューター ビジョンでは、画像内のオブジェクトを認識することが基本的なタスクです。オブジェクトは通常は四辺形ではなく不規則な形状である可能性があるため、ResNet や ViT などの以前のネットワークで一般的に使用されていたグリッドまたはシーケンス構造は冗長であり、処理が柔軟ではありません。

物体は複数の部分から構成されていると見なすことができます。たとえば、人間は大まかに頭、上半身、腕、脚に分けることができます。

これらのパーツは関節でつながっており、自然にグラフィック構造を形成しています。このグラフを解析することで、最終的にこの物体が人間である可能性があると認識できます。

さらに、グラフは一般的なデータ構造であり、グリッドとシーケンスはグラフの特殊なケースとして見ることができます。画像をグラフとして表示すると、視覚的に柔軟かつ効果的になります。

グラフ構造を使用するには、入力画像を複数のパッチに分割し、各パッチをノードとして扱う必要があります。各ピクセルをノードとして扱うと、グラフ内のノードの数が多すぎます (>10K)。

グラフが確立された後、まずグラフ畳み込みニューラル ネットワーク (GCN) を使用して、隣接するノード間の特徴を集約し、画像の表現を抽出します。

GCN がより多様な特徴を取得できるようにするために、著者はグラフ畳み込みにマルチヘッド操作を適用します。集約された特徴は、異なる重みを持つヘッドによって更新され、最終的に画像表現にカスケードされます。

従来の GCN では通常、複数のグラフ畳み込み層を再利用してグラフ データの集約的な特徴を抽出していましたが、ディープ GCN の過剰平滑化現象によりノード特徴の一意性が低下し、視覚認識のパフォーマンスが低下していました。

この問題を緩和するために、研究者は ViG ブロックにさらに多くの特徴変換と非線形活性化関数を導入しました。

まず、グラフ畳み込みの前後に線形レイヤーを適用して、ノード機能を同じドメインに投影し、機能の多様性を高めます。層の崩壊を避けるために、グラフ畳み込みの後に非線形活性化関数が挿入されます。

特徴変換能力をさらに向上させ、過剰平滑化現象を軽減するためには、各ノードでフィードフォワードネットワーク (FFN) を使用することも必要です。 FFN モジュールは、2 つの完全に接続された層を持つ単純な多層パーセプトロンです。

Grapher モジュールと FFN モジュールでは、各完全接続層またはグラフ畳み込み層の後にバッチ正規化が実行されます。Grapher モジュールと FFN モジュールの積み重ねによって ViG ブロックが構成され、これは大規模ネットワークを構築するための基本単位でもあります。

オリジナルの ResGCN と比較して、新しく提案された ViG は特徴の多様性を維持でき、レイヤーが追加されるにつれてネットワークはより強力な表現を学習することもできます。

コンピュータビジョンのネットワークアーキテクチャでは、一般的に使用されるTransformerモデルは通常、等方性構造(ViTなど)を持ちますが、CNNはピラミッド構造(ResNetなど)を使用する傾向があります。

他のタイプのニューラル ネットワークと比較するために、研究者は ViG 用に等方性ネットワーク アーキテクチャとピラミッド型ネットワーク アーキテクチャの両方を構築しました。

実験比較段階では、研究者らは画像分類タスク用に、1,000 のカテゴリ、1 億 2,000 万枚のトレーニング画像、および 5 万枚の検証画像を含む ImageNet ILSVRC 2012 データセットを選択しました。

ターゲット検出タスクでは、118,000 枚のトレーニング画像と 5000 枚の検証セット画像を含む、80 個のターゲット カテゴリを持つ COCO 2017 データセットが選択されました。

等方性 ViG アーキテクチャでは、主な計算プロセス中にフィーチャ サイズを変更せずに維持できるため、拡張が容易で、ハードウェア アクセラレーションに適しています。既存の等方性 CNN、Transformer、MLP と比較すると、ViG は他のタイプのネットワークよりも優れたパフォーマンスを発揮することがわかります。その中で、ViG-Ti は 73.9% のトップ 1 精度を達成しました。これは、計算コストが同程度であるにもかかわらず、DeiT-Ti モデルよりも 1.7% 高い値です。

ピラミッド構造の ViG では、ネットワークが深くなるにつれて特徴マップの空間サイズが徐々に縮小され、画像のスケール不変特性を利用して同時にマルチスケール特徴が生成されます。

ほとんどの高性能ネットワークは、ResNet、Swin Transformer、CycleMLP などのピラミッド構造を使用します。 Pyramid ViG をこれらの代表的なピラミッド ネットワークと比較すると、Pyramid ViG ファミリーは CNN、MLP、Transformer などの最先端のピラミッド ネットワークを上回るか、それに匹敵することがわかります。

結果は、グラフ ニューラル ネットワークが視覚タスクをうまく実行でき、コンピューター ビジョン システムの基本的な構成要素になる可能性があることを示しています。

ViG モデルのワークフローをよりよく理解するために、研究者は ViG-S で構築されたグラフ構造を視覚化しました。 2 つの異なる深さ (ブロック 1 と 12) のサンプルの図 1。五芒星は中心ノードであり、同じ色のノードはその隣接ノードです。すべてのエッジを描画すると煩雑になるため、中央の 2 つのノードのみを視覚化します。

ViG モデルはコンテンツ関連のノードを一次近傍として選択できることがわかります。浅いレベルでは、色やテクスチャなどの低レベルおよびローカルな特徴に基づいて隣接ノードが選択されることが多いです。深いレイヤーでは、中心ノードの隣接ノードはより意味的であり、同じカテゴリに属します。 ViG ネットワークは、コンテンツと意味表現を通じてノードを徐々に接続し、オブジェクトをより適切に認識するのに役立ちます。​

<<:  7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブ インターフェースを生成できます

>>:  AI と ROI に関する真実: AI は本当に成果をもたらすことができるのか?

ブログ    
ブログ    
ブログ    

推薦する

Junhao Real EstateはIBM MaximoとTRIRIGAを使用して標準化されたインテリジェントデジタルビジネスシステムを構築しました

IBM は、IBM Maximo インテリジェント資産管理プラットフォームや TRIRIGA スマー...

AI が台頭して 9 年目を迎えた今、どんな大きな可能性があるのでしょうか?

2012年以来、人工知能の復活は9年目に入りました。「人工知能とは何か」に対する人々の認識は、当初...

ニューラルネットワークの父ヒントン氏は、34年前の画期的な業績を再検証し、脳内のAI手法の「存在」を模索している。

これまで耳にした人工知能の進歩のほぼすべては、30 年前に発表された、多層ニューラル ネットワークを...

...

JD X ロボティクス チャレンジが終了、BUPT チームのインテリジェント ロボットが優勝

3月25日、北京郵電大学のウォータードロップチームが優勝トロフィーを掲げ、JD X部門主催のJD 2...

最新の出来事を常に把握しましょう! Soraモデルテキスト生成ビデオをサポートするWebクライアント

みなさんこんにちは。JavaプログラマーのChenです。最近、Open AIが再び人気を集めており、...

主要なソートアルゴリズムのパフォーマンス比較とデモンストレーション例

ソートとは、もともと無秩序だったシーケンスを、順序のあるシーケンスに並べ替えることを意味します。ソー...

ブラウザで TensorFlow を使用するにはどうすればいいですか?

[[341102]] [51CTO.com クイック翻訳] TensorFlow を使用すると、少...

ワンクリックでコード化からコード化なしに変更できますか? AIブラックテクノロジーは本当にモザイクを除去できるのか?

モザイクは人々に嫌われており、「モザイクは人類の文明の進歩を妨げる」という諺が生まれたほどです。映画...

カスタマーサービスで AI ボットを使用する 5 つのメリット

Zendesk は、企業と顧客の距離を縮めるために設計された顧客サービス プラットフォームを開発しま...

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...

エネルギー分野における人工知能の5つの主要な応用

[[435080]]エネルギー分野における AI の革新と進歩により、企業がエネルギーを生産、販売、...

...