畳み込みニューラルネットワークにおける自己注意メカニズムの理解

畳み込みニューラルネットワークにおける自己注意メカニズムの理解

導入

コンピューター ビジョンにおけるエンコーダー/デコーダー アーキテクチャの制限とそれを改善する方法。

[[342535]]

畳み込みニューラル ネットワーク (CNN) は、ディープラーニングやコンピューター ビジョン アルゴリズムで広く使用されています。多くの CNN ベースのアルゴリズムは業界標準を満たしており、商用製品に組み込むことができますが、標準の CNN アルゴリズムにはまだ制限があり、多くの面で改善の余地があります。この投稿では、セマンティック セグメンテーションとエンコーダー/デコーダー アーキテクチャを例として説明し、その限界と、自己注意メカニズムが問題の軽減に役立つ理由を説明します。

標準コーデックアーキテクチャの制限

図1: 標準コーデックの構造

デコーダー アーキテクチャ (図 1) は、多くのコンピューター ビジョン タスク、特にセマンティック セグメンテーション、深度予測、一部の GAN 関連の画像ジェネレーターなどのピクセル レベルの予測タスクにおける標準的なアプローチです。エンコーダー/デコーダー ネットワークでは、入力画像が畳み込まれ、アクティブ化され、プールされて潜在ベクトルが得られ、その後、入力画像と同じサイズの出力画像に復元されます。アーキテクチャは対称的で、慎重に設計された畳み込みブロックで構成されています。このアーキテクチャは、そのシンプルさと正確さから広く使用されています。

図2: 畳み込み計算

しかし、畳み込みの計算をさらに詳しく調べると (図 2)、エンコーダー/デコーダー アーキテクチャの限界が明らかになります。たとえば、3x3 畳み込みでは、畳み込みフィルターには 9 つのピクセルがあり、対象ピクセルの値は、そのピクセル自体と周囲の 8 ピクセルのみを参照して計算されます。つまり、畳み込みではターゲット ピクセルを計算するためにローカル情報のみを使用できるため、グローバル情報は表示されないため、多少のバイアスが生じる可能性があります。この問題を緩和する単純な方法がいくつかあります。より大きな畳み込みフィルターを使用するか、より多くの畳み込み層を持つより深いネットワークを使用することです。ただし、計算オーバーヘッドはますます大きくなり、結果は大幅に改善されません。

分散と共分散を理解する

分散と共分散はどちらも統計学と機械学習における重要な概念です。これらはランダム変数に対して定義されます。名前が示すように、分散は単一のランダム変数の平均からの偏差を表しますが、共分散は 2 つのランダム変数間の類似性を表します。 2 つのランダム変数が類似した分布を持つ場合、それらの共分散は大きくなります。それ以外の場合、共分散は小さくなります。特徴マップ内の各ピクセルをランダム変数として扱い、すべてのピクセル間のペアワイズ共分散を計算すると、画像内の他のピクセルとの類似性に基づいて、予測される各ピクセルの値を強めたり弱めたりすることができます。トレーニングと予測中に類似のピクセルを使用し、類似しないピクセルは無視します。このメカニズムは自己注意と呼ばれます。

式1: 2つのランダム変数XとYの共分散

CNNにおける自己注意メカニズム

図3: CNNにおける自己注意メカニズム

各ピクセルレベルの予測に対するグローバル参照を実現するために、WangらはCNNにおける自己注意メカニズムを提案しました(図3)。彼らのアプローチは、予測されたピクセルと他のピクセル間の共分散に基づいており、各ピクセルをランダム変数として扱います。関与するターゲット ピクセルは、すべてのピクセル値の加重合計に過ぎず、重みは各ピクセルのターゲット ピクセルに対する関連性です。

元の図 3 を図 4 のように簡略化すると、メカニズムにおける共分散の役割を簡単に理解できます。まず、高さ H、幅 w の特徴マップ X を入力し、X を 3 つの 1 次元ベクトル A、B、C に再形成し、A と B を乗算してサイズ HWxHW の共分散行列を取得します。最後に、共分散行列に C を掛けて D を取得し、それを再形成して出力特徴マップ Y を取得し、入力 X から残差接続を実行します。ここで、D の各項は入力 X の加重合計であり、重みはピクセル間の共分散です。

自己注意メカニズムを利用することで、モデルのトレーニングと予測中にグローバル参照を実現できます。このモデルはバイアスと分散のトレードオフが良好であるため、より合理的です。

ディープラーニングへの解釈可能なアプローチ

図5: SAGANにおける解釈可能な画像生成

SAGAN は、自己注意メカニズムを GAN フレームワークに組み込みます。ローカル領域ではなくグローバル参照を通じて画像を生成できます。図 5 では、各行の左側の画像は色を使用してサンプリングされたクエリ ポイントを表し、残りの 5 つの画像は各クエリ ポイントに対応するフォーカス領域です。空や葦の茂みなどの背景のクエリ ポイントの場合、関心領域は広く、クマの目や鳥の脚などの前景のクエリ ポイントの場合、関心領域は局所的であることがわかります。

<<:  DAMOアカデミー物流ロボットQA

>>:  コロナウイルス:スマートシティ変革のきっかけ

ブログ    
ブログ    

推薦する

北京の自動運転路上試験、安全走行距離が300万キロ超え

IT Homeは5月30日、新華社通信が伝えたところによると、記者が29日に北京市インテリジェント車...

25年間の素晴らしい実績! MITの科学者はコンピューターに創造性を与え、ロボットの形状を自動設計させる

階段を登れるロボットが必要になったとしたら、このロボットはどのような形状であるべきでしょうか?人間の...

科学者らがドローンを使って南極のペンギンの「国勢調査」を実施

最近、南極で初めて金色のペンギンが発見されました。このペンギンは「黄色いダイヤモンドを帯びている」と...

ミツバチたちは、巣を監視し、餌を自動で分配できる多機能ロボットを搭載したこのスマートな巣箱に感銘を受けています。

ビッグデータダイジェスト制作著者: カレブスマート農場はますます私たちの身近なものになってきています...

エントリーレベルのデータベースアルゴリズム [パート 3]

前回は著者の指示に従って、データ構造におけるクエリ アルゴリズムといくつかのソート アルゴリズムを確...

人工知能は改めてすごいですね!科学者は偶然、死者を「蘇らせる」ことができることを発見した

マイクロソフトは現在、チャットボットを開発中との報道もある。将来的に実用化に成功すれば、デジタル技術...

重要なお知らせです!顔認識のために服を着用する必要があります!

[[409661]]画像はBaotu.comより顔認識は、多くのソフトウェアの ID セキュリティ...

Alimama は曲率空間学習フレームワークと連合学習ソリューションをオープンソース化し、共通の進歩のために AI 技術を一般に公開します。

9月15日、Alimamaは、曲率空間学習フレームワークと連合学習ソリューションという2つのAI技...

人工知能チュートリアル(I):基礎

今日、コンピュータサイエンスの分野の学生や実務家にとって、人工知能、データサイエンス、機械学習、ディ...

クラウドネットワークとAIに焦点を当てると、3大通信事業者の財務報告はどのようなことを明らかにするのでしょうか。

少し前に、中国移動、中国聯通、中国電信の3大通信事業者が2023年第2四半期の財務報告書を発表しまし...

...

Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

5月6日、アント・ファイナンシャルの副CTOである胡曦氏はオープンソースの機械学習ツールSQLFlo...

医療や旅行など多くの分野で人工知能が導入され、生産と生活の変革が加速している。

モバイルインターネットやビッグデータなどの新技術の推進により、人工知能は新たな発展ブームを迎え、実際...

...