画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

適応型計算とは、環境の変化に応じて ML システムの動作を調整する能力を指します。

従来のニューラル ネットワークでは機能と計算能力が固定されており、異なる入力を処理するために同じ数の FLOP が使用されます。

しかし、適応型および動的計算を備えたモデルでは、入力の複雑さに基づいて、各入力の処理に割り当てられる計算予算が調整されます。

ニューラル ネットワークにおける適応型コンピューティングが魅力的な理由は 2 つあります。

まず、適応メカニズムの導入により、いくつかの困難なタスクを解決する上で重要な役割を果たすことができる帰納的バイアスが提供されます。

たとえば、さまざまな深さの階層をモデル化する必要がある算術問題を解決するには、さまざまな入力に対して異なる数の計算ステップを有効にすることが重要です。

第二に、動的計算によって柔軟性が高まり、実践者が推論コストを調整できるようになります。

Google チームが発表した論文では、適応型コンピューティングの新しいモデルである AdaTape が紹介されました。

論文アドレス: https://arxiv.org/pdf/2301.13195.pdf

最新モデルは、動的テープ トークンと適応型テープ読み取りアルゴリズムを使用して入力シーケンスを生成するトランスバーター アーキテクチャに基づいており、画像認識タスクのパフォーマンスを向上させることができます。

AdaTape は、適応型テープ読み取りメカニズムを使用して、入力の複雑さに応じて各入力に追加するテープ トークンの数を決定します。

AdaTape は実装が非常に簡単で、必要に応じて精度を向上させる効率的なノブを提供します。

AdaTape は、モデルの深さではなく入力シーケンスに直接適応性を注入するため、他の適応ベースラインと比較してより効率的です。

最後に、Adatape は、品質とコストのトレードオフを維持しながら、画像分類などの標準タスクやアルゴリズム タスクでより優れたパフォーマンスを提供します。

弾性入力シーケンスの適応計算

AdaTape は、適応型関数タイプと動的計算予算を使用します。

具体的には、トークン化後の入力シーケンスのバッチに対して、AdaTape は各入力を表すベクトルを使用して、可変サイズのテープ トークン シーケンスを動的に選択します。

AdaTape は、「テープ バンク」と呼ばれるトークン ライブラリを使用して、適応型テープ読み取りメカニズムを通じてモデルと対話するすべての候補テープ トークンを保存します。

研究者らは、テープ ライブラリを作成するための 2 つの異なるアプローチ、つまり入力駆動型ライブラリと学習可能なライブラリについて説明しています。

入力駆動型ライブラリの全体的な考え方は、入力からトークン ライブラリのセットを抽出し、元のモデル トークナイザーとは異なる方法を使用して、元の入力を一連の入力トークン シーケンスにマッピングすることです。

これにより、さまざまな画像解像度を使用して取得された入力情報に動的にオンデマンドでアクセスできるようになります。

AdaTape の全体的なアーキテクチャ

場合によっては、異なる抽象化レベルでのトークン化が不可能なため、入力駆動型テープ ライブラリは実現不可能です。

たとえば、グラフトランスフォーマー内の各ノードをさらに分割することが困難な場合などです。

この問題に対処するために、AdaTape は、トレーニング可能なベクトルのセットをテープ トークンとして使用してテープ ライブラリを生成する、より一般的なアプローチを提供します。

このアプローチは「学習可能なリポジトリ」と呼ばれ、モデルが入力例の複雑さに基づいてトークンを動的に取得できる埋め込みレイヤーとして見ることができます。

学習可能なライブラリにより、AdaTape はより柔軟なテープ ライブラリを生成できるようになり、各入力例の複雑さに基づいて計算予算を動的に調整できるようになります。

たとえば、より複雑な例では、リポジトリからより多くのトークンが取得されます。これにより、モデルはリポジトリに保存されている知識を使用するだけでなく、入力が大きくなるため、それを処理するためにより多くの FLOP を費やすことになります。

最後に、選択されたテープ トークンが元の入力に追加され、次の Transformer レイヤーに送られます。

各トランスフォーマー レイヤーでは、すべての入力とテープ トークンに同じマルチヘッド アテンションが使用されます。

ただし、2 つの異なるフィードフォワード ネットワーク (FFN) が使用されます。1 つは元の入力からのすべてのトークン用で、もう 1 つはすべてのテープ トークン用です。

研究者たちは、入力トークンとテープトークンに別々のフィードフォワードネットワークを使用することで、品質がわずかに向上することを観察しました。

誘導バイアス

標準のトランスフォーマーにとって非常に困難なタスクであるパリティに基づいて AdaTape を評価し、AdaTape の誘導バイアスの影響を調査します。

パリティ タスクでは、1、0、-1 のシーケンスが与えられた場合、モデルはシーケンス内の 1 の数の均一性または特異性を予測する必要があります。

パリティ チェックは周期的な正規言語ですが、驚くべきことに、このタスクは標準の Transformer では解決できません。

パリティタスクの評価

短くて単純なシーケンスで評価されているにもかかわらず、標準 Transformer と Generalized Transformer はどちらもモデル内でカウンターを維持できないため、パリティ タスクを実行できません。

ただし、AdaTape は、入力選択メカニズムに軽量の再帰を組み込んでおり、暗黙的にカウンターを維持できる誘導バイアスを提供しているため、すべてのベースラインよりも優れています。これは、標準の Transformer では不可能です。

画像分類評価

画像分類タスクのために、研究者らは ImageNet-1K で AdaTape をゼロからトレーニングしました。

下の図は、AdaTape とベースライン メソッド (A-ViT および Universal Transformer ViT (UViT および U2T) を含む) の精度と速度 (コードごとに 1 秒あたりに処理される画像の数で測定) を示しています。

AdaTape は、品質とコストのトレードオフの点で、他の適応型トランスフォーマー ベースラインよりも大幅に優れたパフォーマンスを発揮します。

効率の点では、より大きな AdaTape モデル (パラメータ数の観点から) の方が、より小さなベースラインよりも高速です。

ImageNet でゼロからトレーニングして AdaTape を評価する

このような結果は、適応型モデルのディープ アーキテクチャは TPU などの多くのアクセラレータには適していないという以前の研究結果と一致しています。

AdaTape 行動研究

研究者らは、パリティタスクと ImageNet-1K でのパフォーマンスのテストに加えて、入力駆動型ライブラリのトークン選択動作を使用して、JFT-300M 検証セットで AdaTape も評価しました。

モデルの動作をよりよく理解するために、入力駆動型ライブラリのトークン選択結果はヒートマップとして視覚化されます。明るい色は位置がより頻繁に選択されることを意味します。

ヒート マップは、AdaTape が中央のパッチをより頻繁に選択していることを示しています。

これは、中央のパッチの方が通常はより情報量が多いため、事前の知識とも一致しています。

これは、主なオブジェクトが画像の中央に配置されている自然画像データセットのコンテキストでは特に当てはまります。

この結果は、より有益なパッチを効果的に識別して優先順位を付け、パフォーマンスを向上できる AdaTape のインテリジェンスを強調しています。

AdaTape-B/32 (左) と AdaTape-B/16 (右) のテープ トークン選択ヒートマップの視覚化

AdaTape は、適応型テープ読み取りメカニズムによって生成される柔軟なシーケンス長を特徴としています。

これにより、新しい誘導バイアスも導入され、AdaTape は標準トランスフォーマーと既存の適応型トランスフォーマーの両方にとって困難なタスクを解決できるようになる可能性があります。

画像認識ベンチマークに関する包括的な実験を通じて、計算が一定に保たれている場合、AdaTape が標準および適応型トランスフォーマーよりも優れていることを実証しました。

著者について

ユー・ヤン氏は現在、シンガポール国立大学の学長若手教授です。

2021年4月、フォーブスアジア30歳以下リストに選出。彼は清華大学でコンピュータサイエンスの修士号を取得し、カリフォルニア大学バークレー校でコンピュータサイエンスの博士号を取得しました。

<<: 

>>:  Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた!ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

ブログ    
ブログ    

推薦する

...

...

AIの最高峰:自然言語処理

近年、世界中でますます多くの政府や企業組織が人工知能の経済的、戦略的重要性を徐々に認識し、国家戦略や...

自動運転や人工知能はあなたの将来の生活にどのような変化をもたらすでしょうか?

[[324253]] 01 自動運転車社会科学者は、郊外化、汚染、自由、家族旅行、命の喪失、救われ...

...

Facebook がアルゴリズム コード ライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

Facebook AI Research は近年、ビデオ理解研究において多くの素晴らしい成果を上げて...

市場レポートの予測: 2027年には世界の生体認証市場は1,000億ドルに近づく

近年、人工知能の継続的な成熟に伴い、生体認証技術は生活のあらゆる分野に浸透し、コストが削減され、効率...

IEEE テクノロジー分野賞発表: ML パイオニアがリストに、中国本土から受賞した唯一の学者は清華大学の学生

[[409353]] IEEE が再び栄誉を授与する時が来ました。 7月2日、米国電気電子学会(IE...

アリババ初のAIチップ「Pingtou Ge」が発売! NVIDIA P4 より 46 倍高速で、推論パフォーマンスの世界新記録を樹立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

効果的な機械学習研究者の6つの習慣

優れた機械学習研究者になるために必要な資質は何でしょうか? 強力なコーディングスキルでしょうか? そ...

NLPとナレッジグラフの統合

この記事は、中国情報処理学会の事務局長である白碩博士が杭州金融ナレッジグラフフォーラムで行った講演を...

OpenAIは、テキストを使用してユーザーの感情を検出できる教師なし感情ニューロンを「巧みに」発見した。

OpenAIは4月7日、公式サイトで最新の研究結果を発表し、感情表現を効率的に学習し、現在Amaz...

...

...

ロボットになることでのみロボットを倒すことができる

人類はロボットの時代に突入している。ロボット工学の専門家や哲学者の中には、将来、高度に知能化されたロ...