画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

適応型計算とは、環境の変化に応じて ML システムの動作を調整する能力を指します。

従来のニューラル ネットワークでは機能と計算能力が固定されており、異なる入力を処理するために同じ数の FLOP が使用されます。

しかし、適応型および動的計算を備えたモデルでは、入力の複雑さに基づいて、各入力の処理に割り当てられる計算予算が調整されます。

ニューラル ネットワークにおける適応型コンピューティングが魅力的な理由は 2 つあります。

まず、適応メカニズムの導入により、いくつかの困難なタスクを解決する上で重要な役割を果たすことができる帰納的バイアスが提供されます。

たとえば、さまざまな深さの階層をモデル化する必要がある算術問題を解決するには、さまざまな入力に対して異なる数の計算ステップを有効にすることが重要です。

第二に、動的計算によって柔軟性が高まり、実践者が推論コストを調整できるようになります。

Google チームが発表した論文では、適応型コンピューティングの新しいモデルである AdaTape が紹介されました。

論文アドレス: https://arxiv.org/pdf/2301.13195.pdf

最新モデルは、動的テープ トークンと適応型テープ読み取りアルゴリズムを使用して入力シーケンスを生成するトランスバーター アーキテクチャに基づいており、画像認識タスクのパフォーマンスを向上させることができます。

AdaTape は、適応型テープ読み取りメカニズムを使用して、入力の複雑さに応じて各入力に追加するテープ トークンの数を決定します。

AdaTape は実装が非常に簡単で、必要に応じて精度を向上させる効率的なノブを提供します。

AdaTape は、モデルの深さではなく入力シーケンスに直接適応性を注入するため、他の適応ベースラインと比較してより効率的です。

最後に、Adatape は、品質とコストのトレードオフを維持しながら、画像分類などの標準タスクやアルゴリズム タスクでより優れたパフォーマンスを提供します。

弾性入力シーケンスの適応計算

AdaTape は、適応型関数タイプと動的計算予算を使用します。

具体的には、トークン化後の入力シーケンスのバッチに対して、AdaTape は各入力を表すベクトルを使用して、可変サイズのテープ トークン シーケンスを動的に選択します。

AdaTape は、「テープ バンク」と呼ばれるトークン ライブラリを使用して、適応型テープ読み取りメカニズムを通じてモデルと対話するすべての候補テープ トークンを保存します。

研究者らは、テープ ライブラリを作成するための 2 つの異なるアプローチ、つまり入力駆動型ライブラリと学習可能なライブラリについて説明しています。

入力駆動型ライブラリの全体的な考え方は、入力からトークン ライブラリのセットを抽出し、元のモデル トークナイザーとは異なる方法を使用して、元の入力を一連の入力トークン シーケンスにマッピングすることです。

これにより、さまざまな画像解像度を使用して取得された入力情報に動的にオンデマンドでアクセスできるようになります。

AdaTape の全体的なアーキテクチャ

場合によっては、異なる抽象化レベルでのトークン化が不可能なため、入力駆動型テープ ライブラリは実現不可能です。

たとえば、グラフトランスフォーマー内の各ノードをさらに分割することが困難な場合などです。

この問題に対処するために、AdaTape は、トレーニング可能なベクトルのセットをテープ トークンとして使用してテープ ライブラリを生成する、より一般的なアプローチを提供します。

このアプローチは「学習可能なリポジトリ」と呼ばれ、モデルが入力例の複雑さに基づいてトークンを動的に取得できる埋め込みレイヤーとして見ることができます。

学習可能なライブラリにより、AdaTape はより柔軟なテープ ライブラリを生成できるようになり、各入力例の複雑さに基づいて計算予算を動的に調整できるようになります。

たとえば、より複雑な例では、リポジトリからより多くのトークンが取得されます。これにより、モデルはリポジトリに保存されている知識を使用するだけでなく、入力が大きくなるため、それを処理するためにより多くの FLOP を費やすことになります。

最後に、選択されたテープ トークンが元の入力に追加され、次の Transformer レイヤーに送られます。

各トランスフォーマー レイヤーでは、すべての入力とテープ トークンに同じマルチヘッド アテンションが使用されます。

ただし、2 つの異なるフィードフォワード ネットワーク (FFN) が使用されます。1 つは元の入力からのすべてのトークン用で、もう 1 つはすべてのテープ トークン用です。

研究者たちは、入力トークンとテープトークンに別々のフィードフォワードネットワークを使用することで、品質がわずかに向上することを観察しました。

誘導バイアス

標準のトランスフォーマーにとって非常に困難なタスクであるパリティに基づいて AdaTape を評価し、AdaTape の誘導バイアスの影響を調査します。

パリティ タスクでは、1、0、-1 のシーケンスが与えられた場合、モデルはシーケンス内の 1 の数の均一性または特異性を予測する必要があります。

パリティ チェックは周期的な正規言語ですが、驚くべきことに、このタスクは標準の Transformer では解決できません。

パリティタスクの評価

短くて単純なシーケンスで評価されているにもかかわらず、標準 Transformer と Generalized Transformer はどちらもモデル内でカウンターを維持できないため、パリティ タスクを実行できません。

ただし、AdaTape は、入力選択メカニズムに軽量の再帰を組み込んでおり、暗黙的にカウンターを維持できる誘導バイアスを提供しているため、すべてのベースラインよりも優れています。これは、標準の Transformer では不可能です。

画像分類評価

画像分類タスクのために、研究者らは ImageNet-1K で AdaTape をゼロからトレーニングしました。

下の図は、AdaTape とベースライン メソッド (A-ViT および Universal Transformer ViT (UViT および U2T) を含む) の精度と速度 (コードごとに 1 秒あたりに処理される画像の数で測定) を示しています。

AdaTape は、品質とコストのトレードオフの点で、他の適応型トランスフォーマー ベースラインよりも大幅に優れたパフォーマンスを発揮します。

効率の点では、より大きな AdaTape モデル (パラメータ数の観点から) の方が、より小さなベースラインよりも高速です。

ImageNet でゼロからトレーニングして AdaTape を評価する

このような結果は、適応型モデルのディープ アーキテクチャは TPU などの多くのアクセラレータには適していないという以前の研究結果と一致しています。

AdaTape 行動研究

研究者らは、パリティタスクと ImageNet-1K でのパフォーマンスのテストに加えて、入力駆動型ライブラリのトークン選択動作を使用して、JFT-300M 検証セットで AdaTape も評価しました。

モデルの動作をよりよく理解するために、入力駆動型ライブラリのトークン選択結果はヒートマップとして視覚化されます。明るい色は位置がより頻繁に選択されることを意味します。

ヒート マップは、AdaTape が中央のパッチをより頻繁に選択していることを示しています。

これは、中央のパッチの方が通常はより情報量が多いため、事前の知識とも一致しています。

これは、主なオブジェクトが画像の中央に配置されている自然画像データセットのコンテキストでは特に当てはまります。

この結果は、より有益なパッチを効果的に識別して優先順位を付け、パフォーマンスを向上できる AdaTape のインテリジェンスを強調しています。

AdaTape-B/32 (左) と AdaTape-B/16 (右) のテープ トークン選択ヒートマップの視覚化

AdaTape は、適応型テープ読み取りメカニズムによって生成される柔軟なシーケンス長を特徴としています。

これにより、新しい誘導バイアスも導入され、AdaTape は標準トランスフォーマーと既存の適応型トランスフォーマーの両方にとって困難なタスクを解決できるようになる可能性があります。

画像認識ベンチマークに関する包括的な実験を通じて、計算が一定に保たれている場合、AdaTape が標準および適応型トランスフォーマーよりも優れていることを実証しました。

著者について

ユー・ヤン氏は現在、シンガポール国立大学の学長若手教授です。

2021年4月、フォーブスアジア30歳以下リストに選出。彼は清華大学でコンピュータサイエンスの修士号を取得し、カリフォルニア大学バークレー校でコンピュータサイエンスの博士号を取得しました。

<<: 

>>:  Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた!ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

推薦する

...

Googleが検索エンジンアルゴリズムを調整:HTTPSサイトのランキングが上昇

[[117728]] Googleは公式ブログで、検索エンジンのアルゴリズムを調整し、HTTPS暗号...

機械学習は2021年にこれらの5つの業界を変革するだろう

機械学習は、COVID-19 によって揺さぶられた世界におけるスムーズな移行を可能にしています。機械...

このクラウドは、AIが後半にどのように発展するかを知っている

今年はAI技術の導入が話題になっています。 AIは本当に実装されているのでしょうか?真実を語るには実...

TFserving によるディープラーニング モデルの導入

1. TFservingとは何かモデルをトレーニングし、それを外部の関係者に提供する必要がある場合は...

...

私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか?

ロボット時代の到来はそう遠くないかもしれない。少し前に、清華大学は「華志兵」という名のヒューマノイド...

生成型人工知能に関する簡単な議論

生成AIには長い歴史があります。いくつかの情報源によれば、1950 年代にはすでに登場していたようで...

コーダーの皆さん、おめでとうございます!マイクロソフトは、LLMを使用して168のコードベースにわたるコーディングタスクを自動化するCodePlanを提案している。

大規模なモデルの場合、ローカライズされたエンコード タスクに優れています。しかし、タスクが複数の相互...

...

...

アルゴリズムがバグをキャッチ:ディープラーニングとコンピュータービジョンが昆虫学を変える

[[390223]]導入コンピュータ アルゴリズムは、ソフトウェア プログラムのバグを検出するのに役...

開発者の能力を最大限に引き出すAISpeech DUIオープンプラットフォームがリリースされました

[51CTO.comからのオリジナル記事] Tmall Genie X1、Xiaomi AIスピーカ...

...

人工知能によって破壊される可能性のある7つの業界

[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...