画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

適応型計算とは、環境の変化に応じて ML システムの動作を調整する能力を指します。

従来のニューラル ネットワークでは機能と計算能力が固定されており、異なる入力を処理するために同じ数の FLOP が使用されます。

しかし、適応型および動的計算を備えたモデルでは、入力の複雑さに基づいて、各入力の処理に割り当てられる計算予算が調整されます。

ニューラル ネットワークにおける適応型コンピューティングが魅力的な理由は 2 つあります。

まず、適応メカニズムの導入により、いくつかの困難なタスクを解決する上で重要な役割を果たすことができる帰納的バイアスが提供されます。

たとえば、さまざまな深さの階層をモデル化する必要がある算術問題を解決するには、さまざまな入力に対して異なる数の計算ステップを有効にすることが重要です。

第二に、動的計算によって柔軟性が高まり、実践者が推論コストを調整できるようになります。

Google チームが発表した論文では、適応型コンピューティングの新しいモデルである AdaTape が紹介されました。

論文アドレス: https://arxiv.org/pdf/2301.13195.pdf

最新モデルは、動的テープ トークンと適応型テープ読み取りアルゴリズムを使用して入力シーケンスを生成するトランスバーター アーキテクチャに基づいており、画像認識タスクのパフォーマンスを向上させることができます。

AdaTape は、適応型テープ読み取りメカニズムを使用して、入力の複雑さに応じて各入力に追加するテープ トークンの数を決定します。

AdaTape は実装が非常に簡単で、必要に応じて精度を向上させる効率的なノブを提供します。

AdaTape は、モデルの深さではなく入力シーケンスに直接適応性を注入するため、他の適応ベースラインと比較してより効率的です。

最後に、Adatape は、品質とコストのトレードオフを維持しながら、画像分類などの標準タスクやアルゴリズム タスクでより優れたパフォーマンスを提供します。

弾性入力シーケンスの適応計算

AdaTape は、適応型関数タイプと動的計算予算を使用します。

具体的には、トークン化後の入力シーケンスのバッチに対して、AdaTape は各入力を表すベクトルを使用して、可変サイズのテープ トークン シーケンスを動的に選択します。

AdaTape は、「テープ バンク」と呼ばれるトークン ライブラリを使用して、適応型テープ読み取りメカニズムを通じてモデルと対話するすべての候補テープ トークンを保存します。

研究者らは、テープ ライブラリを作成するための 2 つの異なるアプローチ、つまり入力駆動型ライブラリと学習可能なライブラリについて説明しています。

入力駆動型ライブラリの全体的な考え方は、入力からトークン ライブラリのセットを抽出し、元のモデル トークナイザーとは異なる方法を使用して、元の入力を一連の入力トークン シーケンスにマッピングすることです。

これにより、さまざまな画像解像度を使用して取得された入力情報に動的にオンデマンドでアクセスできるようになります。

AdaTape の全体的なアーキテクチャ

場合によっては、異なる抽象化レベルでのトークン化が不可能なため、入力駆動型テープ ライブラリは実現不可能です。

たとえば、グラフトランスフォーマー内の各ノードをさらに分割することが困難な場合などです。

この問題に対処するために、AdaTape は、トレーニング可能なベクトルのセットをテープ トークンとして使用してテープ ライブラリを生成する、より一般的なアプローチを提供します。

このアプローチは「学習可能なリポジトリ」と呼ばれ、モデルが入力例の複雑さに基づいてトークンを動的に取得できる埋め込みレイヤーとして見ることができます。

学習可能なライブラリにより、AdaTape はより柔軟なテープ ライブラリを生成できるようになり、各入力例の複雑さに基づいて計算予算を動的に調整できるようになります。

たとえば、より複雑な例では、リポジトリからより多くのトークンが取得されます。これにより、モデルはリポジトリに保存されている知識を使用するだけでなく、入力が大きくなるため、それを処理するためにより多くの FLOP を費やすことになります。

最後に、選択されたテープ トークンが元の入力に追加され、次の Transformer レイヤーに送られます。

各トランスフォーマー レイヤーでは、すべての入力とテープ トークンに同じマルチヘッド アテンションが使用されます。

ただし、2 つの異なるフィードフォワード ネットワーク (FFN) が使用されます。1 つは元の入力からのすべてのトークン用で、もう 1 つはすべてのテープ トークン用です。

研究者たちは、入力トークンとテープトークンに別々のフィードフォワードネットワークを使用することで、品質がわずかに向上することを観察しました。

誘導バイアス

標準のトランスフォーマーにとって非常に困難なタスクであるパリティに基づいて AdaTape を評価し、AdaTape の誘導バイアスの影響を調査します。

パリティ タスクでは、1、0、-1 のシーケンスが与えられた場合、モデルはシーケンス内の 1 の数の均一性または特異性を予測する必要があります。

パリティ チェックは周期的な正規言語ですが、驚くべきことに、このタスクは標準の Transformer では解決できません。

パリティタスクの評価

短くて単純なシーケンスで評価されているにもかかわらず、標準 Transformer と Generalized Transformer はどちらもモデル内でカウンターを維持できないため、パリティ タスクを実行できません。

ただし、AdaTape は、入力選択メカニズムに軽量の再帰を組み込んでおり、暗黙的にカウンターを維持できる誘導バイアスを提供しているため、すべてのベースラインよりも優れています。これは、標準の Transformer では不可能です。

画像分類評価

画像分類タスクのために、研究者らは ImageNet-1K で AdaTape をゼロからトレーニングしました。

下の図は、AdaTape とベースライン メソッド (A-ViT および Universal Transformer ViT (UViT および U2T) を含む) の精度と速度 (コードごとに 1 秒あたりに処理される画像の数で測定) を示しています。

AdaTape は、品質とコストのトレードオフの点で、他の適応型トランスフォーマー ベースラインよりも大幅に優れたパフォーマンスを発揮します。

効率の点では、より大きな AdaTape モデル (パラメータ数の観点から) の方が、より小さなベースラインよりも高速です。

ImageNet でゼロからトレーニングして AdaTape を評価する

このような結果は、適応型モデルのディープ アーキテクチャは TPU などの多くのアクセラレータには適していないという以前の研究結果と一致しています。

AdaTape 行動研究

研究者らは、パリティタスクと ImageNet-1K でのパフォーマンスのテストに加えて、入力駆動型ライブラリのトークン選択動作を使用して、JFT-300M 検証セットで AdaTape も評価しました。

モデルの動作をよりよく理解するために、入力駆動型ライブラリのトークン選択結果はヒートマップとして視覚化されます。明るい色は位置がより頻繁に選択されることを意味します。

ヒート マップは、AdaTape が中央のパッチをより頻繁に選択していることを示しています。

これは、中央のパッチの方が通常はより情報量が多いため、事前の知識とも一致しています。

これは、主なオブジェクトが画像の中央に配置されている自然画像データセットのコンテキストでは特に当てはまります。

この結果は、より有益なパッチを効果的に識別して優先順位を付け、パフォーマンスを向上できる AdaTape のインテリジェンスを強調しています。

AdaTape-B/32 (左) と AdaTape-B/16 (右) のテープ トークン選択ヒートマップの視覚化

AdaTape は、適応型テープ読み取りメカニズムによって生成される柔軟なシーケンス長を特徴としています。

これにより、新しい誘導バイアスも導入され、AdaTape は標準トランスフォーマーと既存の適応型トランスフォーマーの両方にとって困難なタスクを解決できるようになる可能性があります。

画像認識ベンチマークに関する包括的な実験を通じて、計算が一定に保たれている場合、AdaTape が標準および適応型トランスフォーマーよりも優れていることを実証しました。

著者について

ユー・ヤン氏は現在、シンガポール国立大学の学長若手教授です。

2021年4月、フォーブスアジア30歳以下リストに選出。彼は清華大学でコンピュータサイエンスの修士号を取得し、カリフォルニア大学バークレー校でコンピュータサイエンスの博士号を取得しました。

<<: 

>>:  Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた!ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

ブログ    
ブログ    
ブログ    

推薦する

私はパニックになりました。上司はこう言いました。「AIはフロントエンドを100%置き換えるだろう」

この記事では、フロントエンド開発と人工知能の関係、そして将来 AI がフロントエンド開発の仕事に取っ...

OpenAI が GPT-3.5 Turbo の値下げを発表、GPT-4 Turbo の「怠惰」を解消

米国時間1月26日木曜日、OpenAIは一連のメジャーアップデートを発表した。これらのアップデートは...

CNNとRNNの比較と組み合わせ

CNNとRNNはディープラーニングのほぼ半分を占めているので、この記事ではCNN+RNNとさまざまな...

GoogleはAIモデルのトレーニングのためだけに「アメリカ版Tieba」のデータを購入するのに6000万ドルを費やした!アルトマンは第3位の株主である

事件は解決しました!先週、Redditは、匿名の企業が同社のユーザーコンテンツにアクセスしてAIモデ...

ディープラーニングモデルは「大きいほど良い」というわけではなく、気候変動問題を引き起こす可能性がある

今月初め、OpenAIは、史上最大の人工知能モデルを構築したと発表した。これは「GPT-3」と名付け...

エスティローダーはAI/AR技術を活用してメイクアップをより洗練させ、近視の人がメイクアップがうまくできないことを心配する必要がなくなる

この化粧品大手は、視覚障害者が簡単に化粧を行えるよう、AIと拡張現実(AR)技術を活用した音声対応の...

...

AI導入の課題

人々は、データ、人、ビジネスなど、AI を導入する際の課題を理解する必要があります。 [[27672...

GoogleはコードネームGenesisと呼ばれるAIニュースライティング製品をテストしていると報じられている。

ニューヨーク・タイムズ紙は7月20日、3つの情報源を引用して、グーグルがAI技術を使ってニュース記事...

医学物理学におけるAIの応用に関する簡単な分析

近年、バイオメディカルにおける人工知能 (AI) と機械学習 (ML) アルゴリズムの応用は拡大し続...

...

人工知能のトレンドに遅れないようにするには、Python と C/C++ のどちらを学ぶべきでしょうか?答えはここにあります

あらゆるものがデータと自動化によって駆動される現代の世界では、人工知能はますます一般的になりつつあり...

リスク管理シナリオの全プロセスモデルの構築と適用

オンライン マイクロクレジットの一般的なリスク管理シナリオは、融資前、融資中、融資後の段階に分けられ...

教育における人工知能の活用方法8つ

AI は教育テクノロジーの分野では以前から使われてきましたが、その導入は遅れています。しかし、COV...

...