本日は、あらゆるアスペクト比と解像度で動作する Transformer モデルである NaViT を紹介します。 コンピューター ビジョン モデルで処理する前に、画像を固定解像度にサイズ変更することは一般的ですが、最適ではありません。 Vision Transformer (ViT) などのモデルは柔軟なシーケンスベースのモデリングを提供するため、入力シーケンスの長さは変化する可能性があります。 本論文では、研究者らはNaViT(ネイティブ解像度ViT)のこの利点を活用し、トレーニング中にシーケンスパッキングを使用して、任意の解像度とアスペクト比の入力コンテンツを処理しました。 研究者らは、モデルを柔軟に使用しながら、大規模な教師ありおよび対照的な画像とテキストの事前トレーニングによってトレーニング効率が向上することも実証しました。 NaViT は、画像やビデオの分類、オブジェクトの検出、セマンティック セグメンテーションなどの標準的なタスクに効率的に適用でき、堅牢性と公平性のベンチマークの両方で優れた結果を実現します。 推論時には、入力解像度の柔軟性を利用して、テスト時間とパフォーマンスのトレードオフをスムーズに制御できます。 研究者たちは、NaViT はほとんどのコンピューター ビジョン モデルで使用されている標準的な CNN 設計の入力およびモデリング パイプラインからの脱却を示し、ViT の有望な方向性を示していると考えています。 下の図に示すように、NaViT は事前トレーニング (左) 中に優れた計算効率を発揮し、下流の微調整 (中央) にも使用できます。 また、単一の NaViT を複数の解像度に適用して、パフォーマンスと推論コストのバランスを実現できます (右図)。 写真 ディープ ニューラル ネットワークは通常、入力のバッチでトレーニングされ、実行されることを理解します。 ハードウェア上で効率的に処理するということは、バッチの形状が固定されることを意味し、それはコンピューター ビジョン アプリケーションの画像サイズが固定されることを意味します。 これと、畳み込みニューラル ネットワークの歴史的なアーキテクチャ上の制限が相まって、研究者は画像のサイズを変更するか、固定サイズにパディングするようになりました。 しかし、どちらのアプローチにも欠点があります。前者はパフォーマンスを低下させ、後者は非効率的です。 ImageNet、LVIS、WebLI は、それぞれ分類、検出、Web 画像データセットの代表的な例です。アスペクト比を分析すると、次の図に示すように、ほとんどの画像は通常正方形ではないことがわかります。 写真 言語モデリングでは、固定シーケンス長の制限は多くの場合、例のパッキングによって回避されます。つまり、複数の異なる例のトークンが 1 つのシーケンスに結合され、言語モデルのトレーニングを大幅に高速化できます。 研究者らは、画像をパッチ(ラベル)のシーケンスとして表示することで、ビジョントランスフォーマーも同じパラダイムの恩恵を受けることができることを発見しました。研究者らはこれを Patch n' Pack と呼んでいます。 この技術を使用すると、視覚トランスフォーマーを元の解像度の画像でトレーニングできます。 サンプル パッケージ化により、アスペクト比を維持しながら可変解像度の画像を作成できるため、トレーニング時間が短縮され、パフォーマンスと柔軟性が向上します。 研究者らは、Patch n'Pack をサポートするためのデータの前処理とモデリングに必要な変更を実証しました。 写真 NaViT の研究者が使用する基本アーキテクチャは、必要な変更を加えた Vanilla ViT に準拠しています。 さらに、研究者らはViTにいくつかの小さな改良を加えました。 研究者らは、分類用の JFT-4B と対照的な言語画像用の WebLI の 2 つの設定で NaViT を事前トレーニングしました。 通常、JFT では、トレーニング前に画像が切り取られます。どちらの場合も、画像は正方形にサイズ変更されます。 特に明記しない限り、すべての NaViT モデルはこれらの操作なしで事前トレーニングされ、元のアスペクト比が維持されます。 NaViT は FLAX ライブラリを使用し、JAX で実装され、Scenic で構築されています。 ここで研究者らは2つの異なるタイプのトレーニングを実施しました。 分類事前トレーニングと対照事前トレーニング。 写真 上の図は、パフォーマンスを向上させるシーケンス パッケージングによって実装された連続トークン破棄戦略を示しています。 研究者らは、論文で紹介されている因数分解された埋め込みとその設計上の選択を評価します。 彼らは絶対的なパフォーマンスだけでなく、トレーニング プログラム外の解決策への外挿にも重点を置いています。 これをテストするために、研究者らはNaViT-B/16モデルをJFTでR∼U(160, 352)の解像度で20万ステップトレーニングした。 研究者らは埋め込み変数を変更せずに、ViT-B/16 と 256 の固定解像度でトレーニングされた ViT-B/16 を比較し、さまざまな解像度でパフォーマンスを評価しました。 同じ数の画像について、位置埋め込みの標準的な補間が新しい解像度で評価されました。 下の図はテスト結果を示しています。 因数分解アプローチは、特に高解像度への一般化が難しいベースライン ViT および Pix2struct の学習済み 2D 埋め込みよりも優れていることは明らかです。 NaViT は、アスペクト比が非常に高く、重要な情報が画像の中心から外れている画像が多数含まれる ImageNet-A でも優れたパフォーマンスを発揮します。 写真 次の図は、NaViT-L/16 または ViT-L/16 を使用して評価された公平性関連信号でトレーニングされたアノテーターの精度を示しています。 左: NaViT はより優れた表現を提供し、注釈者の精度を向上させます。 右: NaViT で元のアスペクト比を使用すると、画像のサイズを正方形に変更する場合と比べてパフォーマンスが向上します。 写真 研究者らは、ビジュアルトランスフォーマーにシーケンスパッキングを単純に適用した「Patch n' Pack」によって、トレーニングの効率が大幅に向上することを示した。結果として得られる NaViT モデルは、推論時に複数の解像度に適用でき、低コストで新しいタスクに適応できます。 Patch n'Pack により、適応コンピューティングやトレーニングと推論の効率を向上させる新しいアルゴリズムなど、固定形状が必要であるためにこれまでは不可能だったさまざまな研究が可能になります。 詳細な研究については原著論文を参照してください。私の能力に限界があるため、この記事の翻訳に誤りがあった場合は深くお詫び申し上げます。 |
<<: 人工知能によりデータセンターのコストと制御ニーズが増加
>>: GPT-4は本当に愚かになったことが研究で証明される:数学的能力は3か月で劇的に低下し、コーディング能力も低下した
中国は世界最大の人工知能研究者の供給国となった。米国の人工知能分野のトップ研究者のほぼ3分の1は中国...
[[351445]]最近、クレジットカード会社からデータ漏洩に関する連絡がありましたか? あるいは...
絵を描くだけで高精細な絵画が現れます。たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現...
今日では、エッジに接続されるデバイスがますます増えています。さらに良いことに、人工知能と機械学習のお...
それは「もし」ではなく「いつ」の問題です。以前の記事では、AI が革新的な可能性においてこれまでのテ...
10月31日、テクノロジー系ポッドキャスト「Dwarkesh Patel」によると、Googleの...
セミナーで講演したイエローフィンのCEO、グレン・ラビー氏は、多くのアナリストが自動化や人工知能によ...
ハイパーオートメーション、ブロックチェーン、AI セキュリティ、分散クラウド、自律デバイスは、今年の...
機械学習の分野でよく使われる分類学習タスクでは、訓練された分類モデルの精度と高い信頼性を確保するため...
オープンソース フレームワークの分野では、PyTorch と TensorFlow の間で常に議論が...
競争で優位に立つために、このブログでは、TensorFlow、PyTorch、sci-kit-lea...