この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Google Brain の Visual Transformer チーム (ViT) がレトロなものを作りました。 彼らは畳み込みニューラルネットワーク(CNN)やトランスフォーマーを使用せず、初期の AI ビジョンタスクで採用された多層パーセプトロン(MLP)構造のみに依存して SOTA に近いパフォーマンスを達成し、ImageNet 画像分類タスクで 87.94% の精度を達成しました。 このアーキテクチャはMLP-Mixerと呼ばれ、2 つの異なるタイプの MLP レイヤーを使用します。これは、チャネル ミキシング(ビット単位の操作)に 1×1 畳み込みを使用し、文字ミキシング(クロス ビット操作) に完全な受容野とパラメータ共有を備えた単一チャネルの深い畳み込みを使用する特別な CNN と見ることができます。 JFT-300Mデータセットで事前トレーニングされ、224解像度に微調整されたMixer-H/14バージョンは、 86.32%の精度を達成しました。これは、SOTAモデルViT-H/14よりもわずか0.3%低いですが、実行速度は2.2倍です。 論文の宛先: プロジェクトアドレス: |
<<: seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表
>>: 映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案
[[431855]]各ピクセルのサイズが 4 バイトである N × N 行列で表される画像が与えられ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
長年にわたり、数億人の出稼ぎ労働者が経済建設と社会発展に積極的に参加し、中国の近代化推進に多大な貢献...
新型コロナウイルス肺炎の流行は社会全体の生産と生活に影響をもたらしています。企業は、感染拡大の影響を...
マシンビジョン技術には、コンピューターサイエンス、人工知能、信号処理、画像処理、機械学習、光学、自動...
人工知能はますます多用途になり、すでに私たちの仕事のすべてを人工知能が引き継ぐことができるようです。...
AlphaGOとイ・セドルの人間対機械の戦いにより、ディープラーニングという言葉が再び人気を集めてい...
人工知能はもはや未来の技術ではありません。私たちの日常の作業を自動化する機械はますます賢くなり、人工...
[[421561]]マスク氏は科学研究に本当に多大な貢献をしてきました!最近、イスラエルの研究者が新...
不動産業界は、住民、建築業者、住宅ローンブローカー、エージェント、請負業者を支援するために人工知能を...