この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Google Brain の Visual Transformer チーム (ViT) がレトロなものを作りました。 彼らは畳み込みニューラルネットワーク(CNN)やトランスフォーマーを使用せず、初期の AI ビジョンタスクで採用された多層パーセプトロン(MLP)構造のみに依存して SOTA に近いパフォーマンスを達成し、ImageNet 画像分類タスクで 87.94% の精度を達成しました。 このアーキテクチャはMLP-Mixerと呼ばれ、2 つの異なるタイプの MLP レイヤーを使用します。これは、チャネル ミキシング(ビット単位の操作)に 1×1 畳み込みを使用し、文字ミキシング(クロス ビット操作) に完全な受容野とパラメータ共有を備えた単一チャネルの深い畳み込みを使用する特別な CNN と見ることができます。 JFT-300Mデータセットで事前トレーニングされ、224解像度に微調整されたMixer-H/14バージョンは、 86.32%の精度を達成しました。これは、SOTAモデルViT-H/14よりもわずか0.3%低いですが、実行速度は2.2倍です。 論文の宛先: プロジェクトアドレス: |
<<: seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表
>>: 映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案
5月15日、世界有数のIoTロック企業であるnokelockの製品発表会が北京金宇シェラトンホテルで...
[[201237]] Java で機械学習を始めるのに最適なツールは何ですか?この質問はしばらく前か...
[[258322]]機械学習は計算知能とも呼ばれ、近年いくつかの技術的障壁を突破し、ロボット工学、機...
[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミット...
[[187490]] 2016 年末、Google DeepMind は機械学習プラットフォームであ...
私は二人の女の子の母親です。親は子供に何でも良いものを残そうとすると言われていますが、子育ての過程で...
近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられて...
国内メディアの報道によると、12月17日に開催された2019年中国スマート企業発展フォーラムで、工業...
新たな流行が猛烈に迫っており、特に河北省の流行は絶えず捜索されており、人々をパニックに陥れています。...
1. 大規模マルチエージェント意思決定モデルの課題現実世界における多くの実際的な問題は、複数のエージ...
6月1日、北京知源人工知能研究所(以下、知源研究所)が主催する2021年北京知源会議が北京市中関村国...
[[409525]]機械学習は、インテリジェントエージェントの学習効率と一般化能力を大幅に向上させ...
2030 年までに RSA 暗号を解読できるマシンが登場するでしょうが、まずは量子センシングやその他...