Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Google Brain の Visual Transformer チーム (ViT) がレトロなものを作りました。

彼らは畳み込みニューラルネットワーク(CNN)やトランスフォーマーを使用せず、初期の AI ビジョンタスクで採用された多層パーセプトロン(MLP)構造のみに依存して SOTA に近いパフォーマンスを達成し、ImageNet 画像分類タスクで 87.94% の精度を達成しました。

このアーキテクチャはMLP-Mixerと呼ばれ、2 つの異なるタイプの MLP レイヤーを使用します。これは、チャネル ミキシング(ビット単位の操作)に 1×1 畳み込みを使用し、文字ミキシング(クロス ビット操作) に完全な受容野とパラメータ共有を備えた単一チャネルの深い畳み込みを使用する特別な CNN と見ることができます

JFT-300Mデータセットで事前トレーニングされ、224解像度に微調整されたMixer-H/14バージョンは、 86.32%の精度を達成しました。これは、SOTAモデルViT-H/14よりもわずか0.3%低いですが、実行速度は2.2倍です。

論文の宛先:
https://arxiv.org/abs/2105.01601

プロジェクトアドレス:
https://github.com/google-research/vision_transformer/tree/linen

<<:  seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

>>:  映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

オーディオソーシャルネットワーキングでの音声変更にはどのようなアルゴリズムが使用されていますか?

モバイルインターネット技術のサポートにより、オーディオソーシャルネットワーキングは、さまざまなシナリ...

人工知能によるテキスト検出の実践的有効性に関する議論

AI 支援による記事執筆は今やどこにでもあります。ChatGPT は多くの言語ベースの AI アプリ...

...

自動運転競争が熱を帯び、実用化への道が始まろうとしている

科学技術の継続的な発展に伴い、人工知能、5Gネットワ​​ーク、生体認証、ロボットなどのインテリジェン...

AI博士号取得者の年収は80万元。AI人材の需要と供給はどれくらいですか?

「女性は間違った男性と結婚することを恐れ、男性は間違った職業を選択することを恐れる」という古い中国...

AIの未来はブロックチェーンの未来とつながっているのでしょうか?

近代以降、ほぼすべての産業革命はさまざまな程度の自動化によって推進されてきました。これまでの産業革命...

...

マスク氏のニューラリンクが人間の脳にインターフェースを挿入するにはどれくらいの時間がかかるのでしょうか?

マスク氏は常にその知名度の高さで知られている。彼はテスラとスペースXという2つの大企業を所有している...

...

...

ToTを超えて、ETHチューリッヒは新世代のマインドマップGoTをリリース:推論品質は62%向上し、コストは31%削減

大規模言語モデルは推論能力がまだ弱く、推論プロセスの改善を支援するためにさまざまな思考ツールに頼る必...

AI脳を搭載したドローン:群衆の中の暴力的な人々を正確に識別できる

[[233174]]もしある日私を殴りたくなったら、ただ殴って終わりにできると思いますか?今はそんな...

「これまで作られなかった最も重要な機械」アラン・チューリングとチューリングマシン

コンピューティングは、私たちのほとんどが直感的に理解できる馴染みのある概念です。関数 f (x) =...

...