この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Google Brain の Visual Transformer チーム (ViT) がレトロなものを作りました。 彼らは畳み込みニューラルネットワーク(CNN)やトランスフォーマーを使用せず、初期の AI ビジョンタスクで採用された多層パーセプトロン(MLP)構造のみに依存して SOTA に近いパフォーマンスを達成し、ImageNet 画像分類タスクで 87.94% の精度を達成しました。 このアーキテクチャはMLP-Mixerと呼ばれ、2 つの異なるタイプの MLP レイヤーを使用します。これは、チャネル ミキシング(ビット単位の操作)に 1×1 畳み込みを使用し、文字ミキシング(クロス ビット操作) に完全な受容野とパラメータ共有を備えた単一チャネルの深い畳み込みを使用する特別な CNN と見ることができます。 JFT-300Mデータセットで事前トレーニングされ、224解像度に微調整されたMixer-H/14バージョンは、 86.32%の精度を達成しました。これは、SOTAモデルViT-H/14よりもわずか0.3%低いですが、実行速度は2.2倍です。 論文の宛先: プロジェクトアドレス: |
<<: seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表
>>: 映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案
[[256693]]中国工業情報化部傘下の中国情報通信研究院によると、2018年上半期の世界の人工知...
[[393110]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
Facebook は効果的な人工知能について私たちに多くのことを教えてくれます。最近のガートナー社の...
自宅に設置したカメラにシステム障害が発生し、他人にプライバシーが「覗き見」されてしまう――心配してい...
ソフトバンクグループは、ノルウェーの倉庫自動化企業オートストアの株式40%を28億ドルで買収すること...
全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェーデンのオンライン銀行であ...
BI中国語ウェブサイトが6月28日に報じた。グーグルの主任人工知能(AI)科学者、フェイフェイ・リー...
写真しかない場合、どのようにして人物のリアルなデジタルアバターを作成するのでしょうか? 2020年の...
核酸レポートの手動検証は時間がかかり、面倒で、エラーが発生しやすくなります。どうすればよいでしょうか...
海外に進出する企業は、さまざまな市場のニーズをより正確に理解し、適応するために、大量の国境を越えたデ...
データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラル ネ...