この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Google リサーチ サイエンティスト David Ha: Transformer は新しい LSTM です。 Google が 2017 年 6 月に「Attention is All You Need」という論文を発表したとき、同社が提案した Transformer アーキテクチャがどれほど多くの驚きをもたらすことになるか、私たちはおそらく気づいていなかったでしょう。 Transformerは誕生から4年足らずで自然言語処理の分野で主流のモデルとなっただけでなく(Transformerをベースにした事前学習済みの言語モデルが主流となっている)、他分野への進出も始まっています。ここ数ヶ月、Transformerをコンピュータービジョンの分野に適用する研究が数多く行われています。 2020年10月、Googleは畳み込みネットワークを必要とせずにトランスフォーマーを使用して画像を直接分類できるVision Transformer(ViT)を提案しました。 ViT モデルは、現在の最先端の畳み込みネットワークに匹敵する結果を実現しますが、トレーニングに必要な計算リソースは大幅に少なくなります。 2020年12月、復旦大学、オックスフォード大学、テンセントなどの研究者らは、セマンティックセグメンテーションをシーケンス間の予測タスクとみなすSEgmentation TRansformer(SETR)を提案した。このモデルはADE20Kで1位となり、OCNetやGCNetなどのネットワークよりも優れた性能を発揮した。 2021 年 1 月初旬、OpenAI は、DALL·E と CLIP を使用して自然言語と視覚の間の次元の壁を打ち破るという、もう一つの大きな動きを発表しました。どちらのモデルも Transformer を使用して良好な結果を達成します。前者はテキストに基づいて画像を直接生成でき、後者は画像をテキスト カテゴリと一致させることができます。 そのため、最近機械学習コミュニティでは「Transformer は万能か?」が話題になっています。 Google Brain の研究者である David Ha 氏は次のようにツイートしました。「Transformer は新しい LSTM です。」 彼は2017年5月に自身のコメントを撤回した。「LSTMはニューラルネットワークのAK47のようなものだ。新しいものに置き換えようとしても無駄だろう。50年後もまだ使われているだろう。」LSTMは、誕生から20年後の1997年に、ゼップ・ホッホライターとユルゲン・シュミットフーバーによって共同で提案された。 デビッド・ハは、この予測が1か月後に登場したトランスフォーマーによって破られるとは思ってもいなかったでしょう。そして、それがたった4年で実現したのです。 有名な機械学習リソース Web サイト Papers with Code は、1 月 20 日に公開されたニュースレターで、Transformer が適用された上位 10 の新しいタスクをリストしました。 画像合成 論文: 高解像度画像合成のためのトランスフォーマーの制御 リンク: https://arxiv.org/pdf/2012.09841v1.pdf マルチターゲットトラッキング 論文: TransTrack: Transformer による複数オブジェクトの追跡 リンク: https://arxiv.org/pdf/2012.15460v1.pdf 音楽生成 論文: 複合語トランスフォーマー: 動的有向ハイパーグラフ上でフルソングの音楽を作成する学習 リンク: https://arxiv.org/pdf/2101.02402v1.pdf ダンスジェネレーション 論文: ダンス革命: カリキュラム学習による音楽を使った長期的なダンス生成 リンク: https://arxiv.org/pdf/2006.06119v5.pdf 3Dオブジェクト検出 論文: 自己注意に基づくコンテキスト認識型 3D オブジェクト検出 リンク: https://arxiv.org/pdf/2101.02672v1.pdf 点群処理 論文: PCT: ポイントクラウドトランスフォーマー リンク: https://arxiv.org/pdf/2012.09688v1.pdf 時系列予測 論文: 解釈可能なマルチホライズン時系列予測のための時間融合トランスフォーマー リンク: https://arxiv.org/pdf/1912.09363v3.pdf 視覚言語モデリング 論文: VinVL: 視覚言語モデルにおける視覚表現の重要性の理解 リンク: https://arxiv.org/pdf/2101.00529v1.pdf 車線形状予測 論文: Transformers によるエンドツーエンドの車線形状予測 リンク: https://arxiv.org/pdf/2011.04233v2.pdf エンドツーエンドのオブジェクト検出 論文: 変形可能な DETR: エンドツーエンドの物体検出のための変形可能なトランスフォーマー リンク: https://arxiv.org/pdf/2010.04159v2.pdf デビッド・ハ氏に加えて、別の研究者であるNVIDIAの研究科学者で元OpenAIの研究科学者であるアンクル・ハンダ氏も、「必要なのはトランスフォーマーだけだ」と語った。 ...これだけあれば十分でしょうか? Transformer はさまざまな意味でトレンドを生み出しています。 彼の論文「必要なのは注意だけ」が発表されて以来、さまざまな「必要なのは注意だけ」の論文が次々と発表されました。 LSTM の創始者である Sepp Hochreiter 氏も、「Hopfield Networks があれば十分」というタイトルの記事を書いています。興味深いことに、この論文は、Transformer のコアとなる注意メカニズムの新規性を反駁するものです。つまり、Transformer の注意メカニズムは、ホップフィールド ネットワークの更新ルールと同等です。 Transformer のパワーは主にその注目メカニズムによるものです。 NLP 分野におけるアテンション メカニズムの最も初期の応用は、Bengio のチームがニューラル マシン翻訳のタスクにそれを導入した 2014 年にまで遡りますが、当時のモデルのコア アーキテクチャはまだ RNN でした。対照的に、 Transformer は従来の CNN と RNN を完全に放棄します。ネットワーク構造全体が完全に注意メカニズムで構成されています。この変更によってもたらされる改善も破壊的です。 しかし、Sepp Hochreiter らは、2020 年 7 月の論文「Hopfield Networks is All You Need」で、Transformer の注意メカニズムは、連続状態に拡張された最新の Hopfield ネットワークの更新ルールと同等であることを示しました。 セップ氏がこの論文を発表したとき、Transformer の国境を越えた旅はすでに始まっていました。 2020 年 5 月、Facebook AI は、ターゲット検出とパノラマ セグメンテーションのための Detection Transformer (DETR) という、検出パイプラインの中心的な構成要素として Transformer を統合した初のターゲット検出フレームワークをリリースしました。 6月に、OpenAIはTransformerベースのモデルGPT-2を画像分類タスクの画像分野に適用しました。 半年後、Transformer をコンピューター ビジョンなどの他の分野に適用する方法を模索する研究がますます増えています。最近では、「Transformer があれば十分」や「Transformer は新しい LSTM だ」といった発言も聞かれます。 Transformer は新しい LSTM でしょうか? 1997 年、Sepp Hochreiter 氏と Jürgen Schmidhuber 氏は、機械学習の歴史における画期的な出来事とされる Long Short-Term Memory (LSTM) の論文を共同で発表しました。 LSTM は、特殊なタイプのリカレントニューラルネットワーク (RNN) です。 1991 年、Sepp Hochreiter は、時間による逆伝播 (BPTT) によって引き起こされる勾配爆発と勾配消失の問題を分析しました。1997 年、Sepp Hochreiter と Jürgen Schmidhuber は、BPTT によって引き起こされる勾配爆発と消失の問題を解決するために、LSTM 論文で CEC ユニットを導入しました。その後、多くの研究者によって改良され、普及しました。 LSTM ユニットの基本構造 (出典: https://en.wikipedia.org/wiki/Long_short-term_memory) 2020年2月、LSTMの考案者であるJürgen Schmidhuber氏は、LSTMの10年間の開発の歴史を振り返る記事を執筆し、機械翻訳、音声認識、ロボット工学、時系列予測、チャットボットなどの分野におけるLSTMの応用を紹介しました。 Transformer が最初に導入されたとき、RNN は完全に放棄され、LSTM が支配する NLP 分野で徐々に足場を築きました。現在、多くの研究で、時系列予測、音楽生成、画像分類などの境界を越えたタスクにこれを適用しています。 Papers with Code が最近発表した Transformer アプリケーションのトップ 10 の新規タスクでは、これまで LSTM が積極的に使用されていました。 Transformer は新しい LSTM でしょうか?モデルの適用分野の多様性から判断すると、これは実現しつつあるようです。 「変圧器は交換不要であと50年は使える」という予測が今発表されたら、どれくらいで破られるのだろうか。 |
<<: ついに、人工知能の3つの重要な機能を説明する人がいた。
「この突然の流行は人類にとって大きな災害だが、人工知能産業の発展にとってはまたとない新たなチャンスで...
[[374681]]機械との競争から第二次機械革命へ人工知能革命は第四次産業革命と呼ばれています。第...
通信業界は、革新的な技術の発展と顧客の要求により急速に進化しています。 2024 年は、通信業界にと...
[[202011]]クレタ島を海賊や侵略者から守るために、人々は巨大な青銅の戦士タロスを創造しました...
最近、アマゾンの顔認識ツールが米国議会議員28名を犯罪者と誤って照合し、注目を集めた。顔認識ツールは...
Technavioが発表した「世界のスマートポール市場2020-2024」レポートデータによると、2...
中国科学院が1月17日に発表したところによると、このほど中国科学院深圳先進技術研究所医療工学研究所低...
2020年は忘れられない年です。今年に入って、新型コロナウイルスの感染拡大に伴い、人工知能(AI)が...
ちょうど今、IBM は量子コンピューティングの新たなマイルストーンに到達し、現時点での最高量子ボリュ...
AIベースの機密情報検出サービスプロバイダーであるText IQのCEO、Apoorv Agarwa...
コンピレーション | ブガッティ編集者 | 薛燕澤[51CTO.com クイック翻訳]多くの企業は、...