LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Google リサーチ サイエンティスト David Ha: Transformer は新しい LSTM です。

Google が 2017 年 6 月に「Attention is All You Need」という論文を発表したとき、同社が提案した Transformer アーキテクチャがどれほど多くの驚きをもたらすことになるか、私たちはおそらく気づいていなかったでしょう。

Transformerは誕生から4年足らずで自然言語処理の分野で主流のモデルとなっただけでなく(Transformerをベースにした事前学習済みの言語モデルが主流となっている)、他分野への進出も始まって​​います。ここ数ヶ月、Transformerをコンピュータービジョンの分野に適用する研究が数多く行われています。

2020年10月、Googleは畳み込みネットワークを必要とせずにトランスフォーマーを使用して画像を直接分類できるVision Transformer(ViT)を提案しました。 ViT モデルは、現在の最先端の畳み込みネットワークに匹敵する結果を実現しますが、トレーニングに必要な計算リソースは大幅に少なくなります。

2020年12月、復旦大学、オックスフォード大学、テンセントなどの研究者らは、セマンティックセグメンテーションをシーケンス間の予測タスクとみなすSEgmentation TRansformer(SETR)を提案した。このモデルはADE20Kで1位となり、OCNetやGCNetなどのネットワークよりも優れた性能を発揮した。

2021 年 1 月初旬、OpenAI は、DALL·E と CLIP を使用して自然言語と視覚の間の次元の壁を打ち破るという、もう一つの大きな動きを発表しました。どちらのモデルも Transformer を使用して良好な結果を達成します。前者はテキストに基づいて画像を直接生成でき、後者は画像をテキスト カテゴリと一致させることができます。

そのため、最近機械学習コミュニティでは「Transformer は万能か?」が話題になっています。 Google Brain の研究者である David Ha 氏は次のようにツイートしました。「Transformer は新しい LSTM です。」

彼は2017年5月に自身のコメントを撤回した。「LSTMはニューラルネットワークのAK47のようなものだ。新しいものに置き換えようとしても無駄だろう。50年後もまだ使われているだろう。」LSTMは、誕生から20年後の1997年に、ゼップ・ホッホライターとユルゲン・シュミットフーバーによって共同で提案された。

デビッド・ハは、この予測が1か月後に登場したトランスフォーマーによって破られるとは思ってもいなかったでしょう。そして、それがたった4年で実現したのです。

有名な機械学習リソース Web サイト Papers with Code は、1 月 20 日に公開されたニュースレターで、Transformer が適用された上位 10 の新しいタスクをリストしました。

画像合成

論文: 高解像度画像合成のためのトランスフォーマーの制御

リンク: https://arxiv.org/pdf/2012.09841v1.pdf

マルチターゲットトラッキング

論文: TransTrack: Transformer による複数オブジェクトの追跡

リンク: https://arxiv.org/pdf/2012.15460v1.pdf

音楽生成

論文: 複合語トランスフォーマー: 動的有向ハイパーグラフ上でフルソングの音楽を作成する学習

リンク: https://arxiv.org/pdf/2101.02402v1.pdf

ダンスジェネレーション

論文: ダンス革命: カリキュラム学習による音楽を使った長期的なダンス生成

リンク: https://arxiv.org/pdf/2006.06119v5.pdf

3Dオブジェクト検出

論文: 自己注意に基づくコンテキスト認識型 3D オブジェクト検出

リンク: https://arxiv.org/pdf/2101.02672v1.pdf

点群処理

論文: PCT: ポイントクラウドトランスフォーマー

リンク: https://arxiv.org/pdf/2012.09688v1.pdf

時系列予測

論文: 解釈可能なマルチホライズン時系列予測のための時間融合トランスフォーマー

リンク: https://arxiv.org/pdf/1912.09363v3.pdf

視覚言語モデリング

論文: VinVL: 視覚言語モデルにおける視覚表現の重要性の理解

リンク: https://arxiv.org/pdf/2101.00529v1.pdf

車線形状予測

論文: Transformers によるエンドツーエンドの車線形状予測

リンク: https://arxiv.org/pdf/2011.04233v2.pdf

エンドツーエンドのオブジェクト検出

論文: 変形可能な DETR: エンドツーエンドの物体検出のための変形可能なトランスフォーマー

リンク: https://arxiv.org/pdf/2010.04159v2.pdf

デビッド・ハ氏に加えて、別の研究者であるNVIDIAの研究科学者で元OpenAIの研究科学者であるアンクル・ハンダ氏も、「必要なのはトランスフォーマーだけだ」と語った。

...これだけあれば十分でしょうか?

Transformer はさまざまな意味でトレンドを生み出しています。

彼の論文「必要なのは注意だけ」が発表されて以来、さまざまな「必要なのは注意だけ」の論文が次々と発表されました。 LSTM の創始者である Sepp Hochreiter 氏も、「Hopfield Networks があれば十分」というタイトルの記事を書いています。興味深いことに、この論文は、Transformer のコアとなる注意メカニズムの新規性を反駁するものです。つまり、Transformer の注意メカニズムは、ホップフィールド ネットワークの更新ルールと同等です。

Transformer のパワーは主にその注目メカニズムによるものです。 NLP 分野におけるアテンション メカニズムの最も初期の応用は、Bengio のチームがニューラル マシン翻訳のタスクにそれを導入した 2014 年にまで遡りますが、当時のモデルのコア アーキテクチャはまだ RNN でした。対照的に、 Transformer は従来の CNN と RNN を完全に放棄します。ネットワーク構造全体が完全に注意メカニズムで構成されています。この変更によってもたらされる改善も破壊的です。

しかし、Sepp Hochreiter らは、2020 年 7 月の論文「Hopfield Networks is All You Need」で、Transformer の注意メカニズムは、連続状態に拡張された最新の Hopfield ネットワークの更新ルールと同等であることを示しました。

セップ氏がこの論文を発表したとき、Transformer の国境を越えた旅はすでに始まっていました。 2020 年 5 月、Facebook AI は、ターゲット検出とパノラマ セグメンテーションのための Detection Transformer (DETR) という、検出パイプラインの中心的な構成要素として Transformer を統合した初のターゲット検出フレームワークをリリースしました。 6月に、OpenAIはTransformerベースのモデルGPT-2を画像分類タスクの画像分野に適用しました。

半年後、Transformer をコンピューター ビジョンなどの他の分野に適用する方法を模索する研究がますます増えています。最近では、「Transformer があれば十分」や「Transformer は新しい LSTM だ」といった発言も聞かれます。

Transformer は新しい LSTM でしょうか?

1997 年、Sepp Hochreiter 氏と Jürgen Schmidhuber 氏は、機械学習の歴史における画期的な出来事とされる Long Short-Term Memory (LSTM) の論文を共同で発表しました。

LSTM は、特殊なタイプのリカレントニューラルネットワーク (RNN) です。 1991 年、Sepp Hochreiter は、時間による逆伝播 (BPTT) によって引き起こされる勾配爆発と勾配消失の問題を分析しました。1997 年、Sepp Hochreiter と Jürgen Schmidhuber は、BPTT によって引き起こされる勾配爆発と消失の問題を解決するために、LSTM 論文で CEC ユニットを導入しました。その後、多くの研究者によって改良され、普及しました。

LSTM ユニットの基本構造 (出典: https://en.wikipedia.org/wiki/Long_short-term_memory)

2020年2月、LSTMの考案者であるJürgen Schmidhuber氏は、LSTMの10年間の開発の歴史を振り返る記事を執筆し、機械翻訳、音声認識、ロボット工学、時系列予測、チャットボットなどの分野におけるLSTMの応用を紹介しました。

Transformer が最初に導入されたとき、RNN は完全に放棄され、LSTM が支配する NLP 分野で徐々に足場を築きました。現在、多くの研究で、時系列予測、音楽生成、画像分類などの境界を越えたタスクにこれを適用しています。 Papers with Code が最近発表した Transformer アプリケーションのトップ 10 の新規タスクでは、これまで LSTM が積極的に使用されていました。

Transformer は新しい LSTM でしょうか?モデルの適用分野の多様性から判断すると、これは実現しつつあるようです。

「変圧器は交換不要であと50年は使える」という予測が今発表されたら、どれくらいで破られるのだろうか。

<<:  ついに、人工知能の3つの重要な機能を説明する人がいた。

>>:  労働者はなぜ人工知能を恐れるべきなのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

1 つの記事で RNN (リカレント ニューラル ネットワーク) の基礎を理解する

[[211628]] 1. ニューラルネットワークの基礎ニューラル ネットワークは、あらゆる関数に適...

TensorFlow と PyTorch: ディープラーニングに最適なフレームワークはどれですか?

この記事を読んでいるということは、おそらくすでにディープラーニングの旅を始めているということでしょう...

ICLR 2024 の合格率は 31% です。清華大学 LCM 論文著者: 冗談を言ったら拒否されました。

国際学習表現会議(ICLR 2024)は今年で12回目となり、今年は5月7日から11日までオーストリ...

GPT-2からGPT-4まで、大規模言語モデルの革新を探る

翻訳者 |陳俊レビュー | Chonglou最近では、大規模言語モデル ( LLM )を使用して、書...

人工知能は将来の建築をどのように変えるのでしょうか?

自動化された AI システムは、建物の暖房と冷房を最適化して効率性と持続可能性を向上させるのに役立ち...

2020 年の国内トップ 10 の人工知能イベントのレビュー: 政策と規制、技術的成果、産業への応用などを網羅。

人工知能業界では、今年多くの出来事がありましたが、その中には慎重に検討する価値のあるものもありました...

Python+AIで静止画像を動かす

こんにちは、みんな。短い動画を見ているときに、こんな動画を見たことはありませんか?動画の中で、人物の...

NBA スターと機械学習が出会うと...

[[282801]]私はバスケットボールが好きです。私はバスケットボールをしたり、観戦したり、バス...

Baidu World 2018 の開会式で最初の切り札が切られました。Baidu AI City が新しい世界への機関車としてスタートしました!

スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...

自動運転:最も安全ではないが、より安全

「九章」量子コンピューティングのプロトタイプ、「天極」脳型チップ、国内最大直径のシールドマシン「景華...

...

ジョン・マカフィーの意見: 人工知能は人類を滅ぼすのか?

2017 年 3 月 9 日、ハッカー アンダーグラウンド テクノロジーの専門家であり作家でもある...

AIの今後の4つの動向、人類は集団的に失業するのか?

人工知能、特に機械学習とディープラーニングは 2018 年にあらゆるところで話題になりましたが、今後...