LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

Google リサーチサイエンティスト David Ha: Transformer は新しい LSTM です。

Google が 2017 年 6 月に「Attention is All You Need」という論文を発表したとき、同社が提案した Transformer アーキテクチャがどれほど多くの驚きをもたらすことになるか、私たちはおそらく気づいていなかったでしょう。

Transformerは誕生から4年足らずで自然言語処理の分野で主流のモデルとなっただけでなく（Transformerをベースにした事前学習済みの言語モデルが主流となっている）、他分野への進出も始まっています。ここ数ヶ月、Transformerをコンピュータービジョンの分野に適用する研究が数多く行われています。

2020年10月、Googleは畳み込みネットワークを必要とせずにトランスフォーマーを使用して画像を直接分類できるVision Transformer（ViT）を提案しました。 ViT モデルは、現在の最先端の畳み込みネットワークに匹敵する結果を実現しますが、トレーニングに必要な計算リソースは大幅に少なくなります。

2020年12月、復旦大学、オックスフォード大学、テンセントなどの研究者らは、セマンティックセグメンテーションをシーケンス間の予測タスクとみなすSEgmentation TRansformer（SETR）を提案した。このモデルはADE20Kで1位となり、OCNetやGCNetなどのネットワークよりも優れた性能を発揮した。

2021 年 1 月初旬、OpenAI は、DALL·E と CLIP を使用して自然言語と視覚の間の次元の壁を打ち破るという、もう一つの大きな動きを発表しました。どちらのモデルも Transformer を使用して良好な結果を達成します。前者はテキストに基づいて画像を直接生成でき、後者は画像をテキストカテゴリと一致させることができます。

そのため、最近機械学習コミュニティでは「Transformer は万能か？」が話題になっています。 Google Brain の研究者である David Ha 氏は次のようにツイートしました。「Transformer は新しい LSTM です。」

彼は2017年5月に自身のコメントを撤回した。「LSTMはニューラルネットワークのAK47のようなものだ。新しいものに置き換えようとしても無駄だろう。50年後もまだ使われているだろう。」LSTMは、誕生から20年後の1997年に、ゼップ・ホッホライターとユルゲン・シュミットフーバーによって共同で提案された。

デビッド・ハは、この予測が1か月後に登場したトランスフォーマーによって破られるとは思ってもいなかったでしょう。そして、それがたった4年で実現したのです。

有名な機械学習リソース Web サイト Papers with Code は、1 月 20 日に公開されたニュースレターで、Transformer が適用された上位 10 の新しいタスクをリストしました。

画像合成

論文: 高解像度画像合成のためのトランスフォーマーの制御

リンク: https://arxiv.org/pdf/2012.09841v1.pdf

マルチターゲットトラッキング

論文: TransTrack: Transformer による複数オブジェクトの追跡

リンク: https://arxiv.org/pdf/2012.15460v1.pdf

音楽生成

論文: 複合語トランスフォーマー: 動的有向ハイパーグラフ上でフルソングの音楽を作成する学習

リンク: https://arxiv.org/pdf/2101.02402v1.pdf

ダンスジェネレーション

論文: ダンス革命: カリキュラム学習による音楽を使った長期的なダンス生成

リンク: https://arxiv.org/pdf/2006.06119v5.pdf

3Dオブジェクト検出

論文: 自己注意に基づくコンテキスト認識型 3D オブジェクト検出

リンク: https://arxiv.org/pdf/2101.02672v1.pdf

点群処理

論文: PCT: ポイントクラウドトランスフォーマー

リンク: https://arxiv.org/pdf/2012.09688v1.pdf

時系列予測

論文: 解釈可能なマルチホライズン時系列予測のための時間融合トランスフォーマー

リンク: https://arxiv.org/pdf/1912.09363v3.pdf

視覚言語モデリング

論文: VinVL: 視覚言語モデルにおける視覚表現の重要性の理解

リンク: https://arxiv.org/pdf/2101.00529v1.pdf

車線形状予測

論文: Transformers によるエンドツーエンドの車線形状予測

リンク: https://arxiv.org/pdf/2011.04233v2.pdf

エンドツーエンドのオブジェクト検出

論文: 変形可能な DETR: エンドツーエンドの物体検出のための変形可能なトランスフォーマー

リンク: https://arxiv.org/pdf/2010.04159v2.pdf

デビッド・ハ氏に加えて、別の研究者であるNVIDIAの研究科学者で元OpenAIの研究科学者であるアンクル・ハンダ氏も、「必要なのはトランスフォーマーだけだ」と語った。

...これだけあれば十分でしょうか?

Transformer はさまざまな意味でトレンドを生み出しています。

彼の論文「必要なのは注意だけ」が発表されて以来、さまざまな「必要なのは注意だけ」の論文が次々と発表されました。 LSTM の創始者である Sepp Hochreiter 氏も、「Hopfield Networks があれば十分」というタイトルの記事を書いています。興味深いことに、この論文は、Transformer のコアとなる注意メカニズムの新規性を反駁するものです。つまり、Transformer の注意メカニズムは、ホップフィールドネットワークの更新ルールと同等です。

Transformer のパワーは主にその注目メカニズムによるものです。 NLP 分野におけるアテンションメカニズムの最も初期の応用は、Bengio のチームがニューラルマシン翻訳のタスクにそれを導入した 2014 年にまで遡りますが、当時のモデルのコアアーキテクチャはまだ RNN でした。対照的に、 Transformer は従来の CNN と RNN を完全に放棄します。ネットワーク構造全体が完全に注意メカニズムで構成されています。この変更によってもたらされる改善も破壊的です。

しかし、Sepp Hochreiter らは、2020 年 7 月の論文「Hopfield Networks is All You Need」で、Transformer の注意メカニズムは、連続状態に拡張された最新の Hopfield ネットワークの更新ルールと同等であることを示しました。

セップ氏がこの論文を発表したとき、Transformer の国境を越えた旅はすでに始まっていました。 2020 年 5 月、Facebook AI は、ターゲット検出とパノラマセグメンテーションのための Detection Transformer (DETR) という、検出パイプラインの中心的な構成要素として Transformer を統合した初のターゲット検出フレームワークをリリースしました。 6月に、OpenAIはTransformerベースのモデルGPT-2を画像分類タスクの画像分野に適用しました。

半年後、Transformer をコンピュータービジョンなどの他の分野に適用する方法を模索する研究がますます増えています。最近では、「Transformer があれば十分」や「Transformer は新しい LSTM だ」といった発言も聞かれます。

Transformer は新しい LSTM でしょうか?

1997 年、Sepp Hochreiter 氏と Jürgen Schmidhuber 氏は、機械学習の歴史における画期的な出来事とされる Long Short-Term Memory (LSTM) の論文を共同で発表しました。

LSTM は、特殊なタイプのリカレントニューラルネットワーク (RNN) です。 1991 年、Sepp Hochreiter は、時間による逆伝播 (BPTT) によって引き起こされる勾配爆発と勾配消失の問題を分析しました。1997 年、Sepp Hochreiter と Jürgen Schmidhuber は、BPTT によって引き起こされる勾配爆発と消失の問題を解決するために、LSTM 論文で CEC ユニットを導入しました。その後、多くの研究者によって改良され、普及しました。

LSTM ユニットの基本構造 (出典: https://en.wikipedia.org/wiki/Long_short-term_memory)

2020年2月、LSTMの考案者であるJürgen Schmidhuber氏は、LSTMの10年間の開発の歴史を振り返る記事を執筆し、機械翻訳、音声認識、ロボット工学、時系列予測、チャットボットなどの分野におけるLSTMの応用を紹介しました。

Transformer が最初に導入されたとき、RNN は完全に放棄され、LSTM が支配する NLP 分野で徐々に足場を築きました。現在、多くの研究で、時系列予測、音楽生成、画像分類などの境界を越えたタスクにこれを適用しています。 Papers with Code が最近発表した Transformer アプリケーションのトップ 10 の新規タスクでは、これまで LSTM が積極的に使用されていました。

Transformer は新しい LSTM でしょうか?モデルの適用分野の多様性から判断すると、これは実現しつつあるようです。

「変圧器は交換不要であと50年は使える」という予測が今発表されたら、どれくらいで破られるのだろうか。

<<: ついに、人工知能の3つの重要な機能を説明する人がいた。

>>: 労働者はなぜ人工知能を恐れるべきなのでしょうか?