TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

自然言語処理タスクから始まり、画像分類と生成の分野で活躍する無敵のトランスフォーマーは、次の伝説となるでしょうか?

地元の金物店に行って、棚に新しいタイプのハンマーが並んでいるのを見たと想像してください。このハンマーについては聞いたことがあるでしょう。他のハンマーよりも速く、より正確に打つことができ、過去数年間で、ほとんどの用途において他の多くのハンマーを時代遅れにしてきました。

さらに、ここにアタッチメント、あそこにネジといったちょっとした工夫で、ハンマーを他のどんなものと同じくらい速く切れるのこぎりに変えることができます。ツール開発の最前線にいる専門家の中には、このハンマーはあらゆるツールがひとつの装置に集約される前兆かもしれないと言う人もいる。

人工知能でも同様のことが起こっています。この多用途の新しいハンマーは人工ニューラル ネットワークです。これは、特定のタスクを達成する方法を「学習」するために既存のデータでトレーニングされたノードのネットワークで、トランスフォーマーと呼ばれます。もともと言語タスクの処理に使用されていましたが、最近では他の AI 分野にも影響を与え始めています。

Transformer は、2017 年の論文「Attention Is All You Need」で初めて登場しました。他の AI アプローチでは、システムはまず入力データのローカル パッチに焦点を当て、次に全体を構築します。たとえば、言語モデルでは、まず近くにある単語がグループ化されます。対照的に、Transformer は、入力データ内の各要素が他の要素と接続または関係するようにプログラムを実行します。研究者たちはこれを「自己注意」と呼んでいます。つまり、トレーニングが開始されると、Transformer はデータセット全体のトレースを参照することになります。

Transformer が登場する前は、言語タスクにおける人工知能の進歩は他の分野の発展に遅れをとっていました。 「自然言語処理は、過去 10 年間に起こったディープラーニング革命にやや遅れをとっています」と、マサチューセッツ大学ローウェル校のコンピューター科学者である Anna Rumshisky 氏は言います。「ある意味で、NLP はコンピューター ビジョンに遅れをとっていましたが、Transformer がそれを変えました。」

Transformer は、テキストの分析と予測に重点を置いた単語認識などのアプリケーションのリーダーに急速に成長しました。これにより、数千億語の単語を学習して一貫性のある新しいテキストを生成できる OpenAI の GPT-3 などのツールが次々と誕生しました。

Transformer の成功により、人工知能分野の研究者は「このモデルは他に何ができるのか」と考えるようになりました。

答えは徐々に明らかになりつつあります。Transformer は驚くほど豊富な機能を備えていることが証明されています。画像分類などの一部の視覚タスクでは、Transformer を使用するニューラル ネットワークは、Transformer を使用しないニューラル ネットワークよりも高速で正確です。トランスフォーマーは、複数の入力を一度に処理したり、計画タスクを完了したりするなど、人工知能の他の分野における新しい研究をより多く、より良く処理することもできます。

「Transformer は、コンピューター ビジョンを含む機械学習の多くの問題に大きな変革をもたらすようです」と、ミュンヘンの BMW で自動運転車のコンピューター ビジョンに取り組んでいるウラジミール ハルタコフ氏は言います。

わずか 10 年前、AI のさまざまなサブフィールドは互いにほとんど分離されていましたが、Transformer の登場により、統合が可能であることが示されました。 「トランスフォーマーがこれほど人気が​​あるのは、その汎用性の高さが理由だと思います」とテキサス大学オースティン校のコンピューター科学者アトラス・ワン氏は言う。「AIタスクのあらゆる範囲でトランスフォーマーの使用を試みるには十分な理由があります。」

「言語」から「視覚」へ

Transformer アプリケーションの範囲を拡大するための最も有望な動きは、Attention Is All You Need のリリースから数か月後に始まりました。アレクセイ・ドソビツキー氏は当時、Google Brain のベルリンオフィスで働いており、コンピューターに画像の処理と分類の方法を教えることに重点を置いた AI のサブフィールドであるコンピュータービジョンを研究していました。

この分野のほぼすべての人と同様に、彼も畳み込みニューラル ネットワーク (CNN) を使用してきました。長年にわたり、ディープラーニング、特にコンピューター ビジョンにおける大きな進歩を牽引してきたのは CNN です。 CNN は、画像内のピクセルにフィルターを繰り返し適用することで特徴認識を実行します。 CNN に基づいて、写真アプリは写真を顔ごとに分類したり、アボカドと雲を区別したりできます。したがって、CNN は視覚タスクに不可欠であると考えられています。

当時、Dosovitskiy 氏は、処理時間を増やすことなく CNN をスケールアップし、より高解像度の画像を表す大規模なデータセットで CNN をトレーニングするという、この分野における最大の課題の 1 つに取り組んでいました。しかしその後、彼は、ほぼすべての言語関連の AI タスクで、Transformer が以前の選択ツールに取って代わったことに気づきました。 「私たちは明らかに、そこで起こっていることに感銘を受けました」と彼は言います。「そして、視覚でも同じようなことができるのではないかと考えました。」そのアイデアはある意味理にかなっています。結局のところ、Transformer が大量の単語データセットを処理できるのであれば、画像でもできないはずがありません。

最終結果として、Vision Transformer (ViT) と呼ばれるネットワークが 2021 年 5 月のカンファレンスで登場しました。このモデルのアーキテクチャは、2017 年に提案された最初の Transformer のアーキテクチャとほぼ同じですが、テキストだけでなく画像を分析できるようにする小さな変更のみが加えられています。 「言語は離散的になりがちです」とラムシスキー氏は言う。「ですから、イメージも離散化する必要があります。」

ViT チームは、ピクセル単位の自己注意は計算時間の点で非常にコストがかかるため、言語的アプローチを完全に模倣することはできないことを認識していました。そこで、大きな画像を正方形のセルまたはトークンに分割します。トークンは元の画像の解像度に応じて大きくなったり小さくなったりするため、サイズは任意です (デフォルトは 1 辺 16 ピクセル)。ただし、ピクセルをグループで処理し、各ピクセルに自己注意を適用することで、ViT は大規模なトレーニング データセットを迅速に処理し、より正確な分類を生成できます。

Transformer は 90% を超える精度で画像を分類することができ、これは Dosovitskiy 氏の予想をはるかに上回り、ImageNet 画像データセットで新しい SOTA Top-1 精度を達成しました。 ViT の成功は、畳み込みが研究者が考えていたほどコンピューター ビジョンにとって重要ではない可能性があることを示唆しています。

「中期的には、CNN がビジュアル トランスフォーマーまたはその派生型に置き換えられる可能性が非常に高いと思います」と、ドソビツキー氏とともに ViT を開発した Google Brain チューリッヒ オフィスのニール・ホールズビー氏は言う。同氏は、将来のモデルは純粋なトランスフォーマー、または既存のモデルに自己注意を追加する方法になる可能性があると考えている。

他のいくつかの結果もこれらの予測を裏付けています。研究者は定期的にImageNetデータベースで画像分類モデルをテストしており、2022年初頭にはViTの更新バージョンがCNNとTransformerを組み合わせた新しい方法に次ぐものとなりました。これまでの長期チャンピオンであるCNN(トランスフォーマーなし)は、かろうじてトップ10入りしたに過ぎません。

Transformerの仕組み

ImageNet の結果は、Transformer が主要な CNN と競合できることを示しています。しかし、グーグル・ブレインのカリフォルニア州マウンテンビュー事務所のコンピューター科学者マイトラ・ラグー氏は、人間がCNNと同じように画像を「見ている」のかどうか疑問に思った。ニューラル ネットワークは解読が難しい「ブラック ボックス」ですが、その内部を覗く方法はあります。たとえば、ネットワークの入力と出力をレイヤーごとに調べて、トレーニング データの流れを理解することができます。ラグーのチームがやったことは基本的にこれです。彼らは ViT を分解したのです。

彼女のチームは、自己注意がアルゴリズムにおいて異なる認識につながる方法を特定しました。結局のところ、Transformer のパワーは、画像エンコード データを処理する方法から生まれます。 「CNNでは、最初は非常にローカルな視点から始めて、徐々に世界的な視点を獲得していきます」とラグー氏は語った。 CNN はピクセルごとに画像を認識し、コーナーや線などの特徴をローカルからグローバルまで識別します。しかし、自己注意を備えた Transformer では、情報処理の最初の層でさえ、遠く離れた画像の位置間の接続を作成します (言語と同様)。 CNN のアプローチが、1 つのピクセルから始めて、ズーム レンズを使用して遠くの物体の倍率を下げるようなものであるとすると、Transformer は、ぼやけた画像全体にゆっくりと焦点を合わせます。

この違いは、Transformer が元々焦点を当てていた言語ドメインでは理解しやすいです。次の文を考えてみましょう。「フクロウがリスを見つけました。爪でつかもうとしたのですが、しっぽの先しかつかめませんでした。」 2 番目の文の構造はわかりにくいです。「それ」は何を指しているのでしょうか。「それ」の近くの単語にのみ注意を払う CNN では苦労しますが、各単語を他のすべての単語に接続する Transformer では、フクロウがリスをつかんでいることと、リスのしっぽの一部が欠けていることを認識できます。

Transformer が画像を処理する方法は畳み込みネットワークとは根本的に異なることが明らかになり、研究者たちはさらに興奮しました。 Transformer は、1 次元の文字列 (文章など) から 2 次元の配列 (画像など) にデータを変換する汎用性を備えているため、このようなモデルは他の多くの種類のデータでも使用できると考えられます。たとえば、ワン氏は、トランスフォーマーがニューラル ネットワーク アーキテクチャの収束を実現するための大きな一歩となり、コンピューター ビジョン、そしておそらく他の AI タスクへの一般的なアプローチにつながる可能性があると考えています。 「もちろん、実際に実現するには限界がありますが、あらゆる種類のデータを 1 台のマシンにまとめることができる汎用的なモデルがあれば、それは本当に素晴らしいことです。」

ViTの展望

現在、研究者たちはトランスフォーマーを、新しい画像を作成するというより困難な作業に適用したいと考えています。 GPT-3 のような言語ツールは、トレーニング データに基づいて新しいテキストを生成できます。昨年発表された論文「TransGAN: 2 つの純粋なトランスフォーマーが 1 つの強力な GAN を作成し、スケールアップできる」で、Wang 氏は 2 つのトランスフォーマー モデルを組み合わせて、画像で同じことを実行しようとしましたが、これははるかに難しい問題です。デュアル Transformer ネットワークを 20 万人以上の有名人の顔でトレーニングしたところ、中程度の解像度で新しい顔画像を合成できました。ニューラル ネットワークによって生成された画像を評価する標準的な方法であるインセプション スコアによると、生成された有名人の顔は印象的で、少なくとも CNN によって作成されたものと同程度に説得力があります。

ワン氏は、Transformer の画像生成の成功は ViT の画像分類能力よりも驚くべきことだと考えています。 「生成モデルには合成機能が必要であり、もっともらしく見えるように情報を追加できる必要がある」と彼は語った。分類領域と同様に、Transformer メソッドは生成領域でも畳み込みネットワークに取って代わりつつあります。

Raghu 氏と Wang 氏は、マルチモーダル処理における Transformer の新たな用途も見出しています。 「以前は、それを実行するのは困難でした」とラグー氏は言います。なぜなら、データの種類ごとに独自の特殊モデルがあり、アプローチがサイロ化されていたからです。しかし、Transformer は複数の入力ソースを組み合わせる方法を提案します。

「これらの異なるタイプのデータと画像を組み合わせることができる興味深いアプリケーションはたくさんあります。」たとえば、マルチモーダル ネットワークは、人の声を聞くだけでなく、唇を読み取ることができるシステムを実現する可能性があります。 「言語と画像情報の豊かな表現が可能になり、以前よりもはるかに深みが増しました」とラグー氏は言う。

これらの顔は、20 万人を超える有名人の顔のデータセットでトレーニングした後、Transformer ベースのネットワークによって作成されました。

新たな一連の研究により、ロボットに人間の動きを認識させる、機械に会話の感情を認識させる、心電図でストレスレベルを検出するなど、他の AI 分野でのトランスフォーマーの新たな用途が多数明らかになった。 Transformer コンポーネントを備えた別のプログラムは AlphaFold です。これは、タンパク質構造を迅速に予測し、50 年にわたるタンパク質折り畳みの問題を解決する能力で注目を集めました。

トランスフォーマーだけが必要なわけではない

Transformer は他の新興テクノロジーと同様に AI ツールの統合と改善に役立ちますが、コストもかかります。 Transformer モデルは、以前の競合モデルに勝つために、事前トレーニング段階で大量の計算能力を消費する必要があります。

これは問題になるかもしれません。 「高解像度の画像に対する人々の関心は高まっている」と王氏は語った。トレーニングコストは、Transformer の普及を妨げるデメリットとなる可能性があります。しかし、ラグー氏は、洗練されたフィルターやその他のツールの助けを借りれば、トレーニングの障壁は克服できると考えています。

ワン氏はまた、ビジュアルトランスフォーマーが AI の進歩を推進してきた一方で、多くの新しいモデルは依然として畳み込みの最良の部分を取り入れていると指摘した。つまり、将来のモデルでは、CNN を完全に放棄するのではなく、両方の手法を使用する可能性が高くなる、と彼は述べた。

同時に、これは、一部のハイブリッド アーキテクチャが、現在の研究者が予測できない方法でトランスフォーマーの利点を活用する魅力的な展望を持っていることも示しています。 「変圧器が完璧なモデルだと結論づけるべきではないかもしれない」と王氏は言う。しかし、トランスフォーマーが AI ショップにおけるまったく新しい種類のスーパーツールの少なくとも一部となることはますます明らかになっています。

<<:  GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

>>:  デジタル経済時代の識別技術の新たな展開

ブログ    

推薦する

世界中の人工知能企業の数:米国 2,028 社、インド 800 社、中国はどうでしょうか?

テクノロジーは生活を変えるだけでなく、世界も変えることができます。 1760年代初頭、イギリスを中心...

新型コロナウイルスはAIに影響を与えるか?人工知能は人間の介入なしには機能しない

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

OpenAI Soraについて知っておくべきこと

皆さんこんにちは、ルガです。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロジーで...

今後の技術開発の動向はどうなると思いますか?

モバイル アプリケーション業界は長年にわたって発展しており、当社のシステムの重要な部分となっています...

ポストエピデミック時代におけるスマートビルディング技術の重要な役割

COVID-19の世界的パンデミックを受けて、職場への復帰は通常通りの業務ではなく、セキュリティ シ...

...

アプリケーションプロトコル識別における大規模言語モデルの応用

パート 01.アプリケーション プロトコル識別とは何ですか?アプリケーション プロトコル識別とは、ネ...

...

門戸を開くと、エンタープライズ機械学習が急成長

[[394391]]自動運転から機械翻訳、不正取引の特定から音声認識、衛星画像認識からビデオストリー...

...

巨大企業がAIビッグモデルに参入する背景

ChatGPT に代表されるコンセプトが出現し始めると、ますます多くのインターネット プレーヤーが関...

署名アルゴリズムに基づくシンプルで安全なAPI認証メカニズム

[[384489]]広告システムに取り組んでいたとき、接続されたプラットフォーム上のほとんどの広告シ...