「トランスフォーマー」は5年でクレイジーなCNNに取って代わりました!トランスフォーマーは人工知能を支配するのでしょうか?

「トランスフォーマー」は5年でクレイジーなCNNに取って代わりました!トランスフォーマーは人工知能を支配するのでしょうか?

AI業界では今や誰もが知る名前となったTransformerが、これほど短期間でなぜこれほど人気を博したのでしょうか?

トランスフォーマーの起源

地元の金物店を訪れて、棚に新しいタイプのハンマーが並んでいるのを見たと想像してください。このハンマーは他のハンマーよりも速く、より正確に打つことができ、過去数年間で、少なくともほとんどの用途において、他の多くのハンマーを時代遅れにしてきました。 さらに、ここにアタッチメントを付けたり、そこに少しトルクを加えたりと、このツールをのこぎりに変えることもできます。切断速度と精度は他の類似製品と同等です。 実際、ハードウェア開発の最前線にいる専門家の中には、このハンマーは、すべてのハードウェアツールが 1 つのデバイスに統合される時代の先駆けに過ぎないかもしれないと言う人もいます。 AI業界でも同様の話が起きています。 その「新しい多目的ハンマー」は、トランスフォーマーと呼ばれる人工ニューラルネットワークであり、既存のデータでトレーニングすることで特定のタスクを達成する方法を「学習」するノードのネットワークです。

当初、Transformer は言語処理に使用されていましたが、最近ではさらに多くの分野に影響を与えています。 2017年、TransformerはGoogleの研究者が「Attention Is All You Need(必要なのは注意だけ)」という謎めいたタイトルで発表した論文の中で初めて登場しました。 過去の他の人工知能の一般的なやり方は、システムが最初に入力データのローカル ブロックに焦点を当て、次に全体を構築するというものでした。たとえば、言語モデルでは、まず近くにある単語がグループ化されます。 Transformer の動作パスにより、入力データ内の各ユニットが相互に接続され、注意を払うことが可能になり、研究者はこれを「自己注意」と呼んでいます。つまり、トレーニングが開始されると、Transformer は処理中のデータセット全体を確認できるようになります。

論文リンク: https://arxiv.org/abs/1706.03762 すぐに、Transformer は、テキストの分析と予測に重点を置いた単語認識などのアプリケーションのリーダーになりました。これにより、OpenAI の GPT-3 のような新しい AI ツールが誕生しました。GPT-3 は、数千億語の単語を学習して、驚くほど賢く、意味的に判読可能な新しいテキストを継続的に生成できます。 Transformer の成功により、AI 業界では Transformer が他にどのようなタスクを達成できるのか興味が湧き、その答えが明らかになりつつあります。 画像分類などの視覚タスクでは、Transformer を使用するニューラル ネットワークの方が高速で正確です。複数の入力データ/計画タスクを一度に処理する必要がある新しいタスクも、Transformer がより多くの作業を実行できることを示しています。 わずか 10 年前には、AI 学術界のさまざまなサブフィールド間に共通言語はほとんどありませんでした。しかし、トランスフォーマーの登場は融合の可能性を示しています。

「Transformer がこれほど人気が​​あるのは、汎用性があるからだと思います」とテキサス大学オースティン校のコンピューター科学者、アトラス・ワン氏は言う。「AI 科学のあらゆる分野で Transformer を使ってみたいと思うのには十分な理由があります。」

言語から視覚へ

Transformer の適用範囲を拡大するための最も有望な動きの 1 つは、「Attention Is All You Need」論文が発表されてから数か月後に始まりました。 当時ベルリンのグーグル研究部門で働いていたコンピューター科学者のアレクセイ・ドソビツキー氏は、コンピューターに画像の処理と分類の方法を教えることに重点を置いたAIのサブフィールドであるコンピュータービジョンを研究していた。 この分野のほぼすべての人と同様に、彼が当時頼りにしていたツールは畳み込みニューラル ネットワーク (CNN) でした。これは、長年にわたりディープラーニング、特にコンピューター ビジョンの分野で大きな進歩を牽引してきた技術です。 CNN は、画像内のピクセルにフィルターを繰り返し適用して特徴の認識を構築することで機能します。写真アプリが画像ライブラリを顔ごとに整理したり、雲とアボカドを区別したりできるのは、畳み込みのおかげです。 その結果、CNN は視覚タスク処理に欠かせないツールになりました。

Dosovitskiy 氏は、この分野における最大の課題の 1 つ、つまり、処理時間を増やすことなく、ますます高解像度の画像の大規模なデータセットをトレーニングするために CNN をスケールアップすることに取り組んでいます。 この時点で、彼は、Transformer が NLP タスクにおけるこれまでのすべてのツールをほぼ完全に置き換えたことに気づきました。 では、視覚処理でも同様の効果を実現することは可能でしょうか? このアイデアは非常に洞察に富んでいます。結局のところ、Transformer が大量の単語データセットで動作できるのであれば、画像でも動作できない理由はありません。 最終結果はVisual Transformer(ViT)と呼ばれるニューラルネットワークであり、研究者らは2021年5月の会議でこれを発表しました。

論文リンク: https://arxiv.org/abs/2010.11929 このモデルのアーキテクチャは、2017 年に提案された最初の Transformer のアーキテクチャとほぼ同じですが、テキストではなく画像を分析できるようにする小さな変更のみが加えられています。 ViT チームは、モデルの実行中にピクセルごとに自己注意を完了するには非常に時間がかかるため、言語データを処理する Transformer のアプローチを完全に模倣することはできないことを知っていました。 代わりに、大きな画像をトークンと呼ばれる正方形の単位に分割します。トークンのサイズは任意で、元の画像の解像度に応じて大きくしたり小さくしたりできます (デフォルトは 1 辺あたり 16 ピクセル)。 ViT は、ピクセルをユニット単位で処理し、各ユニットに自己注意を適用することで、大規模なトレーニング データセットを迅速に処理し、より正確な分類を生成できます。

Transformer は 90 パーセント以上の精度で画像を分類しました。これは Dosovitskiy 氏の予想をはるかに上回る結果でした。業界のベンチマーク画像認識コンテストである ImageNet Classification Challenge で、ViT はすぐにトップの座を獲得しました。 ViT の成功は、多くの研究者が信じているように、CNN がコンピューター ビジョンの唯一の基盤ではない可能性があることを示唆しています。 「近い将来、CNN がビジュアル トランスフォーマーまたはその派生製品に置き換えられる可能性が非常に高いと思います」と、Dosovitskiy 氏とともに ViT を開発した Neil Houlsby 氏は言います。一方、他の結果もこの予測を裏付けています。 2022 年初頭のテストでは、ViT の更新バージョンは、CNN とトランスフォーマーを組み合わせた新しいアプローチに次ぐ結果となりました。以前のチャンピオンCNNモデルは、今ではかろうじてトップ10入りを果たした。

トランスフォーマーはどのように機能しますか?

ImageNet の結果は、Transformer が確かに CNN と競合できることを示しています。 しかし、Google のコンピューター科学者である Maithra Raghu 氏は、彼らが CNN と同じように画像を「見ている」のかどうか疑問に思った。 ニューラル ネットワークは悪名高いブラック ボックスですが、その内部を覗く方法はあります。 例えば。ネットワークの入力と出力をレイヤーごとに調べることで、トレーニング データの流れを理解します。

論文リンク: https://arxiv.org/abs/2108.08810 CNN では、画像をピクセルごとに認識し、ローカルからグローバルまで各コーナーまたはラインの特徴を識別します。 Transformer は、自己注意の助けを借りて、ニューラル ネットワークの最初の層で画像の両端に分散された情報間の接続を確立することもできます。 CNN 方式が 1 つのピクセルからズームインするようなものであるとすれば、Transformer 方式はぼやけた画像全体をゆっくりと鮮明にします。 この違いは言語の分野では理解しやすいです。たとえば、フクロウはリスを見つけます。爪でつかもうとしたが、尻尾の先しかつかめなかった。 2番目の文の構造はわかりにくいです。 この「それ」とは何でしょうか? 「それ」のすぐ前後の単語だけに注目する CNN は苦労しますが、各単語を他の単語と関連付ける Transformer は、フクロウが何かをつかむ動作をしたことや、リスの尻尾の一部がなくなったことを認識できます。

収束が起こっている

現在、研究者たちはトランスフォーマーを、新しい画像を生成するというより難しいタスクに適用したいと考えています。 GPT-3 のような言語ツールがトレーニング データに基づいて新しいテキストを生成できるのと同じです。 そこで、2021年に発表された論文で、Wang氏は2つのTransformerモデルを組み合わせて、画像で同じことを実行しようとしました。これははるかに難しい作業です。

論文リンク: https://arxiv.org/abs/2102.07074 デュアル Transformer ネットワークを 200,000 を超える有名人の顔画像でトレーニングしたところ、中程度の解像度で新しい顔画像を合成しました。 ニューラル ネットワークによって生成された画像を評価する標準的な方法である Inception Score によると、Transformer によって生成された有名人の画像は印象的で、少なくとも CNN によって生成された画像と同等の説得力があります。

Transformer の画像生成の成功は、ViT の画像分類能力よりもさらに印象的です。 同様に、Transformer もマルチモーダル処理に活用できます。 以前のサイロ化されたアプローチでは、データの種類ごとに独自の特殊モデルがありました。マルチモーダル ネットワークにより、プログラムは音声を聞くだけでなく、人の唇を読み取ることも可能になります。つまり、生の画像、ビデオ、言語など、複数の種類のデータを同時に処理できるモデルです。 「言語情報と視覚情報の両方が豊富なデータが得られます」とラグー氏は言います。「そして、それは以前よりもはるかに深みのあるものです。」

新たなプロジェクトでは、ロボットに人間の動きを認識させる、機械に会話の感情を認識させる、心電図で患者のストレスレベルを検出するなど、他の AI 分野でのトランスフォーマーのさまざまな新しい用途が示唆されています。 Transformer コンポーネントを備えた別のプログラムに AlphaFold があります。これは、以前は 10 年にわたる詳細な分析を要していたタンパク質構造を迅速に予測する機能で 2021 年に注目されました。

長所と短所

Transformer は AI ツールの統合と改善に貢献できますが、新興テクノロジーには高額なコストがかかることが多く、Transformer も例外ではありません。 Transformer が従来の競合製品を上回る精度を達成するには、事前トレーニング段階でより高い計算能力が必要になります。王氏は、高解像度画像への関心は今後もますます高まるだろうと述べた。その結果、モデルのトレーニング コストが増加し、Transformer の広範な導入に支障をきたす可能性があります。 しかし、ラグー氏は、そのようなトレーニングの障害は、洗練されたフィルターやその他のツールによって簡単に克服できると考えています。

ワン氏はまた、ビジュアルトランスフォーマーが、自身のプロジェクトを含め、AI を前進させる新しいプロジェクトに刺激を与えている一方で、新しいモデルの多くは依然として畳み込み機能の最良の部分を組み込んでいると指摘した。 これは、将来のモデルでは CNN を完全に放棄するのではなく、CNN と Transformer の両方が使用される可能性が高くなることを意味します。これは、このようなハイブリッド アーキテクチャの将来性を予感させるものです。 おそらく、トランスフォーマーが最終モデルになると結論付けるのは早計でしょう。 しかし、確かなのは、実践者が頻繁に訪れる AI ハードウェア ストアにどのような新しいスーパー ツールが登場しても、Transformer が必須のコンポーネントになる可能性がますます高まるということです。

<<:  人工知能はブロックチェーンにどのような影響を与えるのでしょうか?

>>:  移転可能で適応性のある運転行動予測

ブログ    

推薦する

機械学習: Python による予測

機械学習は基本的に、既存のデータを使用して新しいデータについて予測を行う人工知能のサブセットです。も...

ChatGPTの背後にある技術的進化を分析する

1. 自然言語理解と言語モデル1.1 自然言語処理自然言語処理 (NLP) は人工知能 (AI) の...

...

最終支払いを控える人々のダブル11不安:配達ロボットは解決できるか?

今年のダブル11のクライマックスが終わり、最後の支払いをしなければならなかった人たちも、速達を待つ苦...

マスク氏はオープンAIの主任科学者に質問した。「いったい何を見てそんなに怖くなったのですか?」

2015年11月27日、イーロン・マスクはイリヤ・スツケヴァー氏がOpenAIの主任科学者として参...

AIを活用した臨床モニタリングシステムの台頭

人工知能(AI)は生活のあらゆる分野に浸透しています。人工知能は医療にどのようなメリットをもたらすの...

人工知能を初めて適用するときに尋ねるべき5つの質問

企業が社内でソリューションを構築する必要は必ずしもありませんが、これが失敗の一般的な原因となります。...

世界の通信業界の専門家が2024年を予測

世界の通信業界の専門家が2024年を予測5G が世界をカバーし、人工知能がネットワークを再形成し、デ...

今後5~10年で、人工知能+ブロックチェーンは第三者による支払いを終わらせるだろう

インターネットの出現により、伝統的な取引方法は一変しました。第三者保証の取引プラットフォームとして、...

BEV におけるレーダー・カメラ間データセット融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

「AI+教育」が人気を集めているが、次の巨人は誰になるのか?

人工知能という学問分野が1956年に正式に提唱されて以来、会議やフォーラムでの華やかな「ホットワード...

「スカイアイ」が駐車問題を解決し、人工知能が都市統治を強化

新華網、北京、3月4日、タイトル:「スカイアイ」が駐車の難しさを解決し、人工知能が都市統治を強化新華...

...

...