Google は最新の NLP モデルをオープンソース化しました。このモデルは「罪と罰」の全巻を処理できます。

Google は最新の NLP モデルをオープンソース化しました。このモデルは「罪と罰」の全巻を処理できます。

Transformer は、近年 NLP 分野で注目されているモデルの 1 つです。

  • 2017年、Googleは「Attention Is All You Need」というタイトルの論文を発表し、Attentionメカニズムに完全に基づいたTransformerと呼ばれるネットワークフレームワークを提案しました。
  • 2018年、GoogleはTransformerベースのBERTモデルをオープンソース化し、NLP分野で人気を博しました。
  • 2019 年の機械学習における最大のトレンドの 1 つは、Transformer ベースの自然言語モデルの継続的な成長と普及です。
  • 2020年、自然言語処理分野におけるGLUEデータセットのリーダーボードによると、NvidiaのMegatron、GoogleのXLNet、MicrosoftのMT-DNN、FacebookのRobertaなど、最もパフォーマンスの高いモデルのいくつかはTransformerに基づいています。

最近、Google は Transformer の「アップグレード版」である Reformer をリリースしました。

[[313328]]
[画像出典: VentureBeat 所有者: VentureBeat]

Transformerよりも効率的

言語、音楽、音声、ビデオなど、シーケンシャルなデータは、特にさまざまなコンテキストでは AI や機械学習モデルにとって理解が困難です。たとえば、人物や物体がビデオから消えて、その後かなり経ってから再び現れた場合、多くのアルゴリズムはそれがどのように見えたかを忘れてしまいます。

そこで、Google はこの問題を解決するために機械翻訳モデル Transformer を開発しました。 Transformer は数千語まで拡張可能なアーキテクチャであり、音楽作曲、画像合成、文ごとのテキスト翻訳、ドキュメント要約などのタスクのパフォーマンスを大幅に向上させます。

すべてのディープ ニューラル ネットワークと同様に、Transformer には、入力データからの信号を送信し、各接続のシナプス強度 (重み) をゆっくりと調整する接続層にニューロン (数学関数) が含まれています。これは、すべての AI モデルが特徴を抽出し、予測を学習する方法ですが、Transformer は、すべての出力要素がすべての入力要素に関連付けられていることを独自に認識し、それらの間の重みは実際に動的に計算されます。

ただし、Transformer は完璧ではありません。より大きな設定に拡大すると、その限界が明らかになります。大規模なウィンドウ アプリケーションにはギガバイトからテラバイト単位のメモリが搭載されているため、モデルでは数段落のテキストしか取り込めず、短い音楽しか生成できません。

これを踏まえて、Google は Transformer の進化版として Reformer を発表しました。Reformer は最大 100 万語の環境を処理でき、わずか 16 GB のメモリを使用して単一の AI アクセラレータ チップで実行できます。

【画像出典:論文】

Leifeng.com(公式アカウント:Leifeng.com)は、関連論文「Reformer:The Efficient Transformer」が2020年4月にエチオピアで開催される自然言語処理のトップカンファレンスであるICLR-2020(International Conference on Learning Representations)に採択され、現在のモデルもオープンソース化されたことを知りました。

論文によれば、Reformer には主に以下の技術が含まれています。

  • まず、可逆層はモデル全体で活性化関数のコピーを 1 つだけ保存するため、N 係数は消えます。
  • 次に、活性化関数はフィードフォワード層で分割され、セグメントで処理されて、dff 係数が除去され、フィードフォワード層のメモリが節約されます。
  • 3 番目に、Local Sensitive Hashing (LSH、主に高次元の大量データの高速近似検索に使用されるハッシュ アルゴリズム) を使用します。具体的には、ハッシュ関数は、すべての可能なベクトルのペアを検索する代わりに、類似のベクトル (機械学習で人間が判読可能なデータを表す代数構造) を一致させて、任意のサイズのデータ​​を固定サイズの値にマッピングする関数です。

たとえば、翻訳タスクでは、ネットワークの最初の層からの各ベクトルは単語を表し、異なる言語の同じ単語に対応するベクトルは同じハッシュ値を取得できます。ハッシュを割り当てる際に、シーケンスを並べ替えてから要素のハッシュ値でソートすることで並列処理を実現し、長いシーケンスの複雑さを軽減し、計算負荷を大幅に軽減します。

リフォーマーは小説全体を扱うことができる

Reformer が実際に単一の GPU で実行でき、長いシーケンスで迅速にトレーニングできることを確認するために、研究者は enwik8 および imagenet64 データセットで 20 層の Reformer モデルをトレーニングしました。実験では、Reformer は Transformer と同じパフォーマンスを実現でき、メモリ効率が高く、長いシーケンス タスクのトレーニングが高速であることが示されています。

【画像出典:論文】

さらに、研究チームは、Reformer ベースの画像およびテキスト モデルも実験し、それらを使用して画像内の欠落している詳細を生成し、小説「罪と罰」(約 211,591 語) の全テキストを処理しました。研究によると、Reformer はフルフレーム画像をピクセル単位で生成でき、1 回のトレーニングで小説ほどの長さのテキストを受け取ることができることがわかっています。

この研究に貢献したGoogleの科学者Łukasz Kaiser氏とカリフォルニア大学バークレー校の学生Nikita Kitaev氏は、ブログ投稿で次のように書いている。

  • Reformer は非常に効率的なので、現在の最先端のテキスト ドメインのほとんどすべてよりもはるかに大きなコンテキスト ウィンドウを持つデータに直接適用できます。Reformer がこのような大規模なデータセットを処理できることは、データセットを作成するコミュニティを刺激する可能性もあります。

論文著者らは、これをさらに幅広い分野(時系列予測や音楽・画像・動画生成など)に応用し、位置エンコーディングの処理を改良していく予定であると報告されている。 Łukasz Kaiser 氏と Nikita Kitaev 氏は次のように付け加えました。

Reformer は、長いテキストや自然言語処理を超えたアプリケーションに Transformer モデルを将来使用するための基盤を築くものと考えています。

2019年末、海外メディアのVentureBeatがGoogleの上級副社長ジェフ・ディーン氏にインタビューを行い、同氏は次のように語った。

  • Google は、さらに多くのコンテキスト モデルを構築したいと考えています。現在、BERT などのモデルは数百の単語を処理できますが、10,000 の単語は処理できません。したがって、これが今後の Google の主な焦点となるでしょう。

そして、Reformer はその方向への有望な第一歩であると思われます。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  騒ぎの裏で、2020年はケータリングロボットにとって楽な年になるだろうか?

>>:  年次レビュー:2020 年の 5 つの注目すべきテクノロジー トレンド、時代のトレンドに遅れずについていく

ブログ    

推薦する

AI の応用分野トップ 10 を調べて、自分の専攻分野が含まれているかどうか確認してください。

人工知能や脳の研究を考えるとき、人々はターミネーターマシンが世界を破壊するイメージを思い浮かべます。...

深い思考 | 大規模モデルの機能の限界はどこにあるのでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

AIはどれほど強力でしょうか?人間とロボットが「真・偽の孫悟空」を演じる

過去数十年にわたり、チャットボットは進化を続け、私たちの日常生活に欠かせないヘルパーになりました。携...

50%-70%スリムダウン、Ctrip Taroミニプログラムサイズ削減計画

著者についてCtrip のフロントエンド開発者である Can は、現在ミニプログラムの開発に従事して...

人工知能の基礎技術は成熟し、AIは今後10年間で私の見方を完全に変えた

人工知能の黄金の10年基礎技術は基本的に安定しており、拡大シナリオは流行の10年を迎えています。中国...

...

...

...

清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル(LLM)は、単純な自然言語処理から、テキスト、オーディオ、ビデオなど...

このGitHubの8000スターAIリアルタイム顔変換プロジェクトにはアプリがある

人間のロールプレイングへの熱意は決して衰えることがなく、だからこそ AI による顔の変形が人気を博し...

クラウドコンピューティングと人工知能の発展により、ITセキュリティは大幅に向上しました。

データ侵害が頻繁に起こるようになるにつれて、IT セキュリティの重要性がますます高まります。幸いなこ...

掃除機はいくらかかりますか?掃除ロボットの原理とハードウェア構成の詳細な説明

時代の発展とともに、掃除ロボットは多くの家庭にとって必需品となりました。掃除ロボットは、ベッドの下を...

なぜスパムメールがこんなに多いのでしょうか? Redditの男が機械学習の残酷な現実を暴露

近年、AIのトレンドは高まるばかりで、毎年大規模な機械学習カンファレンスが盛んに開催されており、誰も...

米国の委員会は「道徳的義務」を理由にAI兵器の開発を禁止すべきではないと勧告した。

[[378901]]米政府の委員会は報告書草案の中で、米国は人工知能(AI)を搭載した自律型兵器の...

「安佳」の人工知能版? 「AI仲介人」が近々登場?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...