ポピュラーサイエンス記事: GPT の背後にあるトランスフォーマー モデル

ポピュラーサイエンス記事: GPT の背後にあるトランスフォーマー モデル

前回の記事「AIビッグモデルの解釈、トークンの理解から始める」では、最も基本的な概念である「トークン」から始め、複雑なアルゴリズムロジックを省略しました。皆さんはAIビッグモデルの動作原理を明確に理解できたと思います。

しかし、テキストエンコーディングとデータ分析だけに頼るのであれば、人工知能の時代はとっくの昔に到来しているはずです。なぜGPTモデルの誕生だけが、大規模な人工知能モデルの全盛期をもたらしたのでしょうか。今日は、GPT の背後にある Transformer モデルについて詳しく説明します。

トランスフォーマーとは何ですか?

写真

Transformer は、機械翻訳などの自然言語処理タスクを解決するために 2017 年に Google の研究者によって提案された新しいニューラル ネットワーク アーキテクチャです。 Transformerの特徴は、従来のリカレントニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)を完全に放棄し、代わりにテキスト内の長距離依存関係を捕捉する自己注意メカニズムと呼ばれる方法を採用し、モデルの効率と精度を向上させていることです。

本日の記事では、自己注意メカニズムに焦点を当て、Transformer の 3 つの主要概念である位置エンコーディング、注意メカニズム、自己注意メカニズムを紹介します。

位置エンコーディング

自然言語処理タスクでは、単語の順序が特に重要です。 「シャオミンはシャオホンが好きです」と「シャオホンはシャオミンが好きです」を例に挙げてみましょう。この2つの文の単語はまったく同じで、順序が異なるだけで、表現する意味はまったく異なります。そのため、言語モデルは単語の順序を把握できなければなりません。

しかし、Transformer が採用している自己注意メカニズムは、ユニット間の相関関係を通じてテキストシーケンスをエンコードするため、モデル自体は単語の順序情報を認識できません。この困難を克服するために、Transformer では位置エンコーディングと呼ばれる手法が導入されています。

位置エンコーディングの考え方は非常にシンプルで、入力シーケンス内の各単語の後に位置マーカーを追加し、異なる数字を使用して文内の位置を示すというものです。 「私はリンゴを食べるのが大好きです」という文を例に挙げてみましょう。

我1 爱2 吃3 苹果4

このようにして、Transformer モデルは単語の順序を区別することができます。このアプローチにより、モデルの自然言語処理能力が大幅に向上します。実際、位置エンコーディングにより、Transformer は人間の脳が言語を処理する方法に類似したものになり、単語が出現する時系列順序を簡単に記憶できるようになります。 Transformer は位置エンコーディングを通じて同様の効果を実現します。

同様に、小説を読むとき、核となるプロットの起こる順序を把握したい場合、原文に目を通すのではなく、読みながらタイムラインを記録し、重要なプロットが起こったら、それをタイムライン全体のノードに記録することがよくあります。人気映画「TENET テネット」については、多くの友人は時系列に沿ってストーリーがどのように展開していくのかを実際に理解しただけだったと思います。

写真

位置コーディングであろうとタイムラインであろうと、この部分の情報は実際には元のデータに暗黙的に存在します。私たちのマーキングは、暗黙的な構造データのこの部分を表示して、大規模なモデルがデータのエンコードおよびデコード処理中に文中の単語の相対的な位置を考慮し、この情報部分を次元ベクトルに埋め込む(より正確には、特定の次元に影響を与える)ことができるようにするためです。

これは、物事を認識したり、言語を時系列順に整理したりする人間の脳の本能に似ています。 大規模モデルの利点は、ストレージが大きいため、人間の脳のように主要なノードを抽象化する必要がないことです。 各単語単位の位置を均等にエンコードするだけで済みます。 (ここでは少し単純化しすぎています。元の著者は位置をエンコードするために、単純な整数 1、2、3、4 ではなく、正弦関数を使用しましたが、要点は同じです。)

注意

Transformer モデルでは、位置エンコーディングによってモデルに語順情報が提供されます。注意メカニズムにより、モデルはこの情報をよりインテリジェントに使用できるようになります。

アテンション メカニズムとは何でしょうか? 簡単に言うと、Transformer モデルが出力を生成するときに入力シーケンス内のすべての単語を参照し、どの単語がより重要で現在のステップに関連しているかを判断できるようにします。英語からフランス語への翻訳を例にとると、Transformer が英語の単語を翻訳する場合、アテンション メカニズムを通じて英語の入力シーケンス全体をすばやく「スキャン」し、どのフランス語の単語に翻訳するかを決定します。入力シーケンスに複数の関連単語がある場合、アテンション メカニズムにより、モデルは最も関連性の高い単語に焦点を合わせ、関連性の低い他の単語を無視します。

写真

注釈付き翻訳の入力と出力への注目度のヒートマップ

人間の行動の観点から見ると、注意のメカニズムは理解しやすくなります。私たちは、文章を読むとき、遺伝的本能と歴史的経験に基づいて、注目する対象領域を選択し、注意を集中する能力を獲得し、それによって限られた注意力​​リソースを使用して、大量の情報から価値の高い情報を素早く選別します。大規模モデルの注意メカニズムの形成も同様です。脳と同様に、大規模モデルの本能と経験は、単語埋め込みによって形成された単語ベクトルの親密さから生まれます。モデルは、何千ものフランス語と英語の文章を観察することで、どのような種類の単語が相互に依存しているかを蓄積しました。

具体的には、Transformer のアテンション メカニズムは次の 2 つのステップに分けられます。

  • 最初のステップは、単語間の相関関係を計算することです。入力シーケンス内の各単語のペアについて、モデルは関連性スコアを計算します。スコアが高いほど、2 つの単語の意味的な関連性が高くなります。
  • 2 番目のステップは、注意の分散を生成することです。単語間の相関関係の計算に基づいて、各単語に重みを割り当てる注目度分布が得られます。重みが大きいほど、現在のステップにとって重要です。
  • 最後に、モデルはこの注意分布に従って入力シーケンスに重み付けし、関連する単語に焦点を当てます。これにより、注意メカニズムの役割が実現されます。

入力を段階的に処理し、長距離の依存関係をキャプチャできない RNN などの初期のシーケンス モデルと比較して、アテンション メカニズムはグローバル認識を実現し、Transformer がすべての入力を並列に確認できるようにすることで、モデリング機能が大幅に向上します。このため、Transformer はより難しい言語理解タスクを処理できます。

自己注意

Transformer モデルには、Attention メカニズムに加えて、Self-Attention と呼ばれるより強力なメカニズムがあります。 まず、注意と自己注意の違いについてお話ししましょう。

この例を参考にしてください。たとえば、蛇のように見える井戸のロープはすぐに人々の注意を引き、警戒させます。これは注目を意味します。そして、この井戸縄は井戸の縁に現れ、一端がバケツに結ばれていることから、蛇ではなく井戸縄であると判断され、自己注意に例えることができます。

自己注意メカニズムの中心的なアイデアは、モデルが単語間の相関関係、つまり単語間の依存関係を学習できるようにすることです。 「私はリンゴが大好きです」という文を例にとると、自己注意を通じてモデルは次のことを学習します。

  • 私は愛に関係しています
  • 愛は食べることに関係している
  • 「食べる」は「リンゴ」に関連しています

そして、処理時に、モデルは単語を順番に単純に翻訳するのではなく、これらの関連単語を優先します。

人間が物事を認識する際、その物事そのものだけではなく、その物事が位置する環境や、その認識に関係する他の事柄も総合的に考慮して最終的な認識を形成することが多い。テキストにおける自己注意メカニズムの応用も同様で、主に単語間の相互影響を計算することで長距離依存の問題を解決します。

認知の観点から見ると、自己注意は人間が言語を処理する方法に近いです。自己注意メカニズムは、長距離の依存関係を処理する際の従来のシーケンス モデルの制限を克服します。このため、自己注意メカニズムは、より複雑な言語構造を処理し、より高いパフォーマンスを実現できる Transformer モデルの「エンジン」になります。自己注意により、Transformer は並列計算を実行できるだけでなく、言語の意味を処理するために重要な非連続的な依存関係をモデル化することもできます。

要約する

自然言語処理タスクにおける Transformer モデルの大きな進歩の鍵は、次の 3 つのコア メカニズムにあります。

  • 位置エンコーディングは語順情報を提供する
  • 注意メカニズムにより、モデルはキーワードに集中することができます
  • 自己注意メカニズムは、モデルが単語間の依存関係を学習するのに役立ちます。

これら 3 つは互いに補完し合い、Transformer モデルが人間が言語を処理する方法をシミュレートできるようにすることで、従来の RNN モデルでは達成が難しい結果を実現します。

将来的には、Transformer モデルのトレーニングを容易にし、言語の表面的な形式だけでなく深い意味を真に理解できるようにする方法が、自然言語処理の分野における中心的な課題であり続けるでしょう。トランスフォーマーがもたらすさらなるサプライズを楽しみに待ちましょう!

<<:  OpenAIがアシスタントAPIをリリース、開発者はワンクリックで独自のアプリケーション用にAIアシスタントをカスタマイズ可能

>>:  ChatGPTキングボムアップグレード! GPT-4のより強力なバージョンがリリースされ、APIの価格が割引され、リリース会場での拍手は止まらない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能が私たちの生活に及ぼす8つの影響

[[226485]]マイクロソフト アジア社長のラルフ ハウプター氏によると、AI が概念から現実の...

取り残された子どもたちを教育するのは難しい。AI教育はこの問題の解決に役立つだろうか?

[[251968]]最近、湖南省の12歳少年が母親を殺害したというニュースが報道され、遺児の教育問...

7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

近年、人工知能などの新世代情報技術や5Gなどの新世代通信技術の急速な発展に伴い、あらゆる分野で科学技...

第4のパラダイム: AIによる意思決定が主要なビジネスシナリオを強化し、企業の質的変化の実現を支援

2021年6月23日、「変革の新パラダイム」をテーマにした2021年第4回パラダイム会議および企業イ...

XLNet の作者と AMiner のコア開発者が協力し、AI でエンタープライズ セールスを強化

[元記事は51CTO.comより] 近年、多くのインターネット企業がデータ、テクノロジー、AI、組織...

「顔認証」と「指紋認証」どちらが安全でしょうか?多くの人が間違っていた

今日のスマートフォンの発達により、顔認証や指紋認証によるロック解除は大きな利便性をもたらし、一般的に...

役に立たない、それとも翻訳ツール?日本が「会話」できるスマートマスクを発明

マスクが翻訳機の仕事を引き継ごうとしている。 最近、日本のスタートアップ企業が、マスクを着けていると...

マジック: メモリプーリングと分散 AI クラスターの最適化

[[429309]]分散機械学習が登場した理由は非常に単純です。一方では、トレーニングに利用できるデ...

...

...

専門家の洞察: AI を活用して配送をスピードアップする方法

毎分250人の赤ちゃんが生まれ、世界では4回の地震が発生し、シンガポール港では1,000トンを超える...

AIはどれほど強力でしょうか?人間とロボットが「真・偽の孫悟空」を演じる

過去数十年にわたり、チャットボットは進化を続け、私たちの日常生活に欠かせないヘルパーになりました。携...

...

さまざまな専門家が独自のカスタムGPTを提供しました。24時間のトップ9リストはこちらです。

11月10日の早朝、OpenAIはGPTをリリースしました。ChatGPT Plusのすべての加入...

...