AIビッグモデルの核となる概念を一挙に解説する人気科学記事

写真

トークン、ベクトル、埋め込み、アテンション、これらの AI モデル用語は、いつも馴染みがありそうでもあり、馴染みがないと感じますか? 答えが「はい」の場合、本日のポピュラーサイエンスの記事は見逃せません。多数の例と視覚的なグラフィックを組み合わせて、最も単純なものから最も複雑なものまで、AI ビッグモデルの中核となる概念を説明します。

導入

テクノロジー企業の継続的な進歩と国際競争により、AIビッグモデルは私たちの生活にますます統合されるようになりました。一般の人にとっては、高度な AI アルゴリズムを勉強する必要はないかもしれませんが、この AI の波に取り残されないようにするには、LLM の原則について基本的な理解が必要です。

LLM (大規模言語モデル) がどのようにテキストを生成するかを理解することは、これらのモデルがなぜこれほど多用途な認知エンジンであるのか、そして他に何を作成するのに役立つのかを理解することです。

トークンとベクトル化

まず、トークン化とベクトル化から始めましょう。この部分では、AIビッグモデルの最初のレイヤー、つまりAIビッグモデルが人間の言語をどのように理解するかを明らかにします。この部分の説明は、AI ビッグモデルの基本的な数学的観点を構築するのにも役立ちます。

人間の質問を理解して回答を出力するには、LLM はまず単語を人間が理解できる言語に翻訳する必要があります。

写真

まず、テキストブロックをトークンに分割します ——エンコードできる基本単位。トークンは通常、単語の断片を表しますが、完全な単語をトークンに変換します。

写真

仕事などの単語の意味を把握するために、LLMはまず大量のトレーニングデータを使用してその文脈を観察し、 邻近词。これらのデータセットはインターネット上で公開されているテキストに基づいており、新しい LLM は数十億の単語を使用してトレーニングされています。

写真

最終的には、トレーニングデータに正常に表示される単語 (例: 屋根) と、正常に表示されない単語 (例: 鳩)の膨大なセットが作成されます。

写真

モデルがこの単語のコーパスを処理すると、ベクトル（値のリスト）が生成され、各単語とトレーニングデータ内の単語の近さに基づいて調整されます。このベクトルは単語埋め込みと呼ばれます。

写真

単語埋め込みには数百の値を含めることができ、各値は単語の意味の異なる側面を表します。家をその特徴（タイプ、場所、寝室、浴室、階数）で説明するのと同じように、埋め込みの値は単語の言語的特徴を定量的に表すことができます。

写真

これらの特徴が導き出される方法により、各値が何を表しているかは正確にはわかりませんが、比較可能な方法で使用される単語は、類似した埋め込みを持つ傾向があると予想されます。
たとえば、 「sea」と「ocean」のような単語のペアは、まったく同じ文脈で使用されない可能性があります (「all at ocean」は「all at sea」の直接的な代用ではありません) が、意味は近いため、埋め込みによってこの近さを定量化できます。

写真

各埋め込みによって表される数百の値を 2 つに減らすことで、単語間の距離をより明確に確認できます。

写真

代名詞のクラスターや交通のパターンを発見できる可能性があり、語彙を定量的に表現できることがテキストを生成するモデルの最初のステップとなります。

写真

トランス

大規模モデルが人間の言語をどのように理解するかを理解した後、それは特別なことではなく、LLM によって実証された強力な機能と一致していないと感じるかもしれません。そうです、トークン化とベクトル化だけでは、LLM をそれほどスマートにすることはできません。次に、AI モデルの核心である Transformer に進みましょう。LLM が現在のようにスムーズに解析および書き込みできるのは、Transformer のおかげです。Transformer は、コンピューターが言語を理解する方法を根本的に高速化し、強化します。

トランスフォーマーモデルに関する研究は、2017 年 6 月に Google の 8 人の AI 研究者によって初めて発表されました。AI の新時代を開いたのは、よく知られている「Attention is All You Need」でした。Attention は、私が以下で焦点を当てる中核概念でもあります。上記の数学モデルに基づいて、LLM の基本的な概念的抽象化を構築できるように導きます。

Transformer アーキテクチャの重要な概念は自己注意です。これにより、LLM は単語間の関係を理解できるようになります。

写真

自己注意はテキスト内の各トークンを調べ、その意味を理解するために最も重要なトークンを決定します。

写真

トランスフォーマーが登場する前は、最先端の AI 翻訳アプローチは、文章を単語ごとにスキャンして順番に処理するリカレントニューラルネットワーク (RNN) でした。

写真

自己注意を通じて、トランスフォーマーは文内のすべての単語を同時に計算できます。このコンテキストをキャプチャすると、LLM はより洗練された言語処理機能を実現できます。

写真

この例では、文全体を一度に評価するということは、変換者が、 interest がここでは政治に対する人の見解を説明する名詞として使用されていることを理解できることを意味します。

写真

文章を調整すると...

写真

...モデルは、利息が財務的な意味で使用されていることを理解します。

写真

これらの文を組み合わせると、モデルは付随するテキストに注意を払うことで、各単語の正しい意味を識別することができます。

interestを初めて使うときは、主にnoとinに注目します。

写真

2回目は主に金利と銀行に注目します。

写真

この機能は高度なテキスト生成にとって非常に重要です。それがなければ、ある文脈では互換性があっても、他の文脈では互換性がない単語が誤って使用される可能性があります。

写真

実際には、自己注意とは、この文の要約が生成された場合に、金利について議論するときに「熱意」という言葉を使用しないことを意味します。

写真

この機能は、複数の意味を持つ「興味」などの単語をはるかに超えています。

写真

次の文では、自己注意はそれがおそらく犬を指していると計算できます。

写真

文を変更して、hungry を delicious に置き換えると、モデルは、これが bone を指す可能性が最も高いことを再計算できます。

写真

言語処理における自己注意の利点は、規模が大きくなるにつれて大きくなります。これにより、LLM は文の境界を超えてコンテキストを取得できるようになり、モデルは単語の使用方法をより深く理解できるようになります。

写真

法学修士

LLM の基本的な数学原理とモデル概念の抽象化を理解した後、ワクワクしてきましたか? 最後に、世界で最も先進的な大規模予測モデルが、このような多彩な AI アプリケーションの世界を構築するために何をしたかを見てみましょう。

ビッグモデルがビッグと呼ばれる理由は、そのトレーニングがインターネット全体の基本コーパスによってサポートされているからです。この巨大なコーパスから、モデルはパターンを認識し、最終的に次善の選択肢を予測することを学習します。次に、大きなモデルに向き合って、LLM がどのように知性を備えて出現し、最も人間に近い人工知能になるのかを明らかにします。

上記の Transformer モデルに基づいて、インターネットコーパスを処理した後、単語の意味、位置、単語間の関係など、機械が理解する入力を表す人間の言語のデータモデルを生成できます。

写真

上記の数学モデルに基づいて、最適なソリューションを見つける最も簡単な方法は、シーケンス内の次の単語を予測するというモデルの目標を設定し、出力が完了するまでこのプロセスを繰り返すことです。

写真

これを行うために、モデルは各トークンに確率スコアを与え、それがシーケンス内の次の単語である可能性を示します。

写真

結果のテキストに満足するまでこれを続けます。

写真

ただし、次の単語を単独で予測するこのアプローチ (「貪欲検索」と呼ばれる) では問題が発生します。各トークンは次善の選択肢となる可能性がありますが、フレーズ全体としてはあまり関連性がない可能性があります。
必ずしも間違っているわけではありませんが、期待通りではないかもしれません。

写真

Transformer はさまざまな方法を使用してこの問題に対処し、出力品質を向上させます。一例として、ビームサーチと呼ばれるものがあります。
シーケンス内の次の単語だけに焦点を当てるのではなく、より大きなトークンのセットの確率を考慮します。

写真

ビームサーチを通じて、モデルは複数のパスを考慮し、最適なオプションを見つけることができます。

写真

これにより、より良い結果が得られ、最終的にはより一貫性があり、より人間らしいテキストが作成されます。

写真

要約する

トランスフォーマーは、さまざまな最先端の AI アプリケーションの作成につながりました。 Bard や ChatGPT などのチャットボットの駆動に加え、モバイルキーボードのオートコンプリート機能やスマートスピーカーの音声認識も駆動します。

しかし、その本当の力は言語を超えたところにあります。発明者は、トランスフォーマーモデルが繰り返し現れるテーマやパターンを認識し、予測できることを発見しました。 Dall-E、Midjourney、Stable Diffusion などのツールを使用した画像内のピクセルから、 GitHub Copilot などのジェネレーターを使用したコンピューターコードまで。音楽の音符やタンパク質の DNA を予測して、薬物分子の設計に役立てることもできます。

何十年もの間、研究者たちは要約、翻訳、検索、取得を行うための専門モデルを構築してきました。トランスフォーマーはこれらのアクションを単一の構造に統合し、多種多様なタスクを実行できるようにします。

統一された言語モデルを通じて、画像、音楽、ビデオからのマルチモーダルアプリケーションが実現され、これはこれまでのすべての AI アプリケーションよりも強力です。これがこのストーリーの魔法の部分です。

参考リンク: [1] https://ig.ft.com/generative-ai/

<<: 自動テストの落とし穴は何ですか?どうすれば解決できるでしょうか?

>>: AI規制に関するマスク氏の見解：規制は面倒だが、審判がいるのは良いことだ