Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。

新しいプロジェクトが開始されるとすぐに、全員向けの新しい教育ビデオが公開されました。

今回は、 GPT Tokenizerの構築方法を段階的に説明します所要時間もおなじみのものです(合計 2 時間 13 分)

P.S. 私が最後に講義したのは2か月前で、大規模モデル科学についてでした。

諺にあるように、 「カパシが行動を起こすとき、それは傑作に違いない」。全員がすぐに次のように入力した。

今夜のデートはキャンセル。カパシが来て授業に行かないといけないから(犬の頭)

もう一度言いますが、これはお金を払っても買えないような質の高いコースです。ぜひ受講してください。

具体的な役立つ情報は何ですか?

皆様のために「長すぎて読めないバージョン」もご用意しました。

Tokenizer に注目する必要があるのはなぜですか?

偉大なる神が紹介されたように:

トークナイザーは、大規模な言語モデル パイプライン内の完全に独立したステージです。

独自のトレーニング セット、アルゴリズム(BPE、バイト ペア エンコーディングなど)があり、トレーニング後に次の 2 つの関数を実装します。
文字列からトークンにエンコードし、トークンから文字列にデコードします。

なぜそれを気にする必要があるのでしょうか?

カパシ氏は次のように指摘した。

LLM における多くの奇妙な動作や問題は、これに起因している可能性があるからです。

例えば:

  • 大規模なモデルでは、反転などの単純な文字列処理タスクを処理できないのはなぜですか?
  • 大規模モデルは英語以外の言語のタスクではパフォーマンスが低下するのはなぜですか?
  • 大規模モデルはなぜ単純な計算が苦手なのでしょうか?
  • 文字列「」を見た後、モデルが突然「クラッシュ」するのはなぜですか?
  • 大規模モデルが実際にはエンドツーエンドの言語モデリングではないのはなぜですか?

そこで、これらの問題を明らかにするために、今日の講座を開催します。ただし、マスター自身はこの部分の内容をあまり気に入っていません。

この授業を受ける皆さんは、授業を通して私の表情がとても真剣であることに気づくでしょう。ただし、細かい部分は非常に重要なので(ご容赦ください)

以下はビデオの主な内容のテキストバージョンです。

OpenAI ビッグモデルで使用されているトークナイザーをゼロから再構築する

ビデオの冒頭では、主にいくつかのトークナイザーを紹介しています。

これには、最も単純な文字レベルのセグメンテーション操作(つまり、各文字がトークン)と、より複雑で一般的に使用されるチャンクレベルの操作(つまり、複数の文字もトークンを形成する)が含まれます。

その中でも、業界で最も一般的に使用されているアルゴリズムは BPE、つまりバイトペアエンコーディングです。そのため、独自の単語セグメンテーションを構築する場合、最も重要なことはこのアルゴリズムを理解することです。

カパシの紹介:

BPE は英語以外の言語をより適切に処理し、語彙のサイズを調整できるため、モデルのパフォーマンスに大きな影響を与えます。

たとえば、GPT-4 トークナイザーは BPE アルゴリズムを改善し、複数のスペースを 1 つのトークンにマージできるため、シーケンスの長さが短縮され、モデルがより長くより多くのコードに集中できるようになるため、最終的には Python コードの処理がより効率的になります。

BPE アルゴリズムは UTF-8 でエンコードされたバイト シーケンスを処理できますが、これらのシーケンスを直接使用すると、語彙が大きくなりすぎ、シーケンスが長くなりすぎ、モデルの注意メカニズムとコンテキストの長さに影響するため、圧縮処理が必要になることに注意してください。

BPE アルゴリズムを理解した後、独自の単語セグメンターを構築するにはどうすればよいでしょうか?

簡単に言えば、主に次の手順が含まれます。

1.語彙を初期化する

UTF-8 でエンコードされたバイトに基づきます。

2. バイトペアをマージし、語彙サイズが事前設定された値に達するまで反復する

実際のデモンストレーションでは、Kapathy は 20 回のマージを通じてテキスト内のトークンの数を約 27% 削減しました。

3. 特殊文字や異なる言語の文字の扱い

4. 全体の最適化

語彙が大きすぎるとモデルのトレーニングが困難になる可能性があり、語彙が小さすぎると言語の詳細を十分に捉えられない可能性があります。

5. トレーニング用に豊富な言語機能を備えたデータセットを選択する

ここで、Kapasi 氏は、今日言及した BPE を含む複数の単語分割アルゴリズムをサポートする SentencePiece ライブラリについて言及しました。

これを使用して、構成オプションや珍しい文字の処理方法など、トークナイザーをトレーニングできます。

トレーニングされた単語セグメンターは、テキストのエンコードとデコードにも使用されます。

6. 最後のステップは、評価とモデルへの統合です。

もちろん、モデルのパフォーマンスに基づいて継続的に調整する必要があります。

各ステップについて、マスターは、最も頻繁なバイトペアを見つける方法、これらのペアをマージする方法、マージされた辞書を構築する方法など、詳細な Python 実装を提供しています。詳細については、ビデオを参照してください。

その中で、カパシは次のような詳細も思い出しました。

デコード処理中に無効な UTF-8 バイト シーケンスが発生した場合は、「errors='replace'」を使用してそれらを置き換えることができます。また、「テキストの終了」特殊マーカーを使用してトレーニング データ内のドキュメントを区切ることもできます。

実際はこれよりずっと複雑です

Kapasi が実装したものは、単語セグメンターの比較的基本的なバージョンであることは間違いありません。実際のモデルはこれよりもはるかに複雑です。

たとえば、OpenAI が公式に提供している BPE 単語セグメンターtiktokenなどです。

正規表現を使用してテキストを分割し、特定の種類の文字が結合されないようにします。 GPT-2 では、いくつかの面で優れたパフォーマンスを発揮します。

GPT-4に関しては、公式もいくつかの調整を加えました。

主な変更点は次のとおりです。

  1. GPT-4 はスペースを結合します。
  2. 大文字と小文字は区別されません。
  3. GPT-4 は最大 3 桁のみを結合し、長い数値シーケンス トークンを回避します。

しかし、当局は具体的な訓練内容を明らかにしていないため、その詳細な実施内容は知る由もない。

より複雑なアルゴリズムに加えて、トークナイザー自体も長い文字列、英語以外の言語、数字、特殊文字に関して問題が発生する可能性があります。

そのため、すべての話し合いが終わった後も、マスターはビデオの中で「単純な願い」を表明しました。

いつの日か、単語の分割を必要とせずにバイト ストリームを言語モデルに直接入力できるようになることを心から願っています。

ただし、これには Transformer アーキテクチャに大幅な変更を加える必要があるため、現段階では、単語セグメンターの構築と最適化が、効率的な大規模モデルを実現するための重要なステップとなります。

動画の全編は、 https://weibo.com/6105753431/O1BQB96Ygをご覧ください。

<<:  LIama2を運営して8400万元稼ごう!最速のAI推論チップのコスト見積もりが白熱した議論を巻き起こす

>>:  OpenAIの従業員が996の勤務スケジュールを公開、ネットユーザー「本当の競争は強制する必要はない」

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

家庭では人工知能がどのように活用されているのでしょうか?

人工知能(AI)は現在、私たちの家族構造にますます統合されています。さらに、快適性、利便性、安全性、...

...

ChatGPTネットワーキング機能が正式に開始され、Plusメンバーが利用可能になりました

10月19日、チャットボットChatGPTはリリース以来、インターネットにアクセスできず、2021年...

...

人工知能によりデータセンターのコストと制御ニーズが増加

人工知能 (AI) はコンピューティングとデータ分析の世界を変えています。機械学習、自然言語処理、コ...

百度言語知識技術サミットが開催され、王海鋒氏がNLP技術の進化の道筋を明らかにした

AIはより深いレベルへと進化しており、言語や知識技術の重要性がますます高まっています。 8月25日、...

モデルの過剰適合を防ぐにはどうすればよいですか?この記事では6つの重要な方法を紹介します

バフェット氏は「正確に間違っているよりも、おおよそ正しい方が良い」と述べています。機械学習では、過剰...

...

...

Gemini 1.5 ハンズオンレビュー: Sora は偽物に見えるが、もっと素晴らしい機能がある

Googleの「反撃」が来た!ジェミニはソラに脚光を奪われましたが、今は再び脚光を浴びているようです...

2021 年の人工知能、データ サイエンス、機械学習のトレンドの概要

人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...

...

ワイツマンとNVIDIAは、自然言語を使って写真を編集できるText2LIVEを共同でリリースした。

Photoshop のようなソフトウェアを使用することは、創造的な作業とみなされますか、それとも反...

人工知能やモノのインターネットなどの技術は、気候変動のリスクを軽減する上で大きな役割を果たすことができる。

人工知能は、既存の技術と組織活動の効率を向上させることを目的としています。しかし、気候変動や、グリー...

ファイザーはAIとスーパーコンピューターを活用してコロナウイルスのワクチンと薬を設計している

ファイザーの最高デジタル・技術責任者リディア・フォンセカ氏は、機械学習技術は医薬品の発見、臨床試験、...