Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。

新しいプロジェクトが開始されるとすぐに、全員向けの新しい教育ビデオが公開されました。

今回は、 GPT Tokenizerの構築方法を段階的に説明します。所要時間もおなじみのものです(合計 2 時間 13 分) 。

P.S. 私が最後に講義したのは2か月前で、大規模モデル科学についてでした。

諺にあるように、 「カパシが行動を起こすとき、それは傑作に違いない」。全員がすぐに次のように入力した。

今夜のデートはキャンセル。カパシが来て授業に行かないといけないから（犬の頭）

もう一度言いますが、これはお金を払っても買えないような質の高いコースです。ぜひ受講してください。

具体的な役立つ情報は何ですか?

皆様のために「長すぎて読めないバージョン」もご用意しました。

Tokenizer に注目する必要があるのはなぜですか?

偉大なる神が紹介されたように:

トークナイザーは、大規模な言語モデルパイプライン内の完全に独立したステージです。

独自のトレーニングセット、アルゴリズム(BPE、バイトペアエンコーディングなど)があり、トレーニング後に次の 2 つの関数を実装します。
文字列からトークンにエンコードし、トークンから文字列にデコードします。

なぜそれを気にする必要があるのでしょうか?

カパシ氏は次のように指摘した。

LLM における多くの奇妙な動作や問題は、これに起因している可能性があるからです。

例えば：

大規模なモデルでは、反転などの単純な文字列処理タスクを処理できないのはなぜですか?
大規模モデルは英語以外の言語のタスクではパフォーマンスが低下するのはなぜですか?
大規模モデルはなぜ単純な計算が苦手なのでしょうか?
文字列「」を見た後、モデルが突然「クラッシュ」するのはなぜですか?
大規模モデルが実際にはエンドツーエンドの言語モデリングではないのはなぜですか?
…

そこで、これらの問題を明らかにするために、今日の講座を開催します。ただし、マスター自身はこの部分の内容をあまり気に入っていません。

この授業を受ける皆さんは、授業を通して私の表情がとても真剣であることに気づくでしょう。ただし、細かい部分は非常に重要なので（ご容赦ください）。

以下はビデオの主な内容のテキストバージョンです。

OpenAI ビッグモデルで使用されているトークナイザーをゼロから再構築する

ビデオの冒頭では、主にいくつかのトークナイザーを紹介しています。

これには、最も単純な文字レベルのセグメンテーション操作(つまり、各文字がトークン)と、より複雑で一般的に使用されるチャンクレベルの操作(つまり、複数の文字もトークンを形成する)が含まれます。

その中でも、業界で最も一般的に使用されているアルゴリズムは BPE、つまりバイトペアエンコーディングです。そのため、独自の単語セグメンテーションを構築する場合、最も重要なことはこのアルゴリズムを理解することです。

カパシの紹介:

BPE は英語以外の言語をより適切に処理し、語彙のサイズを調整できるため、モデルのパフォーマンスに大きな影響を与えます。

たとえば、GPT-4 トークナイザーは BPE アルゴリズムを改善し、複数のスペースを 1 つのトークンにマージできるため、シーケンスの長さが短縮され、モデルがより長くより多くのコードに集中できるようになるため、最終的には Python コードの処理がより効率的になります。

BPE アルゴリズムは UTF-8 でエンコードされたバイトシーケンスを処理できますが、これらのシーケンスを直接使用すると、語彙が大きくなりすぎ、シーケンスが長くなりすぎ、モデルの注意メカニズムとコンテキストの長さに影響するため、圧縮処理が必要になることに注意してください。

BPE アルゴリズムを理解した後、独自の単語セグメンターを構築するにはどうすればよいでしょうか?

簡単に言えば、主に次の手順が含まれます。

1.語彙を初期化する

UTF-8 でエンコードされたバイトに基づきます。

2. バイトペアをマージし、語彙サイズが事前設定された値に達するまで反復する

実際のデモンストレーションでは、Kapathy は 20 回のマージを通じてテキスト内のトークンの数を約 27% 削減しました。

3. 特殊文字や異なる言語の文字の扱い

4. 全体の最適化

語彙が大きすぎるとモデルのトレーニングが困難になる可能性があり、語彙が小さすぎると言語の詳細を十分に捉えられない可能性があります。

5. トレーニング用に豊富な言語機能を備えたデータセットを選択する

ここで、Kapasi 氏は、今日言及した BPE を含む複数の単語分割アルゴリズムをサポートする SentencePiece ライブラリについて言及しました。

これを使用して、構成オプションや珍しい文字の処理方法など、トークナイザーをトレーニングできます。

トレーニングされた単語セグメンターは、テキストのエンコードとデコードにも使用されます。

6. 最後のステップは、評価とモデルへの統合です。

もちろん、モデルのパフォーマンスに基づいて継続的に調整する必要があります。

各ステップについて、マスターは、最も頻繁なバイトペアを見つける方法、これらのペアをマージする方法、マージされた辞書を構築する方法など、詳細な Python 実装を提供しています。詳細については、ビデオを参照してください。

その中で、カパシは次のような詳細も思い出しました。

デコード処理中に無効な UTF-8 バイトシーケンスが発生した場合は、「errors='replace'」を使用してそれらを置き換えることができます。また、「テキストの終了」特殊マーカーを使用してトレーニングデータ内のドキュメントを区切ることもできます。

実際はこれよりずっと複雑です

Kapasi が実装したものは、単語セグメンターの比較的基本的なバージョンであることは間違いありません。実際のモデルはこれよりもはるかに複雑です。

たとえば、OpenAI が公式に提供している BPE 単語セグメンターtiktokenなどです。

正規表現を使用してテキストを分割し、特定の種類の文字が結合されないようにします。 GPT-2 では、いくつかの面で優れたパフォーマンスを発揮します。

GPT-4に関しては、公式もいくつかの調整を加えました。

主な変更点は次のとおりです。

GPT-4 はスペースを結合します。
大文字と小文字は区別されません。
GPT-4 は最大 3 桁のみを結合し、長い数値シーケンストークンを回避します。

しかし、当局は具体的な訓練内容を明らかにしていないため、その詳細な実施内容は知る由もない。

より複雑なアルゴリズムに加えて、トークナイザー自体も長い文字列、英語以外の言語、数字、特殊文字に関して問題が発生する可能性があります。

そのため、すべての話し合いが終わった後も、マスターはビデオの中で「単純な願い」を表明しました。

いつの日か、単語の分割を必要とせずにバイトストリームを言語モデルに直接入力できるようになることを心から願っています。

ただし、これには Transformer アーキテクチャに大幅な変更を加える必要があるため、現段階では、単語セグメンターの構築と最適化が、効率的な大規模モデルを実現するための重要なステップとなります。

動画の全編は、 https://weibo.com/6105753431/O1BQB96Ygをご覧ください。

<<: LIama2を運営して8400万元稼ごう！最速のAI推論チップのコスト見積もりが白熱した議論を巻き起こす

>>: OpenAIの従業員が996の勤務スケジュールを公開、ネットユーザー「本当の競争は強制する必要はない」

ブログ

「オープン性、透明性、倫理」という目標を達成するために、AIアルゴリズムが政府の規制を策定するために使用される。

ブログ

これらの 9 つの仕事が人工知能に置き換えられない理由

ブログ

Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

Tokenizer に注目する必要があるのはなぜですか?

OpenAI ビッグモデルで使用されているトークナイザーをゼロから再構築する

実際はこれよりずっと複雑です

デジタル農村開発が加速、AI、5G、IoTなどがチャンスをもたらす

ByteDanceが大規模モデルトレーニングフレームワークveGiantModelをオープンソース化、パフォーマンスが最大6.9倍向上

AI後の生活

GPT-4.5がリーク、3Dビデオをサポート、価格は6倍に上昇？ウルトラマンが自ら反応

「オープン性、透明性、倫理」という目標を達成するために、AIアルゴリズムが政府の規制を策定するために使用される。

これらの 9 つの仕事が人工知能に置き換えられない理由

推薦する

家庭では人工知能がどのように活用されているのでしょうか?

ChatGPTネットワーキング機能が正式に開始され、Plusメンバーが利用可能になりました

人工知能によりデータセンターのコストと制御ニーズが増加

百度言語知識技術サミットが開催され、王海鋒氏がNLP技術の進化の道筋を明らかにした

モデルの過剰適合を防ぐにはどうすればよいですか?この記事では6つの重要な方法を紹介します

Gemini 1.5 ハンズオンレビュー: Sora は偽物に見えるが、もっと素晴らしい機能がある

2021 年の人工知能、データサイエンス、機械学習のトレンドの概要

ワイツマンとNVIDIAは、自然言語を使って写真を編集できるText2LIVEを共同でリリースした。

人工知能やモノのインターネットなどの技術は、気候変動のリスクを軽減する上で大きな役割を果たすことができる。

ファイザーはAIとスーパーコンピューターを活用してコロナウイルスのワクチンと薬を設計している