Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。

新しいプロジェクトが開始されるとすぐに、全員向けの新しい教育ビデオが公開されました。

今回は、 GPT Tokenizerの構築方法を段階的に説明します所要時間もおなじみのものです(合計 2 時間 13 分)

P.S. 私が最後に講義したのは2か月前で、大規模モデル科学についてでした。

諺にあるように、 「カパシが行動を起こすとき、それは傑作に違いない」。全員がすぐに次のように入力した。

今夜のデートはキャンセル。カパシが来て授業に行かないといけないから(犬の頭)

もう一度言いますが、これはお金を払っても買えないような質の高いコースです。ぜひ受講してください。

具体的な役立つ情報は何ですか?

皆様のために「長すぎて読めないバージョン」もご用意しました。

Tokenizer に注目する必要があるのはなぜですか?

偉大なる神が紹介されたように:

トークナイザーは、大規模な言語モデル パイプライン内の完全に独立したステージです。

独自のトレーニング セット、アルゴリズム(BPE、バイト ペア エンコーディングなど)があり、トレーニング後に次の 2 つの関数を実装します。
文字列からトークンにエンコードし、トークンから文字列にデコードします。

なぜそれを気にする必要があるのでしょうか?

カパシ氏は次のように指摘した。

LLM における多くの奇妙な動作や問題は、これに起因している可能性があるからです。

例えば:

  • 大規模なモデルでは、反転などの単純な文字列処理タスクを処理できないのはなぜですか?
  • 大規模モデルは英語以外の言語のタスクではパフォーマンスが低下するのはなぜですか?
  • 大規模モデルはなぜ単純な計算が苦手なのでしょうか?
  • 文字列「」を見た後、モデルが突然「クラッシュ」するのはなぜですか?
  • 大規模モデルが実際にはエンドツーエンドの言語モデリングではないのはなぜですか?

そこで、これらの問題を明らかにするために、今日の講座を開催します。ただし、マスター自身はこの部分の内容をあまり気に入っていません。

この授業を受ける皆さんは、授業を通して私の表情がとても真剣であることに気づくでしょう。ただし、細かい部分は非常に重要なので(ご容赦ください)

以下はビデオの主な内容のテキストバージョンです。

OpenAI ビッグモデルで使用されているトークナイザーをゼロから再構築する

ビデオの冒頭では、主にいくつかのトークナイザーを紹介しています。

これには、最も単純な文字レベルのセグメンテーション操作(つまり、各文字がトークン)と、より複雑で一般的に使用されるチャンクレベルの操作(つまり、複数の文字もトークンを形成する)が含まれます。

その中でも、業界で最も一般的に使用されているアルゴリズムは BPE、つまりバイトペアエンコーディングです。そのため、独自の単語セグメンテーションを構築する場合、最も重要なことはこのアルゴリズムを理解することです。

カパシの紹介:

BPE は英語以外の言語をより適切に処理し、語彙のサイズを調整できるため、モデルのパフォーマンスに大きな影響を与えます。

たとえば、GPT-4 トークナイザーは BPE アルゴリズムを改善し、複数のスペースを 1 つのトークンにマージできるため、シーケンスの長さが短縮され、モデルがより長くより多くのコードに集中できるようになるため、最終的には Python コードの処理がより効率的になります。

BPE アルゴリズムは UTF-8 でエンコードされたバイト シーケンスを処理できますが、これらのシーケンスを直接使用すると、語彙が大きくなりすぎ、シーケンスが長くなりすぎ、モデルの注意メカニズムとコンテキストの長さに影響するため、圧縮処理が必要になることに注意してください。

BPE アルゴリズムを理解した後、独自の単語セグメンターを構築するにはどうすればよいでしょうか?

簡単に言えば、主に次の手順が含まれます。

1.語彙を初期化する

UTF-8 でエンコードされたバイトに基づきます。

2. バイトペアをマージし、語彙サイズが事前設定された値に達するまで反復する

実際のデモンストレーションでは、Kapathy は 20 回のマージを通じてテキスト内のトークンの数を約 27% 削減しました。

3. 特殊文字や異なる言語の文字の扱い

4. 全体の最適化

語彙が大きすぎるとモデルのトレーニングが困難になる可能性があり、語彙が小さすぎると言語の詳細を十分に捉えられない可能性があります。

5. トレーニング用に豊富な言語機能を備えたデータセットを選択する

ここで、Kapasi 氏は、今日言及した BPE を含む複数の単語分割アルゴリズムをサポートする SentencePiece ライブラリについて言及しました。

これを使用して、構成オプションや珍しい文字の処理方法など、トークナイザーをトレーニングできます。

トレーニングされた単語セグメンターは、テキストのエンコードとデコードにも使用されます。

6. 最後のステップは、評価とモデルへの統合です。

もちろん、モデルのパフォーマンスに基づいて継続的に調整する必要があります。

各ステップについて、マスターは、最も頻繁なバイトペアを見つける方法、これらのペアをマージする方法、マージされた辞書を構築する方法など、詳細な Python 実装を提供しています。詳細については、ビデオを参照してください。

その中で、カパシは次のような詳細も思い出しました。

デコード処理中に無効な UTF-8 バイト シーケンスが発生した場合は、「errors='replace'」を使用してそれらを置き換えることができます。また、「テキストの終了」特殊マーカーを使用してトレーニング データ内のドキュメントを区切ることもできます。

実際はこれよりずっと複雑です

Kapasi が実装したものは、単語セグメンターの比較的基本的なバージョンであることは間違いありません。実際のモデルはこれよりもはるかに複雑です。

たとえば、OpenAI が公式に提供している BPE 単語セグメンターtiktokenなどです。

正規表現を使用してテキストを分割し、特定の種類の文字が結合されないようにします。 GPT-2 では、いくつかの面で優れたパフォーマンスを発揮します。

GPT-4に関しては、公式もいくつかの調整を加えました。

主な変更点は次のとおりです。

  1. GPT-4 はスペースを結合します。
  2. 大文字と小文字は区別されません。
  3. GPT-4 は最大 3 桁のみを結合し、長い数値シーケンス トークンを回避します。

しかし、当局は具体的な訓練内容を明らかにしていないため、その詳細な実施内容は知る由もない。

より複雑なアルゴリズムに加えて、トークナイザー自体も長い文字列、英語以外の言語、数字、特殊文字に関して問題が発生する可能性があります。

そのため、すべての話し合いが終わった後も、マスターはビデオの中で「単純な願い」を表明しました。

いつの日か、単語の分割を必要とせずにバイト ストリームを言語モデルに直接入力できるようになることを心から願っています。

ただし、これには Transformer アーキテクチャに大幅な変更を加える必要があるため、現段階では、単語セグメンターの構築と最適化が、効率的な大規模モデルを実現するための重要なステップとなります。

動画の全編は、 https://weibo.com/6105753431/O1BQB96Ygをご覧ください。

<<:  LIama2を運営して8400万元稼ごう!最速のAI推論チップのコスト見積もりが白熱した議論を巻き起こす

>>:  OpenAIの従業員が996の勤務スケジュールを公開、ネットユーザー「本当の競争は強制する必要はない」

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

小紅書探索チームが新たな枠組みを提案:大規模モデル蒸留のためのネガティブサンプルの価値を検証

大規模言語モデル (LLM) はさまざまな推論タスクで優れたパフォーマンスを発揮しますが、ブラックボ...

コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

過去 6 か月間で、ChatGPT によってもたらされた AI の人気は誰もが直感的に感じることがで...

...

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしま...

AIが生成した小説が静かに人気を集めている。人間ならではの創造性がAIにコピーされてしまったのだろうか?

[[408920]]編集部注:人工知能(AI)の発達により、人々は徐々に未来についてより多様な想像...

タイタンの爆発で5人の裕福な人が亡くなりました! AIが最後の恐ろしい瞬間を再現、設計上の欠陥の真実が明らかに

4日間行方不明になっていた深海潜水艇「タイタン」は、予期せぬ壊滅的な爆発事故に見舞われた。乗組員5人...

ジェネレーティブAIはソフトウェア開発に3つの幻想をもたらす:高速、高品質、そしてより少ない人員

著者 |張開峰ソフトウェア業界は長い間、コスト削減と効率性向上に取り組んできました。長期にわたる開発...

人工知能は本当に人間の仕事を置き換えるのでしょうか?

今年に入ってから、新型コロナウイルス感染症の継続的な感染拡大により世界的に景気が低迷し、多くの国や地...

マスク氏が突然ツイッター買収を希望、上場廃止に2700億ドルで入札。ツイッターとテスラの株価は下落

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データが「生産手段」となるとき、透かし技術を使ってAIトレーニングデータの著作権を保護する方法をまとめた3つの論文

1. はじめに - AI トレーニング データに透かしを追加する理由ディープ ニューラル ネットワー...

ビッグデータ、機械学習、人工知能の将来に影響を与える8つの要因

人工知能と機械学習、そして増え続けるデータ量は、現在のビジネスと社会の状況を変えています。これらの領...

デジタルヘルスのイノベーションを妨げる5つの主要な課題

現在、医療業界はこれまで以上に、コストの上昇を抑制し、アクセスを向上させ、人材不足による問題を緩和し...

...