Google VideoPoet の責任者 Jiang Lu が TikTok に参入しました! AIビデオモデル戦争が迫る

Google VideoPoet の責任者 Jiang Lu が TikTok に参入しました! AIビデオモデル戦争が迫る

OpenAIを去った技術の第一人者、カルパシー氏はついにオンラインで2時間のAI講座を開始した。

——「GPT Tokenizer を構築しましょう。」

写真

実際、Karpathy 氏は、新しいコースが開始される 2 日前に、更新された GitHub プロジェクトでこれをすでに発表していました。

写真

このプロジェクトは minbpe です。LLM 単語分割で一般的に使用される BPE (バイト ペア エンコーディング) アルゴリズム用の最小限でクリーンな教育用コードを作成することに専念しています。

現在、GitHub には 6.1k のスターと 442 のフォークがあります。

写真

プロジェクトアドレス: https://github.com/karpathy/minbpe

ネットユーザー:2時間の講座の価値は大学4年間の勉強に相当

カルパシーの新コースのリリースは、依然として業界の多くの学者の注目を集めていると言わざるを得ません。

彼は、非常に複雑な LLM の概念を常に非常にわかりやすい方法で説明することができます。

写真

ネットユーザーの中には、夕方のデートをキャンセルして授業に行く人もいた。

写真

カルパシーとのデートの夜。

写真

AI機械学習研究者のセバスチャン・ラシュカ氏は、「ゼロからの実装が気に入っており、ビデオを見るのが本当に楽しみです!」と語った。

写真

Nvidiaの上級科学者ジム・ファン氏は、「アンドレイの脳は、複雑なものを私たちの小さな思考言語モデルが理解できる単純なトークンにトークン化できる大きなモデルです。」と述べています。

写真

UCSC の助教授である Xin Eric Wang 氏も、「個人的には、彼が何年も前に公開した RL に関する記事 http://karpathy.github.io/2016/05/31/rl/ にとても感謝しています。この記事は、私が RL の分野に入るきっかけとなりました」と述べています。

写真

この 2 時間のコースの価値は 4 年間の大学の学位に匹敵すると言う人もいます。

写真

「アンドレイは最高のAI教師です。」

写真

なぜトークナイザーなのか?

なぜ単語の分割について話すのでしょうか?セグメンターという言葉がなぜそれほど重要なのでしょうか?

karpathy が言ったように、トークナイザーは大規模なモデル パイプライン内の完全に独立したステージです。

独自のトレーニング セット、アルゴリズム (バイト ペア エンコード BPE) があり、トレーニング後に文字列からトークンへのエンコードとトークンから文字列へのデコードという 2 つの機能を実装します。

写真

さらに、大規模なモデルにおける多くの奇妙な動作や問題は、実際にはトークナイザーに起因している可能性があります。

例えば:

- LLM はなぜ単語を綴ることができないのですか?

- LLM は、文字列の反転などの非常に単純な文字列処理タスクを実行できないのはなぜですか?

- LLM はなぜ英語以外の言語のタスクが苦手なのでしょうか?

- なぜLLMは簡単な算数が苦手なのでしょうか?

- GPT-2 が Python でコーディングするときに必要以上に問題が発生するのはなぜですか?

- LLM が文字列 <lendoftextl> を検出すると突然停止するのはなぜですか?

- 大規模モデルが実際にはエンドツーエンドの言語モデリングではない理由

......

写真

ビデオの中で彼はこれらの問題の多くについて議論しています。トークナイザーが間違っている理由と、この段階を完全に削除する方法を見つけることが理想的である理由について説明します。

2時間の授業が始まる

この講演では、OpenAI GPT シリーズで使用される Tokenizer をゼロから構築します。

YouTubeコースの章紹介によると、全部で20以上のパートがあるそうです。

これには、紹介、バイト ペア エンコーディング (BPE) アルゴリズムのウォークスルー、トークナイザー/LLM ダイアグラム (これは完全に別のステージです)、および minbpe の練習時間が含まれます。独自の GPT-4 トークナイザーなどを作成します。

コース全体は説明から演習まで始まります。

写真

以下はスピーチから要約したいくつかの重要なポイントです。

ビデオの最後で、Karpathy 氏は LLM トークナイザーで発生する奇妙な問題について再度説明します。

まず、なぜ LLM は単語を正しく綴ったり、その他のスペル関連のタスクを実行したりできないのでしょうか?

基本的に、これは文字がトークンに分割されており、これらのトークンの一部が実際にはかなり長いためです。

写真

したがって、この単一のトークンに詰め込まれた文字が多すぎると思われ、このモデルは、この単一のトークンのスペルに関連するタスクにはあまり適していないのではないかと思われます。

もちろん、私のヒントは意図的にこのように行われました。デフォルトのスタイルは単一のトークンになることがわかります。これがモデルが認識するものです。

実際、トークナイザーは文字がいくつあるか知りません。

写真

では、なぜ大規模なモデルは英語以外のタスクではパフォーマンスが低下するのでしょうか?

これは、LLM がモデル パラメータをトレーニングするときに英語以外のデータが少なくなるだけでなく、トークナイザーが英語以外のデータで完全にトレーニングされていないことも原因です。

たとえば、ここでは「hello how are you」は 5 トークンですが、その翻訳は 15 トークンで、元の 3 倍になります。

写真

「안녕하세요」は韓国語で「こんにちは」を意味しますが、結局のところトークンは3つしかありません。

実は、これは非常に一般的なフレーズで、hello のような典型的な挨拶ですが、最終的には 3 つのトークンになるため、少し驚いています。

そして、英語の「hello」は単一のトークンです。 LLM が英語以外のタスクでパフォーマンスが低いと考える理由の 1 つは、単語セグメンターです。

さらに、LLM が単純な計算でつまずく理由も、デジタル トークンに関係しています。

たとえば、文字レベルのアルゴリズムを使用して加算を実行する場合、最初に 1 の位を加算し、次に 10 の位を加算し、最後に 100 の位を加算します。

写真

これらの数字の特定の部分を参照する必要がありますが、これらの数字の表現は完全に恣意的であり、主に単語分割プロセス中にどのような結合が発生したか、または発生しなかったかに基づいています。

1 つのトークンなのか、2 つのトークンの組み合わせなのか (1-3、2-2、3-1 など) を確認できます。

したがって、異なる数字はすべて異なる組み合わせになります。

写真

残念ながら、4 桁の数字すべてを含むトークンが 4 つ表示されることもあれば、3 桁、2 桁、1 桁の数字が含まれるトークンがランダムなパターンで表示されることもあります。

しかし、これも理想的ではありません。

そのため、たとえば、Llama 2 アルゴリズムをトレーニングするときに、著者が文の断片を使用する場合、Llama 2 の例として、すべての数字をセグメント化するようにしています。これは、単純な算術演算のパフォーマンスを向上させるためでもあります。

最後に、GPT-2 が Python でパフォーマンスが低い理由の 1 つは、アーキテクチャ、データセット、およびモデルの強度に関するモデリングの問題です。

しかし、問題の一部はトークナイザーでもあり、これは単純な Python の例でわかるように、トークナイザーはスペースを非常に不適切に処理します。

各スペースは個別のトークンであるため、モデルがクロスオーバーを処理できるコンテキストの長さが大幅に短縮されます。そのため、これは GPT-2 の単語分割におけるほぼ間違いであり、後に GPT-4 で修正されました。

写真

宿題

カルパシー氏はコースの下部で、ネット上のユーザーに宿題の課題も出していた。

写真

ぜひチェックインしてください。

参考文献:

https://twitter.com/karpathy/status/1759996549109776702?t=lnj52VquAiuW4oG8yflJbA&s=19

<<:  オープンソースの大規模モデルの王座が交代しました! Google Gemmaが市場に参入、ノートパソコンは動作可能でビジネスにも使用可能

>>:  OpenAI Soraについて知っておくべきこと

ブログ    
ブログ    
ブログ    

推薦する

AIGC に向けてビジネスを準備するために CIO が尋ねるべき 8 つの質問

企業は現在、AIGC の可能性を活かすためにデータ、人材、プロセスを準備することが今後の課題であると...

ボストンダイナミクス「人間と犬のダンス」:PK韓国ボーイズバンド、ロボットダンスの神グループが登場

[[408381]]ロボット犬とボーイズバンドが一緒に「ダンス」すると、どんな火花が散るのでしょうか...

AgentGPT: ブラウザ上の自律型 AI エージェント

翻訳者 |ブガッティレビュー | Chonglou AgentGPT Web は、ユーザーがカスタマ...

...

医療における会話型 AI の 5 つの応用

パンデミックの影響で、医療業界は世界中で医師、看護師、その他の医療スタッフの深刻な不足に直面していま...

世界最強のモデル クロード3号が物理・化学を覆す!博士課程の1年間の実験の結果が2時間で解読され、ネットユーザーは「科学的研究はもう存在しない」と叫んだ。

クロード3号は今も奇跡を起こし続けています。公開からわずか数日後、ますます多くの博士号取得者が、未発...

オープンワールドでテストセグメントトレーニングを実行するにはどうすればいいですか?動的プロトタイプ拡張に基づく自己トレーニング法

モデルの一般化能力を向上させることは、視覚ベースの認識方法の実装を促進するための重要な基盤です。テス...

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。彼はこう質問...

機密コンピューティングが生成型AIの導入を確実にする方法

生成 AI は、新しい製品、ビジネス、業界、さらには新しい経済に情報を提供することができます。しかし...

AIと自動化によるセキュリティの向上

2020年に突如発生した新型コロナウイルス感染症のパンデミックにより多くの従業員が自宅待機を余儀なく...

AF2を超える? Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最...

AIの目に見えないマント:このパーカーを着ると監視アルゴリズムがあなたに目をつぶる

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

テキストマイニングからの分類、クラスタリング、情報抽出などのアルゴリズムのレビュー

テキストマイニングは、推奨システム、検索システム、その他の広範なアプリケーションなど、テキストマイニ...

天猫双11:機械​​知能が上昇、ロボット1台は実在の人間70万人に相当

「機械に人間から学ばせてはいけない。機械には独自の方法と手段がなければならない。」 「機械に独自の知...

表の数学的推論の正解率は98.78%です! UCLA が新しい「カメレオン推論フレームワーク」を発表

自然言語処理タスクで目覚ましい成功を収めた大規模言語モデル (LLM) は、優れたパフォーマンスを示...