OpenAIでの混乱はひとまず終息し、社員たちは忙しく「仕事」をしている。 今年初めに OpenAI に復帰した Andrej Karpathy 氏は最近、大規模言語モデル (LLM) に関する 30 分間の入門講義を行ったが、その講義は当時は録画されていなかった。そこで彼は、もっと多くの人が見て学べるよう、この講義に基づいた1時間のビデオを再録画した。 ビデオのテーマは「大規模言語モデルの概要」で、LLM の推論、トレーニング、微調整、そして新しい LLM オペレーティング システムと LLM セキュリティについて取り上げています。このビデオは主に「非技術的」で、より一般的な科学である傾向があるため、理解しやすいです。 さらに詳しい内容を知りたい場合は、元の動画をご覧ください。 カルパシー氏が何を話したか見てみましょう。ビデオは主に、LLM、LLM の将来、LLM の安全性の 3 つの部分に分かれています。 最初の部分では、Karpathy 氏がまず LLM の基礎知識を紹介し、Meta がリリースしたオープンソースの大型モデル Llama 2-70b を例に挙げました。このモデルには 700 億個のパラメータがあり、主にパラメータ ファイル (ファイル サイズは 140 GB) とこれらのパラメータを実行するコード (C 言語を例にとると、約 500 行のコードが必要) の 2 つのファイルで構成されています。 そのため、LLM の推論段階で、Karpathy 氏は、これら 2 つのファイルと MacBook だけで、インターネット接続やその他の設備を必要とせずにスタンドアロン システムを構築できると述べました。ここで彼は、70 億のパラメータを持つ大規模なモデルを実行する例を示しています。 LLM トレーニングは推論よりもはるかに複雑です。 Karpathy 氏は、モデル推論は MacBook でも実行できるが、モデルのトレーニング プロセスには膨大な計算量がかかる、と述べた。したがって、インターネット コンテンツを圧縮する必要があります。彼は Llama 2-70b を例に挙げ、モデルのトレーニングにはインターネットから約 10 TB のテキストをクロールする必要があり、約 12 日間のトレーニングに約 6,000 個の GPU が必要で、コストは 200 万ドル、パラメータ ファイルのサイズは約 140 GB であることを説明しました。 明らかに、Llama 2-70b は最大ではありません。ChatGPT、Claude、Bard をトレーニングすると、これらの数値は 10 倍以上に増加し、コストは数千万ドル、さらには数億ドルにまで高くなる可能性があります。 ただし、これらのパラメータを取得すれば、ニューラル ネットワークの実行にかかる計算コストは比較的低くなります。 Karpathy 氏は、ニューラル ネットワークとは何か、その基本的なタスクはシーケンス内の次の単語を予測することであると説明します。彼はトレーニング プロセスをインターネットの一種の圧縮と見なしており、次の単語を正確に予測できれば、それを使ってデータセットを圧縮できると考えています。 ニューラルネットワークはどのようにして次の単語を予測するのでしょうか? Karpathy 氏は、次の Transformer ニューラル ネットワーク アーキテクチャ図に示すように、1,000 億個のパラメーターがニューラル ネットワーク全体に分散されていると紹介しました。これには、ネットワーク全体が次の単語を予測するタスクをより適切に実行できるように、これらのパラメータを繰り返し調整する必要があります。 上記は事前トレーニングと呼ばれるトレーニングの最初の段階ですが、実際のアシスタント モデルをトレーニングするには明らかに不十分です。これは微調整の段階です。事前トレーニング段階では、インターネットからの大量のテキスト データが必要になりますが、その品質は必ずしも高くない可能性があります。ただし、微調整段階では、データの量ではなく質に重点が置かれます。たとえば、非常に高品質の会話ドキュメントが必要になります。 Karpathy は、独自の ChatGPT をトレーニングする方法をまとめています。事前トレーニング段階では基本モデルを取得し、微調整段階ではラベル指示の作成、高品質の QA 応答の収集を行う人材の雇用、基本モデルのさらなる微調整、多数の評価の実施、および展開が必要になります。 パート 2 では、LLM スケーリング ルール、ツールの使用、マルチモダリティ、思考とシステム 1/2、自己改善と LLM AlphaGo、LLM カスタマイズ、GPT ストア、LLM オペレーティング システムなど、LLM の将来について説明します。 いわゆる LLM スケーリング則とは、LLM のパフォーマンスが、ネットワーク内のパラメータ数 (N) とトレーニングするテキストの量 (D) という 2 つの変数の非常にスムーズで、動作が適切で、予測可能な関数として表現できることを意味します。これら 2 つの変数をスケーリングすることで、次の単語予測タスクの精度を予測できます。 使用されたツールについては、Karpathy 氏はブラウザ、計算機、インタープリタ、DALL-E を挙げました。ここではOpenAIが開発したテキストグラフツールであるDALL-Eに焦点を当てたいと思います。現在、最新バージョンのDALL-E 3がChatGPTに統合されており、自然言語の説明を入力して画像を生成できます。 マルチモダリティは、視覚、音声などの分野でも近年注目されています。視野内では、大型モデルは画像を生成するだけでなく、画像を見ることもできます。カルパシー氏は、OpenAIの共同設立者グレッグ・ブロックマン氏がMyJokeのウェブサイトから小さな手書き画像をChatGPTに見せたデモンストレーションを例に挙げた。その結果、ChatGPT は画像を理解し、MyJoke Web サイトを作成しました。このウェブサイトにアクセスしてジョークを見ることができます。 LLM の将来の発展について話すとき、カルパシー氏はシステム 1 とシステム 2 の思考パターンについて言及しました。システム 1 は高速で本能的、自動的な思考プロセスであり、システム 2 は意識的で思慮深い思考プロセスです。現在、人々は、システム 2 に似た思考能力をさらに LLM に導入することを望んでいます。さらに、LLMの自己啓発も注目すべき重要な課題の一つです。 最近、LLM のカスタマイズが話題になっています。 OpenAI の CEO である Sam Altman 氏が Developer Day で発表した GPT ストアは、モデルのカスタマイズに向けた第一歩です。ユーザーは独自の GPT を作成し、ニーズに合わせてカスタマイズしたり、知識を追加したりできます。将来的には、LLM を微調整してカスタマイズする可能性が高まっています。 LLM オペレーティング システムは、現在の従来のオペレーティング システムと多くの類似点があります。今後数年間で、LLM はテキストの読み取りと生成が可能になり、誰よりも多くの知識を持ち、インターネットを閲覧し、既存のソフトウェア インフラストラクチャを使用し、画像やビデオの表示と生成、音楽の聴取、制作と作曲、システム 2 を使用して深く考える能力、自己改善能力、独自のタスクに合わせて微調整とカスタマイズなどが可能になります。 3番目の部分はLLMセキュリティです。カルパシー氏は、ジェイルブレイク、プロンプトインジェクション、データポイズニングまたはバックドア攻撃という3つの攻撃方法について語った。 |
>>: Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた
現在の半導体サプライチェーンのボトルネックの根本的な原因は何年も前から潜んでいたが、COVID-19...
人工知能 (AI) とモノのインターネット (IoT) の技術トレンドが融合し始めており、業界ではこ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10...
最近、インターネット企業における「人員最適化」問題が友人の間で話題になっており、多くの人がパニックに...
[51CTO.com クイック翻訳] ディープラーニングは確かに多くの印象的な成功事例をもたらしま...
序文GitHub Hot Trends Vol.046では、HGがMicrosoftのオープンソース...
2024年にはAIの発展はどのように変化するのでしょうか?アンドリュー・ン氏は最新の手紙の中で、今後...
1分で新しいGPTが誕生!わずか1週間で、さまざまなカスタマイズされたGPTが世界中で爆発的に増加し...
PageRank アルゴリズムは、Google のランキング アルゴリズム (ランキング式) の一部...
Pew Researchの分析によると、AI、特にAIGCの台頭は管理職や専門職に大きな影響を与える...
現在、アクセス制御にはより高度な技術と新しいアプリケーション市場があります。アクセス制御システムで現...