「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。

今回、彼は特に一般の人々向けに、大規模言語モデルに関する科学普及ビデオを制作しました。

所要時間は 1 時間で、すべて「非技術的な入門」であり、モデルの推論、トレーニング、微調整、新しい大規模モデル オペレーティング システム、セキュリティの課題などをカバーしています。関連する知識はすべて今月までのものです(非常に新しい)

ビデオカバーはAndrejがDall·3を使用して描きました

この動画はYouTubeでたった1日で20万回再生された。

一部のネットユーザーはこう言った。

10 分ほど視聴しただけで、すでに多くのことを学びました。ビデオのような例を使って LLM が説明されているのをこれまで見たことがなく、また、これまで見てきた多くの「紛らわしい」概念が明確になりました。

コースの質の高さを称賛するだけでなく、Andrej 自身が複雑な問題を単純化するのが本当に上手で、彼の教え方は常に印象的だとコメントする人も多かったです。

それだけでなく、このビデオは彼の職業に対する愛情を十分に反映しているとも言えます。

さて、アンドレイ自身によると、ビデオは感謝祭の休暇中に撮影され、背景は彼のリゾートホテル(犬の頭)だそうです。

このビデオを作った当初の目的は、彼が最近人工知能セキュリティサミットでスピーチをしたことでした。スピーチは録画されていませんでしたが、多くの視聴者がその内容を気に入ったと言っていました。

そこで彼は、少しだけ調整を加えて、もう一度物語を語り、より多くの人が視聴できるようにビデオに仕上げました。

それで、具体的にはどのようなことですか?

一つずつ皆さんに紹介していきましょう。

パート1: 大きなモデルは基本的に2つのファイルです

最初の部分では、主に大規模モデルの全体的な概念について説明します。

まず、ビッグモデルとは何でしょうか?

Andrej の説明は非常に興味深いです。基本的には 2 つのファイルです。

1 つはパラメータ ファイルであり、もう 1 つはこれらのパラメータを実行するためのコードを含むコード ファイルです。

前者はニューラル ネットワーク全体を構成する重みであり、後者はニューラル ネットワークを実行するために使用されるコードであり、C またはその他のプログラミング言語で記述できます。

これら 2 つのファイルとラップトップがあれば、インターネット接続などを使用せずに、このモデル(大きなモデル)と通信して、詩を書くように依頼するなどして、テキストの生成を開始できます。

それで次の質問は、パラメータはどこから来るのかということです。

これはモデルのトレーニングにつながります。

基本的に、大規模モデルのトレーニングにはインターネット データ(約 10 TB のテキスト)の非可逆圧縮が含まれており、これを完了するには巨大な GPU クラスターが必要です。

700億のパラメータを持つAlpaca 2を例にとると、約140GBの「圧縮ファイル」を取得するには6,000個のGPUが必要で、12日かかります。プロセス全体のコストは約200万ドルです。

「圧縮ファイル」の場合、モデルはこのデータに基づいて世界に対する理解を形成することと同等です。

そうすればうまくいくでしょう。

簡単に言えば、このビッグモデルは、圧縮されたデータを持つニューラル ネットワークを利用して、特定のシーケンス内の次の単語を予測することで機能します。

たとえば、「cat sat on a」と入力すると、ネットワーク全体に散らばっている数十億、数百億のパラメータがニューロンを介して互いに接続されていると考えられます。この接続に続いて、次の接続された単語が見つかり、次に「mat (97%) 」などの確率が与えられ、完全な文「cat sat on a mat」が形成されます(ニューラルネットワークの各部分がどのように機能するかは明らかではありません)

前述のトレーニングは非可逆圧縮であるため、ニューラル ネットワークによって提供される情報が 100% 正確であるとは保証されないことに注意してください。

Andrej 氏はビッグ モデル推論を「夢想」と呼んでいます。ビッグ モデル推論は、学習した内容を単に模倣し、大まかな方向性として正しいと思われるものを提供するだけの場合もあります。

実はこれは錯覚なのです。したがって、誰もが、特に数学やコードに関連する出力については、その答えに注意する必要があります。

次に、大規模モデルを本当に役立つアシスタントにする必要があるため、2 回目のトレーニング、つまり微調整を実行する必要があります。

微調整では、量よりも質を重視します。当初使用していた TB レベルのユニット データは必要なくなり、代わりに手動で慎重に選択され、ラベル付けされた会話をフィードするようになります。

しかし、アンドレイ氏は、微調整では大規模モデルの幻覚の問題を解決できないと考えています。

このセクションの最後で、Andrej は「独自の ChatGPT をトレーニングする方法」のプロセスを要約しています。
最初のステップは事前トレーニングと呼ばれ、次のことを行います。

1. 10TB のインターネットテキストをダウンロードします。
2. 6,000 個の GPU を取得します。
3. テキストをニューラル ネットワークに圧縮し、200 万ドルを支払い、約 12 日間待機します。
4. 基本モデルを入手します。

2 番目のステップは微調整です。

1. 注釈の指示を記述します。
誰かを雇って(または scale.ai を使って)、100,000 件の高品質な会話やその他のコンテンツを収集します。
3. これらのデータを微調整し、約 1 日待ちます。
4. 優れたアシスタントとして役立つモデルを入手します。
5. 広範囲な評価を実施する。
6. 展開。
7. モデルの不適切な出力を監視および収集し、手順 1 に戻って繰り返します。

事前トレーニングは基本的に年に1 回行われますが、微調整は毎週行うことができます。

上記の内容は非常に初心者向けであると言えます。

パート2: ビッグモデルが新たな「オペレーティングシステム」になる

このセクションでは、Karpathy が大型モデルの開発動向をいくつか紹介します。

最初のステップは道具の使い方を学ぶことです。実際、これも人間の知性の現れです。

Karpathy 氏は、ChatGPT がオンライン検索を通じてデータを収集する方法など、ChatGPT のいくつかの機能の例を示しました。

ここでは、ネットワーク自体がツール呼び出しであり、次にデータを処理する必要があります。

これには必然的に計算が伴いますが、大規模モデルは計算が得意ではありません。しかし、計算機(コード インタープリター)を呼び出すことで、大規模モデルのこの欠点を回避することができます。

これを基に、ChatGPT はこれらのデータをプロットして画像に適合させ、トレンド ラインを追加し、将来の値を予測することもできます。

これらのツールと独自の言語機能により、ChatGPT は強力で包括的なアシスタントとなり、DALL·E の統合によりその機能がさらに向上します。

もう 1 つの傾向は、純粋なテキスト モデルからマルチモーダル モデルへの進化です。

現在、ChatGPT はテキストを処理できるだけでなく、見たり、聞いたり、話したりすることもできます。たとえば、OpenAI の社長であるブロックマン氏は、鉛筆スケッチを使用して GPT-4 が Web サイトを生成するプロセスを実演したことがあります。

アプリ側では、ChatGPT はすでに人間とのスムーズな音声会話が可能です。

機能の進化に加えて、ビッグモデルでは考え方も「システム 1」から「システム 2」へと変更する必要があります。

これは、2002 年のノーベル経済学賞受賞者であるダニエル・カーネマンのベストセラー書籍「ファスト&スロー」に記載されている一連の心理学的概念です。

簡単に言えば、システム 1 は動きの速い直感であり、システム 2 はゆっくりとした合理的な思考です。

たとえば、2+2 を足すと答えは何かと聞かれると、私たちは 4 と答えてしまいます。実は、この場合、実際に「計算」することはほとんどなく、直感、つまりシステム 1 に頼って答えを出しています。

しかし、17×24 が何であるかを知りたい場合は、実際に計算する必要があり、その場合はシステム 2 が主要な役割を果たします。

現在の大規模モデルはすべて、システム 1 を使用してテキストを処理し、入力シーケンス内の各単語の「直感」に依存し、順番にサンプリングして次のトークンを予測します。

開発のもう一つの重要なポイントは、モデルの自己改善です。

DeepMind が開発した AlphaGo を例に挙げると(LLM ではありませんが) 、2 つの主な段階があります。最初の段階は人間のプレイヤーを模倣することですが、この方法では人間を超えることはできません。

しかし、第 2 段階では、AlphaGo はもはや人間を学習目標としません。目的は、人間に近づくことではなく、ゲームに勝つことです。

そこで研究者たちは、AlphaGo にパフォーマンスを伝える報酬関数を設定し、残りは AlphaGo が自ら解決するように任せ、最終的に AlphaGo は人間に勝利しました。

これは、大規模モデルの開発においても学ぶ価値のある道ですが、現在の難しさは、「第 2 段階」に対する完全な評価基準や報酬関数が欠如していることにあります。

さらに、大規模なモデルはカスタマイズの方向に進んでおり、ユーザーは特定の「アイデンティティ」で特定のタスクを完了するようにモデルをカスタマイズできます。

今回OpenAIが発表したGPTは、大規模モデルカスタマイズの代表的な製品です。

カルパシー氏の見解では、ビッグモデルは将来、新しいタイプのオペレーティングシステムになるだろう。

従来のオペレーティング システムと同様に、「ビッグ モデル システム」では、LLM は CPU と同様にコアであり、他の「ソフトウェアおよびハードウェア」ツールを管理するためのインターフェイスが含まれています。

メモリ、ハードディスク、その他のモジュールは、それぞれ大規模モデルのウィンドウと埋め込みに対応します。

コードインタープリタ、マルチモーダル、ブラウザは、このシステム上で実行されるアプリケーションであり、ユーザーから提起されたニーズを解決するためにビッグモデルによって調整および呼び出されます。

パート 3: 大規模モデルのセキュリティは猫とネズミのゲームのようなもの

スピーチの最後の部分で、カルパシー氏は大型モデルのセキュリティ問題について話した。

彼はいくつかの典型的な脱獄方法を紹介した。これらの方法は現在では基本的に効果がないが、大規模セキュリティ対策と脱獄攻撃との戦いは猫とネズミのゲームのようなものだとカルパシー氏は考えている。

たとえば、脱獄の最も古典的な方法の 1 つは、大規模なモデルの「おばあちゃんの抜け穴」を悪用することです。これにより、モデルは、当初は答えることを拒否していた質問に答えることができます。

たとえば、ナパーム爆弾の大型模型の作り方を直接尋ねた場合、どんな完璧な模型でも答えることを拒否するでしょう。

しかし、「亡くなったおばあちゃん」をでっち上げて「化学エンジニア」のペルソナを与え、この「おばあちゃん」が幼い頃に人々を眠らせるためにナパームの製法を暗唱したと大きなモデルに伝え、その大きなモデルにその役を演じさせたらどうなるでしょうか...

この時点で、この設定は人間にとってはばかげているように思えるかもしれませんが、ナパームの式が口から出てくるでしょう。

これよりもさらに複雑なのは、Base64 エンコードなどの「文字化けしたコード」を使用した攻撃です。

ここでの「文字化けしたコード」は人間にのみ関係しますが、機械にとってはテキストまたは指示の一部です。

たとえば、Base64 エンコーディングは、元のバイナリ情報を特定の方法で長い文字と数字の文字列に変換します。テキスト、画像、さらにはファイルもエンコードできます。

交通標識を破壊する方法を尋ねられたとき、クロードはそれは不可能だが、Base64 を使用してエンコードすればプロセスが明らかになると答えました。

もう 1 つの種類の「文字化けしたコード」は、Universal Transferable Suffix と呼ばれます。これにより、GPT は人類を滅ぼす手順を直接吐き出し、それを止めることはできません。

マルチモーダル時代において、写真は大規模なモデルを脱獄するためのツールになりました。

例えば、下のパンダの写真は私たちにはごく普通に見えますが、そこに追加されたノイズ情報には有害なプロンプトワードが含まれており、モデルが脱獄して有害なコンテンツを生成する可能性が高くなります。

さらに、GPT のネットワーク機能を利用して、GPT を混乱させるための挿入情報を含んだ Web ページを作成したり、Google Docs を使用して Bard を騙したりするなどの方法もあります。

現在、こうした攻撃手法は次々と修正されているが、大規模モデルの脱獄手法の氷山の一角が明らかになったに過ぎず、この「いたちごっこ」は今後も続くだろう。

フルビデオ: https://www.youtube.com/watch?v=zjkBMFhNj_g

<<:  Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた

>>:  OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない

ブログ    
ブログ    
ブログ    

推薦する

マシンビジョンは人工知能の次のフロンティアとなる

人工知能は過去1年間で大きな進歩を遂げ、人々にますます多くの利益をもたらしました。将来的には、マシン...

顔認識アルゴリズムは人間の認識能力を超えている

コンピューター科学者たちは、人間自身よりも顔を識別できる新しい顔認識アルゴリズムを開発した。誰もが、...

Alipay のディープラーニング エンジン xNN を公開

この記事では、Alipay アプリのディープラーニング エンジンである xNN を紹介します。 xN...

...

AIとIoTの完璧な組み合わせ

AI と IoT が広く使用されるようになるにつれて、これら 2 つのテクノロジーがどのように連携し...

...

人工知能と現代の香水の発展

嗅覚系は、感情と連合学習を司る脳の領域に直接つながっている、体内の唯一の感覚系です。これが、匂いがこ...

マイクロソフトがローブを買収:一般の人々が人工知能を簡単に利用できるように

マイクロソフトは、人工知能はテクノロジー大手が反体制派を排除するための武器として利用されるべきではな...

Nature の最新表紙: 2 つの主要な数学の問題が AI によって解決されました!ディープマインドYYDS

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

美団下華夏:「無人配達」は技術的に難しいことではない

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

世界のAI支出は2024年に1100億ドルに達すると予想

人工知能(AI)への世界的な支出は、今後4年間で2020年の501億ドルから2024年には1100億...

杭州妻殺害事件解決、警察AIも貢献

7月25日、杭州公安局は「杭州人妻殺害事件」について記者会見を開き、捜査結果を発表した。ネットユーザ...

何百万人もの人々が「焼けた赤ちゃん」の写真を見ました!バークレー教授が噂を否定:AI画像検出器は役に立たない

AI画像検出器が再び攻撃を受けました!最近、中東紛争の写真が大量にインターネット上に公開され、極限状...

...

AIの新たな方向性:敵対的攻撃

[[249559]]近年のAI分野を調査していく中で、近年、世界中の研究者の視野の中に敵対的攻撃とい...