「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。

今回、彼は特に一般の人々向けに、大規模言語モデルに関する科学普及ビデオを制作しました。

所要時間は 1 時間で、すべて「非技術的な入門」であり、モデルの推論、トレーニング、微調整、新しい大規模モデル オペレーティング システム、セキュリティの課題などをカバーしています。関連する知識はすべて今月までのものです(非常に新しい)

ビデオカバーはAndrejがDall·3を使用して描きました

この動画はYouTubeでたった1日で20万回再生された。

一部のネットユーザーはこう言った。

10 分ほど視聴しただけで、すでに多くのことを学びました。ビデオのような例を使って LLM が説明されているのをこれまで見たことがなく、また、これまで見てきた多くの「紛らわしい」概念が明確になりました。

コースの質の高さを称賛するだけでなく、Andrej 自身が複雑な問題を単純化するのが本当に上手で、彼の教え方は常に印象的だとコメントする人も多かったです。

それだけでなく、このビデオは彼の職業に対する愛情を十分に反映しているとも言えます。

さて、アンドレイ自身によると、ビデオは感謝祭の休暇中に撮影され、背景は彼のリゾートホテル(犬の頭)だそうです。

このビデオを作った当初の目的は、彼が最近人工知能セキュリティサミットでスピーチをしたことでした。スピーチは録画されていませんでしたが、多くの視聴者がその内容を気に入ったと言っていました。

そこで彼は、少しだけ調整を加えて、もう一度物語を語り、より多くの人が視聴できるようにビデオに仕上げました。

それで、具体的にはどのようなことですか?

一つずつ皆さんに紹介していきましょう。

パート1: 大きなモデルは基本的に2つのファイルです

最初の部分では、主に大規模モデルの全体的な概念について説明します。

まず、ビッグモデルとは何でしょうか?

Andrej の説明は非常に興味深いです。基本的には 2 つのファイルです。

1 つはパラメータ ファイルであり、もう 1 つはこれらのパラメータを実行するためのコードを含むコード ファイルです。

前者はニューラル ネットワーク全体を構成する重みであり、後者はニューラル ネットワークを実行するために使用されるコードであり、C またはその他のプログラミング言語で記述できます。

これら 2 つのファイルとラップトップがあれば、インターネット接続などを使用せずに、このモデル(大きなモデル)と通信して、詩を書くように依頼するなどして、テキストの生成を開始できます。

それで次の質問は、パラメータはどこから来るのかということです。

これはモデルのトレーニングにつながります。

基本的に、大規模モデルのトレーニングにはインターネット データ(約 10 TB のテキスト)の非可逆圧縮が含まれており、これを完了するには巨大な GPU クラスターが必要です。

700億のパラメータを持つAlpaca 2を例にとると、約140GBの「圧縮ファイル」を取得するには6,000個のGPUが必要で、12日かかります。プロセス全体のコストは約200万ドルです。

「圧縮ファイル」の場合、モデルはこのデータに基づいて世界に対する理解を形成することと同等です。

そうすればうまくいくでしょう。

簡単に言えば、このビッグモデルは、圧縮されたデータを持つニューラル ネットワークを利用して、特定のシーケンス内の次の単語を予測することで機能します。

たとえば、「cat sat on a」と入力すると、ネットワーク全体に散らばっている数十億、数百億のパラメータがニューロンを介して互いに接続されていると考えられます。この接続に続いて、次の接続された単語が見つかり、次に「mat (97%) 」などの確率が与えられ、完全な文「cat sat on a mat」が形成されます(ニューラルネットワークの各部分がどのように機能するかは明らかではありません)

前述のトレーニングは非可逆圧縮であるため、ニューラル ネットワークによって提供される情報が 100% 正確であるとは保証されないことに注意してください。

Andrej 氏はビッグ モデル推論を「夢想」と呼んでいます。ビッグ モデル推論は、学習した内容を単に模倣し、大まかな方向性として正しいと思われるものを提供するだけの場合もあります。

実はこれは錯覚なのです。したがって、誰もが、特に数学やコードに関連する出力については、その答えに注意する必要があります。

次に、大規模モデルを本当に役立つアシスタントにする必要があるため、2 回目のトレーニング、つまり微調整を実行する必要があります。

微調整では、量よりも質を重視します。当初使用していた TB レベルのユニット データは必要なくなり、代わりに手動で慎重に選択され、ラベル付けされた会話をフィードするようになります。

しかし、アンドレイ氏は、微調整では大規模モデルの幻覚の問題を解決できないと考えています。

このセクションの最後で、Andrej は「独自の ChatGPT をトレーニングする方法」のプロセスを要約しています。
最初のステップは事前トレーニングと呼ばれ、次のことを行います。

1. 10TB のインターネットテキストをダウンロードします。
2. 6,000 個の GPU を取得します。
3. テキストをニューラル ネットワークに圧縮し、200 万ドルを支払い、約 12 日間待機します。
4. 基本モデルを入手します。

2 番目のステップは微調整です。

1. 注釈の指示を記述します。
誰かを雇って(または scale.ai を使って)、100,000 件の高品質な会話やその他のコンテンツを収集します。
3. これらのデータを微調整し、約 1 日待ちます。
4. 優れたアシスタントとして役立つモデルを入手します。
5. 広範囲な評価を実施する。
6. 展開。
7. モデルの不適切な出力を監視および収集し、手順 1 に戻って繰り返します。

事前トレーニングは基本的に年に1 回行われますが、微調整は毎週行うことができます。

上記の内容は非常に初心者向けであると言えます。

パート2: ビッグモデルが新たな「オペレーティングシステム」になる

このセクションでは、Karpathy が大型モデルの開発動向をいくつか紹介します。

最初のステップは道具の使い方を学ぶことです。実際、これも人間の知性の現れです。

Karpathy 氏は、ChatGPT がオンライン検索を通じてデータを収集する方法など、ChatGPT のいくつかの機能の例を示しました。

ここでは、ネットワーク自体がツール呼び出しであり、次にデータを処理する必要があります。

これには必然的に計算が伴いますが、大規模モデルは計算が得意ではありません。しかし、計算機(コード インタープリター)を呼び出すことで、大規模モデルのこの欠点を回避することができます。

これを基に、ChatGPT はこれらのデータをプロットして画像に適合させ、トレンド ラインを追加し、将来の値を予測することもできます。

これらのツールと独自の言語機能により、ChatGPT は強力で包括的なアシスタントとなり、DALL·E の統合によりその機能がさらに向上します。

もう 1 つの傾向は、純粋なテキスト モデルからマルチモーダル モデルへの進化です。

現在、ChatGPT はテキストを処理できるだけでなく、見たり、聞いたり、話したりすることもできます。たとえば、OpenAI の社長であるブロックマン氏は、鉛筆スケッチを使用して GPT-4 が Web サイトを生成するプロセスを実演したことがあります。

アプリ側では、ChatGPT はすでに人間とのスムーズな音声会話が可能です。

機能の進化に加えて、ビッグモデルでは考え方も「システム 1」から「システム 2」へと変更する必要があります。

これは、2002 年のノーベル経済学賞受賞者であるダニエル・カーネマンのベストセラー書籍「ファスト&スロー」に記載されている一連の心理学的概念です。

簡単に言えば、システム 1 は動きの速い直感であり、システム 2 はゆっくりとした合理的な思考です。

たとえば、2+2 を足すと答えは何かと聞かれると、私たちは 4 と答えてしまいます。実は、この場合、実際に「計算」することはほとんどなく、直感、つまりシステム 1 に頼って答えを出しています。

しかし、17×24 が何であるかを知りたい場合は、実際に計算する必要があり、その場合はシステム 2 が主要な役割を果たします。

現在の大規模モデルはすべて、システム 1 を使用してテキストを処理し、入力シーケンス内の各単語の「直感」に依存し、順番にサンプリングして次のトークンを予測します。

開発のもう一つの重要なポイントは、モデルの自己改善です。

DeepMind が開発した AlphaGo を例に挙げると(LLM ではありませんが) 、2 つの主な段階があります。最初の段階は人間のプレイヤーを模倣することですが、この方法では人間を超えることはできません。

しかし、第 2 段階では、AlphaGo はもはや人間を学習目標としません。目的は、人間に近づくことではなく、ゲームに勝つことです。

そこで研究者たちは、AlphaGo にパフォーマンスを伝える報酬関数を設定し、残りは AlphaGo が自ら解決するように任せ、最終的に AlphaGo は人間に勝利しました。

これは、大規模モデルの開発においても学ぶ価値のある道ですが、現在の難しさは、「第 2 段階」に対する完全な評価基準や報酬関数が欠如していることにあります。

さらに、大規模なモデルはカスタマイズの方向に進んでおり、ユーザーは特定の「アイデンティティ」で特定のタスクを完了するようにモデルをカスタマイズできます。

今回OpenAIが発表したGPTは、大規模モデルカスタマイズの代表的な製品です。

カルパシー氏の見解では、ビッグモデルは将来、新しいタイプのオペレーティングシステムになるだろう。

従来のオペレーティング システムと同様に、「ビッグ モデル システム」では、LLM は CPU と同様にコアであり、他の「ソフトウェアおよびハードウェア」ツールを管理するためのインターフェイスが含まれています。

メモリ、ハードディスク、その他のモジュールは、それぞれ大規模モデルのウィンドウと埋め込みに対応します。

コードインタープリタ、マルチモーダル、ブラウザは、このシステム上で実行されるアプリケーションであり、ユーザーから提起されたニーズを解決するためにビッグモデルによって調整および呼び出されます。

パート 3: 大規模モデルのセキュリティは猫とネズミのゲームのようなもの

スピーチの最後の部分で、カルパシー氏は大型モデルのセキュリティ問題について話した。

彼はいくつかの典型的な脱獄方法を紹介した。これらの方法は現在では基本的に効果がないが、大規模セキュリティ対策と脱獄攻撃との戦いは猫とネズミのゲームのようなものだとカルパシー氏は考えている。

たとえば、脱獄の最も古典的な方法の 1 つは、大規模なモデルの「おばあちゃんの抜け穴」を悪用することです。これにより、モデルは、当初は答えることを拒否していた質問に答えることができます。

たとえば、ナパーム爆弾の大型模型の作り方を直接尋ねた場合、どんな完璧な模型でも答えることを拒否するでしょう。

しかし、「亡くなったおばあちゃん」をでっち上げて「化学エンジニア」のペルソナを与え、この「おばあちゃん」が幼い頃に人々を眠らせるためにナパームの製法を暗唱したと大きなモデルに伝え、その大きなモデルにその役を演じさせたらどうなるでしょうか...

この時点で、この設定は人間にとってはばかげているように思えるかもしれませんが、ナパームの式が口から出てくるでしょう。

これよりもさらに複雑なのは、Base64 エンコードなどの「文字化けしたコード」を使用した攻撃です。

ここでの「文字化けしたコード」は人間にのみ関係しますが、機械にとってはテキストまたは指示の一部です。

たとえば、Base64 エンコーディングは、元のバイナリ情報を特定の方法で長い文字と数字の文字列に変換します。テキスト、画像、さらにはファイルもエンコードできます。

交通標識を破壊する方法を尋ねられたとき、クロードはそれは不可能だが、Base64 を使用してエンコードすればプロセスが明らかになると答えました。

もう 1 つの種類の「文字化けしたコード」は、Universal Transferable Suffix と呼ばれます。これにより、GPT は人類を滅ぼす手順を直接吐き出し、それを止めることはできません。

マルチモーダル時代において、写真は大規模なモデルを脱獄するためのツールになりました。

例えば、下のパンダの写真は私たちにはごく普通に見えますが、そこに追加されたノイズ情報には有害なプロンプトワードが含まれており、モデルが脱獄して有害なコンテンツを生成する可能性が高くなります。

さらに、GPT のネットワーク機能を利用して、GPT を混乱させるための挿入情報を含んだ Web ページを作成したり、Google Docs を使用して Bard を騙したりするなどの方法もあります。

現在、こうした攻撃手法は次々と修正されているが、大規模モデルの脱獄手法の氷山の一角が明らかになったに過ぎず、この「いたちごっこ」は今後も続くだろう。

フルビデオ: https://www.youtube.com/watch?v=zjkBMFhNj_g

<<:  Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた

>>:  OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない

ブログ    
ブログ    

推薦する

自動運転車はどれくらい遠いのでしょうか?

現在、5Gや人工知能産業が活況を呈しており、さまざまな大手企業が利益を最大化するために「応用シナリオ...

企業、不動産会社、自動車会社が顔情報を収集する方法を弁護士が解説:消費者は法律に従って権利を断固として守るべき

[[388553]] 3月18日夜、企業やメーカーが個人情報を不法に収集し、商業目的で利用する事件が...

人工知能:テクノロジーは無邪気、善と悪は人間の心の中にある

[[338194]]テクノロジーは常に諸刃の剣です。人類の文明の進歩を促進する一方で、時には人類に災...

NLPの年間進捗状況は年に1回まとめられています。2021年の研究のホットスポットは何でしょうか?

2021 年には、ML と NLP の分野で多くのエキサイティングな進展がありました。 Sebas...

...

...

機械学習開発ガイド(基礎編)

【51CTO.comオリジナル記事】序文機械学習は人工知能の分野で重要な部分を占めています。簡単に...

LangChain と Redis が協力して何かを実現しています!財務文書分析の精度を向上させるツールを作成する

著者 | タニスタ編纂者:Xing Xuan制作:51CTO テクノロジースタック(WeChat I...

...

毎日のアルゴリズム: 完全順列問題

[[435870]]繰り返しのない数字のシーケンスが与えられた場合、そのシーケンスのすべての可能な順...

2022年のデータサイエンスとAIの予測

2021 年には技術変化のペースが加速し、歴史が示すように、2022 年もそのペースは加速し続けるで...

初心者必読!畳み込みニューラルネットワークの始め方

畳み込みニューラル ネットワークは、ディープ ニューラル ネットワークの中で非常に人気のあるネットワ...

自動運転の 6 つのレベル: 真の無人運転までどれくらいの距離があるのでしょうか?

社会の発展に伴い、わが国の工場は徐々に手作業中心から設備中心へと変化し、人類の創造性が十分に反映され...

AIとIoTの統合が加速

人工知能 (AI) とモノのインターネット (IoT) の技術トレンドが融合し始めており、業界ではこ...