OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

大規模なモデルの「ブラックボックス」を解体するために、人類解釈可能性チームは、新しいモデルをトレーニングすることで単純なモデルを理解する方法を説明した論文を発表しました。

Anthropic が発表した研究では、人工知能の魂を見ることができたと主張している。次のようになります:

写真

論文アドレス: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

研究者らの見解では、この新しいモデルは、元のモデルのニューロンの動作原理と構成メカニズムを正確に予測し、理解することができるという。

Anthropic の説明可能性チームは最近、シミュレートされた AI システムで抽象的な高次元特徴空間を因数分解することに成功したと発表しました。

「AIブラックボックス」を理解するための説明可能なAIの作成

研究者たちはまず、非常に単純な512個のニューロンを持つAIにテキストを予測するトレーニングを行い、次に「オートエンコーダー」と呼ばれる別のAIに最初のAIの活性化パターンを予測するトレーニングを行った。

オートエンコーダーは、一連の特徴（高次元 AI のニューロンの数に対応）を構築し、これらの特徴が実際の AI のニューロンにどのようにマッピングされるかを予測するように求められます。

元の AI のニューロン自体は理解しにくいものでしたが、新しい AI のシミュレートされたニューロン (または「機能」) は一義的で、各機能が特定の概念または機能を表すことがわかりました。

たとえば、機能 #2663 は「神」という概念を表します。

写真

それを活性化する最強の訓練フレーズは、「ヨセフス」の記録から来ています。「神が吹雪を降らせたとき、彼はセフォリスに行きました。」

上部のアクティベーションはすべて「神」のさまざまな使用法に関するものであることがわかります。

このシミュレートされたニューロンは、実際のニューロンのグループ (407、182、および 259 を含む) で構成されているようです。

これらの実際のニューロン自体は「神」とはほとんど関係がありません。たとえば、ニューロン 407 は主に英語以外の文字 (特にアクセント付きのラテン文字) と非標準のテキスト (HTML タグなど) に反応します。

しかし、機能レベルではすべて順調です。機能 2663 がアクティブになると、テキストに「bless」、「forbid」、「damn」、または「-zilla」が出現する可能性が高くなります。

この AI は、「神」の概念とモンスターの名前の「神」を区別しません。これは、単純な AI にはこのタスクを具体的に処理するのに十分な神経リソースがないためである可能性があります。

しかし、AI の機能が増えるにつれて、状況は変わります。

写真

ツリーの下部では、特徴が増えるにつれて、AI が数学的な用語で「the」をどのように理解しているかがわかります。

まず、数学用語の「the」にはなぜ特別な特徴があるのでしょうか。これはおそらく、特定の「the」の後には「分子」や「余弦」などの数学用語が続くはずであることを知るという AI の予測ニーズによるものと思われます。

研究者が訓練した最小の AI には 512 個の特徴しかなく、「the」の特徴は 1 つだけだったが、16,384 個の特徴を持つ最大の AI では、その特徴は機械学習における「the」の特徴、複素解析における「the」の特徴、位相幾何学と抽象代数における「the」の特徴へと分岐していた。

したがって、システムがより多くのシミュレートされたニューロンを持つ AI にアップグレードされた場合、「神」を表す特徴は 2 つに分割される可能性があります。1 つは宗教における「神」の意味を表し、もう 1 つはモンスターの名前における「神」の意味を表します。

後に、キリスト教に神が存在するかもしれないし、ユダヤ教に神が存在するかもしれないし、哲学に神が存在するかもしれない、など。

研究チームは、実際のニューロンとそれに対応するシミュレートされたニューロンの 412 セットに対して主観的な解釈可能性の評価を実施し、シミュレートされたニューロンの解釈可能性が全体的に優れていることを発見しました。

写真

「神」などの一部の機能は、特定の概念に固有のものです。

最も解釈しやすいものも含め、他の多くの高度に解釈可能な機能は、大文字や小文字、英語や他のアルファベットなど、テキストを表すために使用される「形式」です。

写真

これらの特徴はどの程度一般的でしょうか? つまり、同じテキストデータで 2 つの異なる 4096 特徴の AI をトレーニングした場合、それらの AI は 4096 特徴のほとんど同じものを持つでしょうか? どちらにも「神」を表す特徴がいくつかあるでしょうか?

それとも、最初の AI が「神」と「ゴジラ」を一緒にし、2 番目の AI がそれらを分離するのでしょうか? 2 番目の AI には「神」を表す機能がまったくなく、そのスペースを使用して最初の AI が理解できない他の概念を保存するのでしょうか?

研究チームがテストを実行したところ、2 つの AI モデルが非常に似ていることがわかりました。

平均すると、最初のモデルに特徴があった場合、2 番目のモデルで最も類似した特徴の相関の中央値は 0.72 になります。

写真

AIの魂を見る

その後の作品はどうなるのでしょうか？

5月に、OpenAIはGPT-4（非常に大きい）にGPT-2（非常に小さい）を理解させようと試みました。彼らは、GPT-4 に GPT-2 の 307,200 個のニューロンのそれぞれを調べさせ、発見した内容を報告させました。

GPT-4 は、実際のニューロンをシミュレートされたニューロンに投影し、シミュレートされたニューロンを分析する技術をまだ習得していないため、興味深い結果と無意味な結果が混在していることがわかりました。

結果は控えめなものだったが、それは野心的な試みだった。

人類学的説明可能性の記事の AI とは異なり、GPT-2 はかつて世間に感銘を与えた本物の (ただし非常に小さい) AI です。

しかし、研究の最終的な目標は、主流の AI システムを説明できるようにすることです。

人類学的解釈可能性チームは、いくつかの理由から、まだそこに到達していないことを認めています。

まず、オートエンコーダをスケールアップすることは困難です。 GPT-4（またはAnthropicの同等物であるClaude）のようなシステムを説明するには、ほぼ同じサイズの説明AIが必要です。

しかし、この規模で AI をトレーニングするには、膨大な計算能力と資金援助が必要です。

第二に、説明のスケーラビリティも問題です。

たとえ神やゴジラ、その他すべてのもののシミュレートされたニューロンをすべて見つけ、それらがどのように接続されているかを示す巨大なグラフを描いたとしても。

研究者は、何百万もの特徴と接続を伴う複雑な相互作用を必要とする、より複雑な質問に答える必要があります。

したがって、何らかの自動化されたプロセス、つまり、ある種のより大規模な「GPT-4 に GPT-2 が何をしているかを知らせる」プロセスが必要になります。

最後に、これらすべては人間の脳について何を教えてくれるのでしょうか?

人間もニューラルネットワークを使用して概念を推論し、処理します。

人間の脳には多くのニューロンがあり、GPT-4 も同様です。

人間が利用できるデータも非常に少なく、日常生活ではほとんど登場しない概念（イカなど）も数多くあります。

より大きな脳もシミュレートしているのでしょうか?

これはまだ非常に新しい研究分野ですが、人間の視覚皮質のニューロンは AI モデルで観察されるパターンと同様に、ある程度超局所的な方法で特徴をエンコードすることを示唆する予備的な調査結果がいくつかあります。

参考: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

<<:

>>: マイクロソフトリサーチアジア、ウェイ・フル氏：人工知能における基礎イノベーションの第2次成長曲線

8x7B オープンソース MoE が Llama 2 に勝ち、GPT-4 に迫る!欧州版OpenAIがAI界に衝撃を与え、22人の企業が半年で20億ドルの評価額を獲得

OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

「AIブラックボックス」を理解するための説明可能なAIの作成

AIの魂を見る

8x7B オープンソース MoE が Llama 2 に勝ち、GPT-4 に迫る!欧州版OpenAIがAI界に衝撃を与え、22人の企業が半年で20億ドルの評価額を獲得

中学校の知識を使って機械学習が何をしているのかを理解する方法

バイナリ検索アルゴリズムと時間計算量について簡単に説明し、バイナリ検索アルゴリズムを実装する

ディープラーニングによって変革された5つのコンピュータービジョン技術

Jenkins 独自のユーザーデータベース暗号化アルゴリズムの簡単な分析

ディープラーニングによる物体検出モデルの包括的なレビュー: 高速 R-CNN、R-FCN、SSD

機械学習プロジェクトが失敗する9つの理由

GitHubのレポートによると、米国のプログラマーの92%がAIツールを使用している

推薦する

Googleの失敗が露呈: 内部にリーダーがおらず、生の画像の仕組みが「多様」すぎた

AI、VR、ブロックチェーンにより、新しい時代は貧しい人々にとっての楽園となるのでしょうか？

Google の内部対立が激化!従業員が共同書簡に署名：AIマスターのジェフ・ディーン氏は謝罪すべき！

年末総括｜2020年日本におけるAI（ロボティクス）分野の主なニュースを振り返る

ChatGPT は学生の授業パフォーマンスを大幅に向上させたため、教授は怒ってこう叱責しました。「私はそれを使ってもいいが、あなたがそれを使うと不正行為になる！」

人工知能は今や人間の感情を認識できるほど賢くなった

自動運転のためのニューラルネットワークとディープラーニング

ポストエピデミック時代のスマートエネルギー管理にエッジAIを活用する方法

高度なランサムウェア攻撃によりAIによるサイバー防御の必要性が浮き彫りに

人工知能はビジネスモデルの革新を促進し、行動の変化を予測することがより一般的になっている