OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

大規模なモデルの「ブラックボックス」を解体するために、人類解釈可能性チームは、新しいモデルをトレーニングすることで単純なモデルを理解する方法を説明した論文を発表しました。

Anthropic が発表した研究では、人工知能の魂を見ることができたと主張している。次のようになります:

写真

写真

論文アドレス: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

研究者らの見解では、この新しいモデルは、元のモデルのニューロンの動作原理と構成メカニズムを正確に予測し、理解することができるという。

Anthropic の説明可能性チームは最近、シミュレートされた AI システムで抽象的な高次元特徴空間を因数分解することに成功したと発表しました。

「AIブラックボックス」を理解するための説明可能なAIの作成

研究者たちはまず、非常に単純な512個のニューロンを持つAIにテキストを予測するトレーニングを行い、次に「オートエンコーダー」と呼ばれる別のAIに最初のAIの活性化パターンを予測するトレーニングを行った。

オートエンコーダーは、一連の特徴(高次元 AI のニューロンの数に対応)を構築し、これらの特徴が実際の AI のニューロンにどのようにマッピングされるかを予測するように求められます。

元の AI のニューロン自体は理解しにくいものでしたが、新しい AI のシミュレートされたニューロン (または「機能」) は一義的で、各機能が特定の概念または機能を表すことがわかりました。

たとえば、機能 #2663 は「神」という概念を表します。

写真

それを活性化する最強の訓練フレーズは、「ヨセフス」の記録から来ています。「神が吹雪を降らせたとき、彼はセフォリスに行きました。」

上部のアクティベーションはすべて「神」のさまざまな使用法に関するものであることがわかります。

このシミュレートされたニューロンは、実際のニューロンのグループ (407、182、および 259 を含む) で構成されているようです。

これらの実際のニューロン自体は「神」とはほとんど関係がありません。たとえば、ニューロン 407 は主に英語以外の文字 (特にアクセント付きのラテン文字) と非標準のテキスト (HTML タグなど) に反応します。

しかし、機能レベルではすべて順調です。機能 2663 がアクティブになると、テキストに「bless」、「forbid」、「damn」、または「-zilla」が出現する可能性が高くなります。

この AI は、「神」の概念とモンスターの名前の「神」を区別しません。これは、単純な AI にはこのタスクを具体的に処理するのに十分な神経リソースがないためである可能性があります。

しかし、AI の機能が増えるにつれて、状況は変わります。

写真

ツリーの下部では、特徴が増えるにつれて、AI が数学的な用語で「the」をどのように理解しているかがわかります。

まず、数学用語の「the」にはなぜ特別な特徴があるのでしょうか。これはおそらく、特定の「the」の後には「分子」や「余弦」などの数学用語が続くはずであることを知るという AI の予測ニーズによるものと思われます。

研究者が訓練した最小の AI には 512 個の特徴しかなく、「the」の特徴は 1 つだけだったが、16,384 個の特徴を持つ最大の AI では、その特徴は機械学習における「the」の特徴、複素解析における「the」の特徴、位相幾何学と抽象代数における「the」の特徴へと分岐していた。

したがって、システムがより多くのシミュレートされたニューロンを持つ AI にアップグレードされた場合、「神」を表す特徴は 2 つに分割される可能性があります。1 つは宗教における「神」の意味を表し、もう 1 つはモンスターの名前における「神」の意味を表します。

後に、キリスト教に神が存在するかもしれないし、ユダヤ教に神が存在するかもしれないし、哲学に神が存在するかもしれない、など。

研究チームは、実際のニューロンとそれに対応するシミュレートされたニューロンの 412 セットに対して主観的な解釈可能性の評価を実施し、シミュレートされたニューロンの解釈可能性が全体的に優れていることを発見しました。

写真

「神」などの一部の機能は、特定の概念に固有のものです。

最も解釈しやすいものも含め、他の多くの高度に解釈可能な機能は、大文字や小文字、英語や他のアルファベットなど、テキストを表すために使用される「形式」です。

写真

これらの特徴はどの程度一般的でしょうか? つまり、同じテキスト データで 2 つの異なる 4096 特徴の AI をトレーニングした場合、それらの AI は 4096 特徴のほとんど同じものを持つでしょうか? どちらにも「神」を表す特徴がいくつかあるでしょうか?

それとも、最初の AI が「神」と「ゴジラ」を一緒にし、2 番目の AI がそれらを分離するのでしょうか? 2 番目の AI には「神」を表す機能がまったくなく、そのスペースを使用して最初の AI が理解できない他の概念を保存するのでしょうか?

研究チームがテストを実行したところ、2 つの AI モデルが非常に似ていることがわかりました。

平均すると、最初のモデルに特徴があった場合、2 番目のモデルで最も類似した特徴の相関の中央値は 0.72 になります。

写真

AIの魂を見る

その後の作品はどうなるのでしょうか?

5月に、OpenAIはGPT-4(非常に大きい)にGPT-2(非常に小さい)を理解させようと試みました。彼らは、GPT-4 に GPT-2 の 307,200 個のニューロンのそれぞれを調べさせ、発見した内容を報告させました。

GPT-4 は、実際のニューロンをシミュレートされたニューロンに投影し、シミュレートされたニューロンを分析する技術をまだ習得していないため、興味深い結果と無意味な結果が混在していることがわかりました。

結果は控えめなものだったが、それは野心的な試みだった。

人類学的説明可能性の記事の AI とは異なり、GPT-2 はかつて世間に感銘を与えた本物の (ただし非常に小さい) AI です。

しかし、研究の最終的な目標は、主流の AI システムを説明できるようにすることです。

人類学的解釈可能性チームは、いくつかの理由から、まだそこに到達していないことを認めています。

まず、オートエンコーダをスケールアップすることは困難です。 GPT-4(またはAnthropicの同等物であるClaude)のようなシステムを説明するには、ほぼ同じサイズの説明AIが必要です。

しかし、この規模で AI をトレーニングするには、膨大な計算能力と資金援助が必要です。

第二に、説明のスケーラビリティも問題です。

たとえ神やゴジラ、その他すべてのもののシミュレートされたニューロンをすべて見つけ、それらがどのように接続されているかを示す巨大なグラフを描いたとしても。

研究者は、何百万もの特徴と接続を伴う複雑な相互作用を必要とする、より複雑な質問に答える必要があります。

したがって、何らかの自動化されたプロセス、つまり、ある種のより大規模な「GPT-4 に GPT-2 が何をしているかを知らせる」プロセスが必要になります。

最後に、これらすべては人間の脳について何を教えてくれるのでしょうか?

人間もニューラル ネットワークを使用して概念を推論し、処理します。

人間の脳には多くのニューロンがあり、GPT-4 も同様です。

人間が利用できるデータも非常に少なく、日常生活ではほとんど登場しない概念(イカなど)も数多くあります。

より大きな脳もシミュレートしているのでしょうか?

これはまだ非常に新しい研究分野ですが、人間の視覚皮質のニューロンは AI モデルで観察されるパターンと同様に、ある程度超局所的な方法で特徴をエンコードすることを示唆する予備的な調査結果がいくつかあります。

参考: https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

<<: 

>>:  マイクロソフトリサーチアジア、ウェイ・フル氏:人工知能における基礎イノベーションの第2次成長曲線

ブログ    
ブログ    
ブログ    

推薦する

まだ AI と機械学習を混同していませんか?まず、AIの6つの注目分野を見てみましょう。

AI の初心者向けに、AI の注目すべき 6 つの分野と、その概要、重要性、現在の使用方法、研究し...

2021年世界人工知能会議の結論によって、どのような新しいトレンドが明らかになるのでしょうか?

7月10日、2021年世界人工知能会議(WAIC)が上海で閉幕した。 2011年以来、ビッグデータ...

MIT の驚くべき証明: 大きな言語モデルは「世界モデル」ですか?アンドリュー・ン氏の視点が再び確認され、LLMは空間と時間を理解できる

大きな言語モデルの中には世界モデルがあるのでしょうか? LLM には空間感覚がありますか?そして、こ...

GitHub トップ プロジェクト: 30 万語の図解アルゴリズム問題辞書、超実用的なリソース、6,000 個のスター

[[336071]]貴重なリソースをまとめましたので、ぜひご覧ください。アルゴリズムはコンピュータサ...

人工知能は偏見の岐路に立っている

企業がより多くの機械学習や人工知能モデルを本番環境に導入するにつれて、システム内の偏りに対する認識が...

対称暗号化アルゴリズムと非対称暗号化アルゴリズムの違いは何ですか?

Q: 対称暗号化アルゴリズムと非対称暗号化アルゴリズムの違いは何ですか? 特に暗号化、署名、ハッシ...

...

人工知能市場は2024年までに5,543億ドルに達する

人工知能(AI)市場は急速に成長し、2024年までに5,543億ドルに達すると予想されています。人工...

...

人工知能は今年のトップ10の新興職業の中で第1位にランクイン

どの企業もある程度はテクノロジーを取り入れる必要があったため、こうした急成長の仕事にもその傾向が反映...

顔認識には「強制的な同意」ではなく「個人の同意」が必要なのでしょうか?弁護士の言うこと

顔認識技術は、複製不可能、非接触、高速などの利点により、インテリジェントな通過と迅速な本人確認に優れ...

人工知能の未来を見据えて、いつかは遊ぶだけになる日が来るでしょう!

[[216218]]人工知能スピーカー2017年は人工知能が爆発的に発展した年であり、「人工知能元...

PaddlePaddle を使用してオブジェクト検出タスクを実装する - Paddle Fluid v1.1 の詳細なレビュー

【51CTO.comオリジナル記事】 1. はじめに11月1日、BaiduはPaddle Fluid...

JD Digits JDDコンペティションが終了、「自動運転」と「人口動態国勢調査」の世界チャンピオンが発表

1月13日、JDD-2018 JDデジタルテクノロジーグローバルエクスプローラーコンペティションの世...

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

近年、モバイルラーニングと人工知能は、人々が機械と連携する方法に大きな影響を与えており、個々の顧客に...