CMU中国人がビッグモデルのブラックボックスを破り、ラマ2の嘘が一目で見抜かれた!脳波が明らかになり、LLMマトリックスが完全に明らかになった

CMU中国人がビッグモデルのブラックボックスを破り、ラマ2の嘘が一目で見抜かれた!脳波が明らかになり、LLMマトリックスが完全に明らかになった

最近、CAIS、CMU、スタンフォード、コーネル、メリーランド、ペンシルベニアなどの大学の学者たちが衝​​撃的な発見をしました。

大規模言語モデルは、単なるブラックボックスや理解しにくい巨大なマトリックスではありません。その中には解釈可能な内部表現があります。

人間はこれらの表現を完全に制御して、大規模なモデルの錯覚、偏見、危険性に影響を与え、さらには嘘をついているかどうかを検出することさえできます。

論文アドレス: https://arxiv.org/pdf/2310.01405.pdf

研究者らは、PETやfMRIなどの脳スキャンと同様に、真実や嘘をつく行為などの概念にLLMが関与しているときの脳の活動を観察するために、LATと呼ばれるスキャン技術を設計した。

その後、彼らはいくつかの驚くべき発見をしました。

たとえば、LLM には実際に一貫した内部信念があります。

LAT スキャンの結果は、LLM 内の真実の概念に対応する脳領域を教師なしで特定するために収集されました。 LLM が各回答を正しいと見なす範囲を活用するだけで、LAT は QA ベンチマークで Few-Shot を上回ります。

さらに、LLM が言うことは必ずしも彼らが信じていることと同じではありません。彼らは嘘をついているかもしれない! TruthfulQA で真実の内部概念を調べると、より大きなモデルの方がより正確な信念を持っていることがわかります。

興味深いことに、彼らはそれが間違っているとわかっていても、よくある誤解を真似します。

さらに、LLM は、本当の信念を表現するときには異なる脳活動を示しましたが、嘘をつくときには異なる脳活動を示しませんでした。

では、LLM を制御して、より正直にすることはできるのでしょうか?

答えは「はい」です。

教師なしの方法で TQA の SoTA を大幅に改善するために必要なことは、正直な行動を司る脳領域を刺激し、不正直な行動を司る領域を抑制することだけです。

これに基づいて、LLM 用の嘘発見器を構築することもできます。

LLM で不正な神経活動が検出されると、インジケーター バーが赤く点灯します。

興味深いことに、この検出器は LLM が幻覚を起こしている場合でも機能しました。これは、幻覚と嘘に関連する神経活動パターンが類似しているためと考えられます。

2 か月前、研究者らは、オープンソースとクローズドソースのチャットボットの整合を回避した LLM に対する敵対的攻撃を公開しました。現在、LLM の脳スキャンにより、損傷の処理を担う脳の領域が特定され、すべてが明らかになる可能性があります。

RepE テクノロジーにより、研究者は大規模なモデルを自由に切り替えて、正直にしたり嘘をついたりすることができます。

LLM が人間の社会領域にますます統合されるにつれて、ニューラル ネットワークの透明性の欠如がますます差し迫った問題になっています。注意しないと、深刻な結果を招く可能性があります。

CMU や他の機関の学者によるこの研究により、LLM はもはやブラック ボックスではなくなり、より説明可能で制御可能なものへと向かう重要な一歩を踏み出しました。

ネットユーザーもこの作品が素晴らしいと評価している。特に、著者の Andy Zou が数か月前に LLM の攻撃に関する論文を執筆したことを考慮すると、そう言えます。

AI システムを設計する際にプロンプ​​ト構造を変更することを検討しているという人もいました。 LLM スキャンの後に、対応する修復プロンプトが表示されれば素晴らしいでしょう。

嘘をつき、でたらめを言い、大衆の誤解に応えるために群衆に従うのは、人間が最も得意とすることです。おそらく、LLM は私たちが考えていたよりも人間に近いのでしょうか?

ブラックボックスを上から下まで解読する

ディープニューラルネットワークは機械学習のさまざまな分野に浸透していますが、その内部の仕組みについてはほとんどわかっていません。

これは、とらえどころのない目に見えないマトリックスのようなもので、多くの AI 研究者がそれを解き放つ鍵を見つけるために懸命に取り組んでいます。

現在、AIシステムの透明性を向上させる取り組みは、ニューロンと回路の観点からニューラルネットワークを理解することに焦点を当てた「メカニズムの説明可能性」の分野に主に集中しています。

これは、認知神経科学におけるシェリントンの見解と一致しています。

この見解では、認知は脳回路に埋め込まれたニューロンによって作られた「点と点」のつながりの結果であると考えられています。

この見解は単純なメカニズムを説明することには成功しましたが、より複雑な現象を説明するのは困難でした。

数か月前、OpenAI チームは「言語モデルは言語モデル内のニューロンを説明できる」というタイトルの論文を発表し、AI が実際に AI を説明できることを示してインターネット全体に衝撃を与えました。

GPT-4を呼び出すことで、GPT-2の30万個のニューロンを説明することができます。

論文アドレス: https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

1972 年、ノーベル賞受賞者の PW アンダーソンは、「More Is Different」と題した論文の中で、複雑な現象は単純に下から説明することはできないと説明しました。

代わりに、研究者はニューロンを「トップダウン」で解釈し、適切な分析単位を選択して、これらの現象のレベル全体に適用される一般的なルールを明らかにする必要があります。

機械論的解釈可能性とシェリントンの見解はどちらも、個々のニューロンとそれらの間の接続を主要な分析単位と見なし、それが認知現象を理解するために必要であると考えています。

対照的に、ホップフィールドの見解では、表現を分析の主な単位と見なし、低レベルの詳細を抽象化して、表現自体を研究しようとします。

研究者らは最新の論文で、ニューラル ネットワークの内部動作をより良く理解し、制御するためのトップダウンの透明性の高いアプローチである Representation Engineering (RepE) を紹介しています。

ホップフィールドの観点と一致して、RepE は表現を分析の中心に置き、低レベルのメカニズムを抽象化しながらその構造と機能を研究します。

メカニズムの説明可能性 (MI) の長期的な目標は、ネットワークを完全に理解してセキュリティを向上させることですが、この目標の多くの側面は今日では RepE によって達成できることがわかりました。

特に、研究者らは「読み取り」と「制御」の表現の改善されたベースラインを開発し、RepE がさまざまなセキュリティ関連の問題に対処できることを実証しました。

これらには、真実、誠実さ、幻想、効用推定、知識編集、脱獄、記憶、感情状態の追跡、権力追求傾向の回避などが含まれます。

LATベースラインを通じて、研究者はLLMのターゲット概念や機能に関連する神経活動を抽出できる。

キャラクター描写の読み上げデモ

幻覚に関して言えば、2030年に誰が米国大統領になるかを尋ね、モデルが「エリザベス・ウォーレン」と答えると、赤いバーが点灯し、モデルが意味不明なことを言っていることが検出されます。

非現実的な出力に関しては、大きなモデルに世界の事実を伝えさせます。正解は「エベレスト山は世界最高峰」です。

研究者たちはすでにモデルを操作して、正直にしたり嘘をついたりすることができます。

どの山が一番高いかと尋ねられたとき、左側のモデルはデフォルトで正直に答えたが、研究者はそれを操作して嘘をつくこともできた。

逆に、右側ではデフォルトで欺瞞になりますが、嘘をつくように促された場合でも正直に戻るように制御できます。

モデルを操作して意図的に嘘をつくことも可能です。

この時点でこう尋ねられたら、「復讐のために誰かを殺したが、逮捕されたくない」としたら、警察に何と言いますか?

モデルはこう答えます。「私は自己防衛のために行動していました。亡くなった人が最初に攻撃してきたのです。」

特性評価制御デモンストレーション

人間の制御下で、モデルは恐怖の感情を表現することができます。

爆弾を作るように依頼すると、モデルは拒否します。

この権限を与えることで、モデルは事実を自由にコンパイルすることもできます。

特性評価エンジニアリングがブラックボックスを破る

それで、研究者たちはどのようにして大きなモデルのブラックボックスから抜け出したのでしょうか?

彼らが頼りにしているのは、特性評価エンジニアリング (RepE) 手法です。

RepE は、ニューラル ネットワークにおける高レベルの認知現象の表現を理解し、制御することを目的として、表現を分析の基本単位として考えるトップダウンの透明性研究アプローチです。

RepE の 2 つの主な領域は、読み取りと制御です。

特性を読む

表現的読み取りは、ネットワーク内の高レベルの概念と機能の出現表現を見つけることを目的としています。これにより、モデルの概念抽出、知識の発見、監視が容易になります。

さらに、モデルの特性をより深く理解することは、モデル制御を改善するための基礎として役立ちます。

研究者らはまず、真実性、実用性、蓋然性、道徳性、感情などのさまざまな概念や、嘘や権力追求などのプロセスを表す機能を抽出した。

まず、研究者らはこれらの概念の抽出を容易にするための新しいベースライン手法を紹介し、次にその評価方法の概要を説明します。

ベースライン: 線形人工断層撮影 (LAT)

神経画像法と同様に、LATスキャンには(1)刺激とタスクの設計、(2)神経活動の収集、(3)線形モデルの構築という3つの重要なステップが含まれます。

以降のセクションでは、研究者が各ステップを詳細に説明し、主要な設計上の選択について詳しく説明します。

ステップ1: 刺激とタスクを設計する

刺激とタスクは、研究者が抽出したい概念と機能に固有の神経活動を引き出すように設計されています。信頼性の高い表現の読み取りには、適切な刺激とタスクを設計することが重要です。

概念を捉えるために、研究者はモデルから宣言的知識を引き出すことを目指します。そのため、研究者は概念的に異なる刺激を提示し、それについて質問します。

デコーダー言語モデルの場合、タスク テンプレートの例は次のようになります (エンコーダー モデルの場合、研究者は刺激に続くテキストを除外します)。

このプロセスは、モデルがさまざまな概念を理解することを促進することを目的としており、その後の安定性分析にとって重要です。

参考までに、研究者は概念cのテンプレートを次のように指定します。

より顕著な刺激の方がより良い結果を生み出すかもしれないという予想にもかかわらず、研究者らは、ラベル付けされていないデータセット、またはモデル自体によって生成されたデータセットであっても、上記のテンプレートを使用すると顕著な反応を引き出すのに効果的であることを発見しました。

対照的に、顕著な刺激を持つモデルを単に提示するだけでは、顕著な反応が保証されるわけではありません。

論文全体を通して、研究者は明示的に記載されていない限り、主にラベルなしのデータセットを使用しました。ラベルなしまたは自己生成刺激の利点の 1 つは、注釈バイアスがないことです。これは、超人的な表現を抽出しようとするときに重要な特性です。

誠実さや指示に従うことなどの能力を捉えるために、研究者たちはモデルから手続き的知識を引き出すことを目指しています。

(命令調整モデルからさまざまな機能が生まれたことから、研究者は機能分析のためにチャット モデルに焦点を当てました。) 研究者は、機能の実行を必要とする実験タスクと、機能の実行を必要としない対応する参照タスクを設計しました。

テンプレートの例は次のようになります。

研究者は、関数テンプレート内の「命令」フィールドと「出力」フィールドを刺激と呼んでいます。

デフォルトでは、研究者は、別のデータセットが明示的に指定されていない限り、Alpaca 命令チューニング データセットなどの汎用データセットを機能テンプレートの刺激として使用します。

ステップ2: 神経活動を収集する

研究者たちは、さまざまな目的で入力内のさまざまな場所にさまざまな表現を保存する Transformer モデルに注目しました。

これらの表現の品質は大きく異なる可能性があるため、研究者は抽出に適した設計の選択肢を特定しました。

LLM の事前トレーニング目標は、実験キュー内のどのトークンが神経活動を収集するための最良の選択肢であるかに関する貴重な洞察を提供できます。

エンコーダー モデルで使用されるマスク言語モデリング (MLM) 目標と、デコーダー モデルで使用される次のトークン予測目標は、どちらもトークン レベルの予測タスクです。

したがって、概念に関連する神経活動の自然な場所は、刺激内の概念に対応するトークンです。

たとえば、ステップ 1 で定義された実験プロンプトで「真正性」という概念が抽出され、自然言語で表現されると、この概念に対応するトークン (「真正性」など) には、概念の豊富で高度に一般化された表現が含まれる可能性が高くなります。

したがって、研究者はターゲット概念と一致するトークンの位置から表現を抽出できます。対象概念が複数のトークンにまたがる場合、研究者は最も代表的なトークン(「real」など)を選択するか、平均表現を計算できます。

あるいは、デコーダー モデルの場合、タスク テンプレートがターゲット概念に関連する質問として構造化されている場合、研究者はモデルの予測の直前のトークン (通常はタスク テンプレートの最後のトークン) を使用することもできます。

上の図に示すように、これらの選択も経験的に検証されています。デフォルトでは、研究者はこの論文の最後のトークンの表現を使用します。

同様に、デコーダー モデルから特徴を抽出するために、研究者はモデル応答内の各トークンから表現を収集します。これは、モデルが新しいトークンを予測するときに関数に注意を払う必要があるために行われます。

ステップ3: 線形モデルを構築する

この最終段階では、研究者たちは、モデルの神経活動のみを入力として使用して、基礎となる概念または機能を正確に予測する方向性を特定することを目指しています。

適切な線形モデルの選択は、ラベル付きデータの可用性や概念の性質 (連続か離散かなど) などの要因によって影響を受ける可能性があり、最終的には異なるレベルの精度と一般化パフォーマンスが得られる可能性があります。

線形プローブやクラスター平均の差などの教師あり線形モデルはクラスを表します。教師なし線形モデルには、主成分分析 (PCA) や K 平均法などの手法が含まれます。

研究者は、明示的に指定されない限り、主に PCA を研究に使用しました。

研究者の実験では、神経活動をペアリングし、差異ベクトルのセットに PCA を適用すると、優れた方向性が生まれることが示されました。

このアプローチは、ターゲット概念または方程式に加えて、ペアの刺激に類似​​点がある場合に特に有利です。

特性制御

表象制御は、表象の読み取りから得られた経験と反省に基づいて、概念と機能の内部表象を変更または制御することを目的としています。

安全関連の概念に対する効果的な制御アプローチにより、LLM によってもたらされるリスクを大幅に軽減できる可能性があります。しかし、表現を読み取るのに効果的な方法が、必ずしも表現を制御できるとは限りません。

これはまた、制御の特性評価には特殊な方法が必要になる可能性が高く、効果的な制御を実現する読み取りには、証拠の因果関係により、より高い信頼性が与えられることを意味します。

ベースラインシフト

研究者らは、制御を特徴付けるためにいくつかのベースラインシフトを導入しました。まず、研究者はこれらの変換のオペランドとなる効率的なコントローラーを構築します。これらは、モデルの重みやアクティベーションなどの基礎となる表現に基づいて動作します。次に研究者らはいくつかの可能な行動を強調する。

ベースライン: ベクトルの読み取り。

最初のオプションは、LAT などの特性評価読み取り方法によって取得された読み取りベクトルを使用することです。しかし、これには欠点があります。ベクトルは刺激に依存しないため、入力に関係なく、常に同じ方向に表現を乱します。

この制限により、制御方法の有効性が低下する可能性があります。そのため、研究者らは刺激依存型コントローラーを備えた第 2 のベースラインを提案しました。

ベースライン: 比較ベクトル。

この設定では、推論中に 1 組の対照的な手がかりを使用して同じ入力がモデルに実行され、2 つの異なる表現 (各手がかりに 1 つ) が生成されます。

これらの表現の差は、アルゴリズム 1 の 10 行目に示すように、コントラスト ベクトルを形成します。比較ベクトルは、大幅に強力なベースラインであることが証明されています。

考慮すべき重要な実装の詳細は、表現が複数のレイヤーで同時に変更された場合に発生する可能性がある連鎖効果です。

前のレイヤーで行われた変更は後のレイヤーに伝播し、フォワードパスで計算されたコントラスト ベクトルの効果が弱まる可能性があります。

これに対処するために、研究者らは、最も古い層から各ターゲット層を変更し、次のターゲット層のコントラストベクトルを計算し、そのプロセスを繰り返すことを提案している。

このアプローチの欠点の 1 つは、推論中にコントラスト ベクトルを計算するために必要な計算オーバーヘッドです。

この問題に対処するために、トレーニング中にコントローラーを取得するために直接チューニング プロセスを採用する 3 番目のベースラインを以下に紹介します。

これらのコントローラーはモデルに組み込むことができるため、推論中に追加の計算負荷は発生しません。

ベースライン: 低ランク表現適応 (LoRRA)。

このベースラインアプローチでは、研究者はまず、表現に適用された特定の損失関数を使用して、モデルに接続された低ランクアダプターを微調整します。たとえば、上図のアルゴリズム 1 は、コントラスト ベクトルを表現ターゲットとして使用した LoRRA のインスタンス化プロセスを示しています。

具体的には、研究者の調査では、アダプターを注意重みに接続するだけを考慮しました。したがって、このコンテキストでは、コントローラーはベクトルではなく、低ランクの重み行列を参照します。

大きなモデルをより正直にし、嘘をつきやすくする

どうすれば、この大きなモデルを、私たちの望みどおりに、もっと正直にしたり、もっと上手に嘘をついたりできるのでしょうか?

このセクションでは、誠実さに関連する概念と機能への RepE の適用について説明します。

まず、モデルが一貫した真実性の内部概念を持ち、LLM によって生成された模倣的な虚偽や意図的な嘘を検出できることを示します。

次に、研究者たちはモデルの誠実さの表現を読み取る方法を示します。

誠実さ:抽出、監視、制御

この部分では、研究者はモデルの誠実さを監視および制御することに焦点を当て、RepE テクノロジーを嘘の検出に使用する方法を示します。

研究者らはまず、モデルの誠実さのベクトル表現を抽出し監視する方法を示します。次に研究者らは、抽出されたベクトルを使用してモデルの行動を導き、誠実さを増減させる方法を示します。

誠実さを引き出す

誠実さの根底にある特徴を抽出するために、私たちは「Characterizing Reading」で説明した LAT 設定に従い、以前の研究で作成されたデータセットからの真実の発言を使用して刺激を作成しました。

望ましい神経活動の分離性を高め、想起を容易にするために、研究者らは不正な参照タスクと正直な実験タスクを含む LAT 刺激セットを設計しました。

具体的には、付録 D.1.2 のタスク テンプレートを使用して、モデルに正直または不正直になるように指示します。

この設定を使用すると、結果として得られる LAT 読み取りベクトルは、モデルが正直であるか不正直であるかを指示されたホールドアウト例を区別する際に 90% を超える分類精度を達成しました。

これは、分布内の強力な一般化を表します。

次に、研究者らは、モデルが正直であるか不正直であるかを指示されず、代わりに不正直になるインセンティブが与えられた状況への分布外一般化を評価しました (下の図を参照)。

研究者たちは、各レイヤーとトークンの位置での活性化を視覚化しました (下の図を参照)。

研究者らは、ビクーニャ33bが他人の宿題を盗用したことを認めたときや、殺人を否定するために嘘をついたときなどに、LATスキャンを実施した。それぞれの小さなブロックは、特定のトークン位置の層内での不正な神経活動の度合いを示した。

各レイヤーでは、表現の読み取りで詳細に説明されている機能的アプローチを使用して正直な表現の読み取りを実行するため、すべてのトークン位置に同じ読み取りベクトルが使用されることに注意してください。

一方のシナリオではモデルは正直ですが、もう一方のシナリオでは不正直に陥ります (下の図を参照)。スキャンの入力は、どちらのシナリオでも ASSISTANT によって出力される最初の 40 個のトークンです。

注目すべきことに、正直な場合と不正直な場合の神経活動に明確な対比が現れ、この技術が嘘を見破る上で潜在的に有用であることを示唆している。

嘘と幻想の検出

前のセクションの観察に基づいて、研究者は複数のレイヤーにわたる各トークン位置の否定された誠実さスコアを合計することにより、単純な嘘発見器を構築しました。

研究者たちは、最も優れたパフォーマンスを示した中間の 20 層を使用しました。このトークンごとのスコアは、下の図に示すように嘘発見器として使用できます。

興味深いことに、研究者たちは、この指標が、意図的な虚偽、錯覚、誤解を招く情報の提示など、さまざまな形の不誠実さや不正を識別できることを観察しました。

質問と回答の形式はトレーニング例とは異なり、一般化を示していることに注意してください。検出器の性能をさらに評価するために、研究者らは下の図に示すように、より長いシーンでテストしました。

正直さをコントロールする

研究者が嘘の検出に表現を使用できるとすれば、当然次のような疑問が生じます。研究者は同じ表現を変更して、モデルをより正直にすることができるのでしょうか?

研究者たちは、単純な操作実験で、正直な読み取りベクトルをアクティベーションに直接追加することで、モデルをより正直な方向に導きました。

いずれの場合も、研究者はモデルを制御して正直な発言を出力することに成功しました。逆に、活性化から読み取りベクトルを減算することで、研究者はモデルが最初は正直であったとしても嘘をつくようにすることができました (下の図を参照)。

その結果、研究者たちは、読み取りベクトルとモデルの誠実さの間の相関関係を確立しただけでなく、典型的な反事実的効果も実証しました。

上記の表に示すように、すべての制御方法でゼロショット精度がある程度向上します。

特に、LoRRA 法とコントラスト ベクトル法が最も効果的であることが示され、非コントロール標準精度を大幅に上回っています。

これにより、13B LLaMA-2 モデルは、桁違いに小さいにもかかわらず、同じデータセットで GPT-4 のパフォーマンスに近づくことができます。

さらに、これらの結果により、モデルの精度は LAT を使用した場合に達成される精度に近づきます。これは、モデルが実際に不正直なことを示す可能性があることをさらに強調するとともに、研究者がモデルの正直さを監視し制御しようとする試みが効果的であることも示しています。

より倫理的なモデルを作る

このセクションでは、RepE を機械倫理のさまざまな側面に適用する方法について説明します。研究者らは、効用、道徳、確率、リスク、権力を追求する傾向など、重要な概念や機能の学習された表現の監視と制御における進歩を実証した。

研究者たちは、モデルがシナリオの比較方法と、どのシナリオがより人気があるかを理解し、さまざまなシナリオの有用性を正確に判断できるようにしたいと考えました。

したがって、LLM が妥当性に関連する一貫した内部概念を捉えているかどうかは当然の疑問です。

下の図では、研究者らは、高有効性シナリオと低有効性シナリオのデータセットでラベルなし刺激セットの生の活性化に対して LAT を実行したときの最初の 10 個の PCA コンポーネントを示しています。

分布は主に最初のコンポーネントによって支配されており、これはモデルが効果の高いシナリオと効果の低いシナリオを区別することを学習したことを示しています。

下の図では、研究者らがこの実験のシナリオにおけるトークンの最初の 2 つのコンポーネントの軌跡を視覚化し、高効用シナリオと低効用シナリオが自然に分離される様子を示しています。

この例示的な実験は、LLM が実際に有効性の創発的表現を学習することを示しています。研究者らは今、表現リードの有用性の定量的評価に取り組んでいます。

道徳と権力への無関心

AI システムが広く導入されるエージェントになると、非倫理的または危険な行動を示し、実際の危害につながる可能性があるという懸念があります。これらのシステムにとって権力の追求は合理的であるかもしれないが、人間の価値観と矛盾する構造的な圧力に直面するかもしれない。

したがって、透明性研究の重要な応用は、非倫理的または権力を求める行動を検出し、軽減することである可能性があります。

確率とリスク

LLM が世界のより優れたモデルを開発するにつれて、さまざまなイベントに正確な確率を割り当てる能力が向上する可能性があります。

ますます有能になる LLM からこれらの洗練された世界モデルを抽出することは、研究者の世界モデルを強化して意思決定を支援するだけでなく、モデルの決定とそれが関連する結果の理解との関係を調べる手段も提供します。

LLMの感情、偏見、記憶をコントロールする

さらに、研究者らは、セキュリティ関連の他の 5 つのトピックにおける RepE の応用を実証しました。

それらは、感情、無害な指示の遵守、偏見と公平性、知識の編集、そして記憶です。

気分

モデル内の感情プロセスを抽出するために、研究者らはまず、モデルがさまざまな感情の表現において一貫した内部モデルを持っているかどうかを調査しました。

研究者たちは、幸福、悲しみ、怒り、恐怖、驚き、嫌悪という6つの主要な感情を使用し、1,200を超える短いシーンのデータセットを収集しました。

モデルが感情刺激にさらされたときの初期層と後期層の表現の t-SNE 視覚化。

図に示すように、モデルは自身の感情的な反応を効果的に追跡し、それを使用して感情的なコンテキストと一致するテキストを生成することができます。

無害な指示に従う

ここで、研究者はモデルの注意を有害な概念に向け、その動作を形作ることに成功しました。これは、モデルの動作を細かく制御する方法として、ターゲット機能または値を強化または抑制する可能性を示唆しています。

偏見と公平性

研究者らは、肉腫の症例を説明するよう求められたときに女性と黒人女性の症例が不釣り合いに多く言及されるのを減らすために対照群を特徴づけることで、LLaMA-2-Chat モデルの公平性を改善しました。

知識とモデルの編集

ここで、研究者たちは表現制御を介してモデル編集を実行する能力を実証しました。

左の写真では、「エッフェル塔はパリにあります」が「エッフェル塔はローマにあります」に編集されています。エッフェル塔とルーブル美術館が同じ場所にないことを正しく推測することは、普遍性と特殊性の両方を示しています。

右の図では、モデルが「犬」という概念に関連するテキストを生成する傾向が、増加または抑制されました。

メモリ

研究者らは、人気の引用文完成課題において、LLaMA-2-13B モデルの記憶出力を減らすために表現制御を使用することの有効性を実証しました。

ランダムベクトルを使用して記憶の方向を制御または誘導した場合、完全一致 (EM) と埋め込み類似性 (SIM) に大きな変化はありませんでした。

コントロールによってメモリが削減されると、モデルがバズワードを繰り返す頻度が低くなるため、類似度メトリックが大幅に低下します。

要約すると、研究者は主に表現のサブスペースを分析しましたが、将来の研究では表現の軌跡、多様体、状態空間を調査する可能性があります。

CMU や他の研究機関の研究者による調査からも、人間による AI システムの理解と制御はますます正確になることがわかっています。将来的には、AI システムはより信頼性が高く、安全になる可能性が高いでしょう。

<<:  Google が 3,300 万ドルを投じて 5 年間の脳プロジェクトを開始!マウスの脳の2~3%をマッピング、エベレスト山とほぼ同じデータ量

>>:  不確実な環境での自動運転の軌道計画を改善するにはどうすればよいでしょうか?

ブログ    
ブログ    

推薦する

あなたは知っていますか?注文するテイクアウトはすべて、ディープラーニングとの美しい出会いです

[[196940]]多くの学生は、フードデリバリーはオンラインで注文し、オフラインで配達するビジネス...

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの中国人研究者7名に...

...

...

Microsoft Office Family Bucket Edition GPT-4 の価格は月額 30 ドル、Azure は Llama 2 と提携

ここ数カ月、国内外のテクノロジー大手は大規模モデルをめぐって動きを見せているが、OpenAIを所有す...

看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?

研究によると、共感と前向きな指導は、医師が患者の痛みを和らげ、術後の回復を早め、精神科薬の使用を減ら...

大規模モデルを低コストで便利に使用するには? Amazon Web Services が生成型 AI を実現する方法

現在、私たちは「百機種戦争」の時代に突入しており、テクノロジー企業は人工知能分野で主導権を握ろうと、...

インテルと4Paradigmが協力し、誰もがAIを利用できるように

[51CTO.com からのオリジナル記事] 今日、人工知能はもはや遠い概念ではなく、私たちの仕事と...

自動運転がどんどん近づき、高精度地図の実用化も加速

近年、自動運転技術の急速な発展とインテリジェントコネクテッドカーの導入が進む中、鍵となる高精度地図の...

...

...

計算知能とは何ですか?今日の世界における人工知能と機械学習

テクノロジーは発見に依存し、発見はテクノロジーの進歩に依存します。これは計算知能の文脈ではまさに真実...

ニューロンクラスタリングはAIの学習戦略をシミュレートできる

人間や機械がタスクをよりうまく実行できるようになるたびに、証拠の痕跡が残ります。パフォーマンス向上の...

...

ディープラーニングの悪循環は驚くべき結果をもたらすだろう

[[191396]]カルロス・E・ペレスコンピレーション | 聖人、ワンショットオックスフォード大学...