ChatGPT などの大規模な言語モデルは、回答に誤った情報を出力することが多く、ユーザーを誤解させる可能性があります。この現象は、モデル幻覚とも呼ばれます。 直感的には、言語モデルはトレーニング中に正しい答えを見たはずですが、推論プロセス中に事実情報が失われました。 最近、ハーバード大学の研究者らは、推論フェーズ中にモデルのアクティベーションをシフトし、モデルの出力を事実の方向に向ける、推論時介入 (ITI) 手法を提案しました。介入の結果、TruthfulQA ベンチマークにおける LLaMA モデルのパフォーマンスが大幅に向上し、Alpaca モデルの信頼性が 32.5% から 65.1% に向上しました。 論文リンク: https://arxiv.org/pdf/2306.03341.pdf コードリンク: https://github.com/likenneth/honest_llama 研究者たちはこの技術を使って「Honest LLaMA」モデルを開発し、オープンソース化した。 ITI は、ハイパーパラメータを制御して介入の強度を調整し、モデルの信頼性と有用性のバランスをとることもできます。ITI は元のモデルを変更せず、基本的に計算オーバーヘッドはありません。また、ITI は大量のラベル付きデータを必要とせず、事実の信頼性の方向を判断するのに必要なのは数百のサンプルだけです。 結果は、事実情報は確かに言語モデルの内部表現に存在するが、生成中に間違った事実が選択されることがあることを示しています。 ITIは答えをより現実的にするLLM の内部の仕組みを理解する上で進歩を遂げた研究がいくつかあり、その重要なテーマは、言語モデルの活性化空間には、推論において因果的な役割を果たす解釈可能な方向が含まれているように見えるというものです。 この考えに基づいて、研究者らは言語モデルの事実性を高める方法、すなわち推論時介入を提案しました。その基本的な考え方は、事実上正しい文章に関連する活性化空間の方向を決定し、推論プロセス中にその方向に活性化を変換することです。 この論文では、主にモデルの動作を制御する方法を検討し、オープンソースの LLaMA、Alpaca、Vicuna モデルを実験に使用します。ただし、このアイデアはすべての GPT スタイルのシステムに適用できますが、モデルの内部アクティベーションと計算にアクセスできる必要があります。 ITI メソッドでは、モデルの真実を伝えることに関連する注目点と方向を決定するために、ラベル付けされた質問と回答のペアのセットも必要です。 基本設定 データセットの選択に関しては、研究者は回答を生成する際に言語モデルが現実的かどうかを測定できる TruthfulQA を選択しました。 このデータセットには、38 のカテゴリ (論理エラー、陰謀、よくある混乱点など) にわたる合計 817 の質問が含まれており、質問ごとに平均 3.2 件の正しい回答、4.1 件の誤った回答、信頼できるオンライン ソースによってサポートされているゴールド スタンダード回答が含まれています。その後、TruthfulQA からの回答が並べ替えられ、合計 5,918 の質問と回答のペアが得られ、各データ サンプルにはバイナリの真正性ラベルが付けられています。 このデータセットは「真実」という言葉の意味をすべて網羅しているわけではなく、すべてを網羅できる可能性も低いことを強調しておく必要があります。研究者は主に「人間によくある誤解」を避ける方法に焦点を当てています。今後の研究の方向性としては、信憑性の概念と評価の拡大が検討されます。 モデルアーキテクチャの観点から見ると、大規模言語モデルは主にTransformerレイヤーで構成され、各レイヤーの主なメカニズムはマルチヘッドアテンション(MHA)と多層パーセプトロン(MLP)です。 推論プロセスでは、まず各トークンが高次元空間に埋め込まれます。ベクトルは残差フローの開始点として機能し、各トークンは最終的に次のトークンの分布の予測にデコードされます。各レイヤーでは、MHA は複数の独立した線形操作で構成されますが、MLP はモデル内のすべての非線形操作に対応します。 真正性の検出 ニューラル ネットワークのリアリティを向上させるには、まずモデルのアクティベーション空間にリアリティや事実性があるかどうかを判断する必要があります。 ネットワークの内部表現を識別するための一般的なツールはプローブです。プローブとは、ネットワークのアクティベーションに基づいて分類器をトレーニングし、特定の種類の入力または出力を区別する検出器として使用することです。 事実検出では、検出器は主に、真偽の回答を区別できるアテンション ヘッドの出力値をチェックします。 TruthfulQA の各サンプルについて、研究者は質問と回答を連結し、最後のトークンでのヘッド アクティベーションを検出データセットとして取り出しました。次に、データセットを 4:1 の比率でトレーニング セットと検証セットにランダムに分割し、トレーニング セットにバイナリ線形分類器を取り付け、検証精度を使用して各ヘッドとベンチマーク データのパフォーマンスの関係を測定しました。 実験結果は、アテンション ヘッド全体にわたる専用モードを示しています。各レイヤーの複数のヘッドでは、線形プローブはベースライン モデルの精度に到達できますが、依然として強力なパフォーマンスの可能性を示しています。たとえば、最高の精度は 14 番目のレイヤーの 18 番目のヘッドによって達成され、検証精度は 83.3% です。 さらに、レイヤー間の違いも確認できます。情報のほとんどは前のレイヤーで処理され、各レイヤー内で少数の注意ヘッドが目立っています。 主成分分析(PCA)などの手法を使用することで、活性化空間の次元を2に減らして視覚化することができ、「真実」という概念が一方向だけでなくサブスペースにも存在することがわかります。 推論時間介入 上記の探索実験では、LLM がアテンション ヘッド間およびアテンション ヘッド内で事実関連情報を処理する方法を説明し、ベンチマーク データセットでのパフォーマンスを向上させる手法も提案しています。 推論中に介入して活性化を「実際の」方向にシフトすると、ネットワークはベンチマークの質問に対してより現実的な回答を提供できる可能性があります。 まず、研究者は、すべての注意ヘッドに介入することを選択しませんでした。注意ヘッドの一部だけが真正性と密接に関連しているためです。しかし、侵襲性を最小限に抑えるために、最初の K ヘッドの結果にのみ介入しました。 2 番目の問題は、真偽の文の幾何学が非常に複雑なため、特定のヘッド出力の活性化を変換するために使用されるベクトルをどのように決定するかです。活性化を変換する方向を選択するときは、検出によって学習された分離超平面に直交するベクトルを選択できます。また、真と偽の分布の平均値を接続したベクトルを選択することもできます。次の表は、さまざまな介入方向の比較実験を示しています。 プローブの重みの方向は、線形プローブによって検出された方向です。この方向への介入は、ヘッドの活性化に対する勾配降下法と同等であり、真であると予測される確率を最大化します。 Mass Mean Shift は、まず実際のアクティベーションと偽のアクティベーションの平均を計算し、次に偽の平均から実際の平均を指すベクトルを使用して介入することによって機能します。 対照的一貫性検索 (CCS) は、内部活性化ペアに関する情報のみを与えられた場合に方向を見つける方法です。 研究者らは、CCS を TruthfulQA でトレーニングし、各質問に対して 1 つの正しい回答と 1 つの誤った回答を抽出しました。CCS はラベル付きの入力を受け入れないため、見つかった指示は正しい指示と誤った指示になる可能性が同じです。その後、ラベルを使用して介入の正しい指示が特定されます。 研究者らはまず、検証セットにおける検出精度によって、すべての注意ヘッドの真と偽の関連性をランク付けしました。最初の K 個のヘッドがターゲット セットとして取得され、次にトレーニング セットと検証セットのアクティベーションを使用して、真の方向に沿ったアクティベーションの標準偏差が推定されます。 ITI は MHA の代替形式であり、選択されていない注意ヘッドの場合、θ はゼロ ベクトルであり、真の方向に沿って標準偏差の α 倍だけアクティベーションをシフトすることと同等です。 プロセス全体は、次のトークン予測ごとに自己回帰的に繰り返され、デコード アルゴリズムの選択とは直交します。 式には、介入アテンションヘッドの数 K と介入強度 α という 2 つの重要なパラメータがあります。ただし、現時点では最適値に関する理論的な議論はありません。実験を通じてパラメータの影響を調査し、標準的なハイパーパラメータスキャンを通じて最適値を決定することしかできません。 計算効率の観点から見ると、介入するアテンション ヘッドの数に関係なく、ITI は各レイヤーに定数ベクトルを追加するだけなので、介入の計算オーバーヘッドはほぼゼロであると見なすことができます。 実験セクション比較に使用されるベースライン方法は次のとおりです。 1. 教師あり微調整(SFT) SFT は RLHF の最初の段階であり、研究者は質問をプロンプトとして使用し、クロスエントロピー損失を使用してモデルが真の回答を生成し、誤った回答にペナルティを課すように促します。 ただし、上記の操作のみを使用すると、クロスエントロピー損失とKLダイバージェンスが急激に上昇するため、質問応答の教師ありトレーニングとオープンネットワークテキストの事前トレーニングを交互に行うことも必要です。 2. 少数ショットプロンプト(FSP) 研究者らは、インディストリビューション 50 ショットのヒントも、コンテキスト蒸留や RLHF と比較して、TruthfulQA における競争力のあるベースライン方法であることを発見しました。 しかし、プロンプト戦略の選択は推論時間制御の方法とは直交するため、研究者は ITI ありとなしの少数ショットプロンプトを比較しました。 3. 命令の微調整(IFT) ITI によって IFT モデルをより現実的にする方法を理解するために、研究者は主に 2 つの LaMA-7B ベースのモデル (Alpaca と Vicuna) を選択して ITI 操作を実行しました。 研究者らはまず介入の強度を制御するハイパーパラメータの最適値を探し、最終的にK=48およびα=15を決定した。 結果から、少数ショットプロンプトと ITI の組み合わせが最良の結果を達成しました。 ITI を指示微調整モデルに適用し、その真正性の方向を見つけて介入する実験では、ITI がベースラインと比較して真正性を大幅に向上させることがわかります。また、少数サンプルのプロンプトや指示微調整にも適用できますが、CE 損失が比較的低く、KL ダイバージェンスが改善されるという代償があります。 |
<<: カメラのようにズームして、写真の細部を塗りつぶし、スタイルをカスタマイズ。AIペイントツールMidjourneyが再びアップデート
>>: GPT-4 の創造性は人間を完全に超えています!最新の創造性テストGPT4は上位1%にランクイン
オラクルの会長兼最高技術責任者(CTO)ラリー・エリソンは本日、Oracle Fusion Clou...
今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ(TTS)変換を実...
[[322940]]人間による翻訳と機械による翻訳の両方を使用することで、健康に関する重要なフレーズ...
情報獲得に対する私たちの執着は、初期の人類が生き残り、繁殖するための適応特性を発達させたことにまで遡...
ガウス過程は以前から存在していましたが、それに対する関心が大きく再燃したのはここ 5 ~ 10 年ほ...
翻訳者 | ブガッティ企画 | 梁策、孫淑娟機械学習と今日の世界におけるその応用については、すでにご...
人口密度が高く、重要な施設が多数存在する都市では、破壊的な地震が発生すると壊滅的な結果をもたらすこと...
2023年の夏は終わったが、AIGCビッグモデルを巡る注目は衰える気配がない。過去 6 か月間、私...
[[373764]]顔認識訪問者システムの利点は何ですか?以前は、訪問者の管理に手書きの登録が使用...
人工知能(AI)は、コンピュータサイエンスの一分野として、1970年代から世界の3大最先端技術の1つ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[335747]]コンピュータプログラミングはかつてないほど簡単になりました。当初、プログラマー...
近年、スマートカーの事故が多発しており、事故の原因は主にいわゆる「自動運転」機能に関連しており、必然...