大規模モデルの AI アシスタントを開発するには、ChatGPT のような調整と微調整がすでに業界標準の手法であり、通常は SFT + RLHF の 2 つのステップに分かれています。 アレン研究所の新しい研究によると、これらのステップはどちらも必要ないことがわかりました。 ? ? 新しい論文では、事前トレーニングされたばかりの基本モデルがすでに指示に従う能力を習得しており、プロンプトだけでプロジェクトを誘導できると指摘しており、開発コミュニティから強い注目を集めています。 RLHF は非常に高価であり、トレーニングが安定していないため、これにより多額の費用を節約できます。 これに基づいて、この研究では、微調整を必要としない新しいアライメント方法URIALを提案しました。 論文では、この新しい手法を「基礎となるモデルの潜在能力を解き放つ呪文」と表現しており、これにより多くの計算リソースと時間を節約できるとしている。 さらに注目すべきは、安定した RLHF (人間強化学習) 機能を持たない小規模チームでも、低コストでチャットや指示に従うことができるアライメント モデルを開発できることです。 現在、URIAL コードと新しい評価ベンチマーク Just-Eval-Instructがオープンソース化され、アップロードされたばかりです。 この研究は、アレン研究所とワシントン大学のYejin Choi 氏のチームによるものです。Top_p サンプリングは過去に提案されたもので、今日の大規模モデル API 呼び出しでよく使用されるパラメーターです。 第一著者のリン・ユーチェンは上海交通大学の卒業生です。 SFT+RLHF 神話を打ち破るアライメントの微調整に疑問を持ち始めた最初の研究は、5月にMetaらがLIMAで実施した研究でした。 LIMA は、ChatGPT のパフォーマンスに匹敵するには、SFT (教師あり微調整)に必要なサンプルは 1,000 個だけであると指摘しています。 論文の中で、LIMA チームは「表面的整合仮説」についても検討しました。
言い換えれば、アライメント フェーズでは、モデルの機能が強化されることなく、モデルの言語スタイルのみが調整されます。 URIAL チームは、表面アライメント仮説から出発して、ベース モデルとアライメント モデル間のトークン分布シフト(TDS) を比較するための広範な実験を実施しました。 この実験では、3 つのグループの基本モデルを使用して、アライメント モデルと比較します。結果は次のようになります。
次の質問は、SFT と RLHF なしで、基本モデルを複数回の会話を行い、指示に従うことができる AI アシスタントに変換するにはどうすればよいかということです。 ウリアルチームの調整されていないアライメント方法 URIAL (Untuned LLMs with Restyled In-context ALignment)は、ベース モデルのコンテキスト学習機能のみを活用して効果的なアライメントを実現し、必要なのは 3 つのスタイル例とシステム プロンプトだけです。 実験では、研究チームはURIAL法を使用して、7B、70BのLlama2とMistral-7B大型モデルの位置合わせを行いました。 結果は、ベースモデルが強力な場合、 URIAL は SFT や RLHF よりも優れたパフォーマンスを発揮することを示しています。 チームは、URIAL メソッドの主な貢献は次のとおりであると考えています。
この実験では、URIAL の異なる数の例も調査しました。8 に増やすと、いくつかの指標が大幅に改善されましたが、いくつかの指標も低下しました。最終的に、著者らはバランスの取れたアプローチとして 3 を使用することを推奨しました。 異なる例への変更に対しても堅牢です。 以前の会話を例の一部として使用する場合、URIAL は基本モデルが複数ラウンドの会話の機能を獲得できるようにすることもできます。 もう一つ論文でテストされたLlama-2とMistralは、実際には一般的にアルパカ科に属します。 URIAL の微調整不要のアライメント方法は、Alpaca アーキテクチャ以外の大規模モデルにも使用されますか? Alpaca 以外の大規模なオープンソース モデルを見つけるのは難しいため、リリースされたばかりの Mamba アーキテクチャ ベースのモデルである Transformer Challenger を試してみました。 Mamba は状態空間モデルです。アルパカでもなければ、トランスフォーマーでもありません。 論文の付録に記載されている URIAL 標準プロンプト語のセットを使用した簡単なテストでも、同じことが当てはまることがわかりました。 URIAL を使用して、「状態空間モデルとは何かを 6 歳児でも理解できる方法で説明できますか?」と質問します。 Mamba は数学的に定義された状態を道路上の車の位置と比較しますが、これは比較的シンプルで理解しやすいものです。また、マークダウン形式の画像リンクも提供し、画像とテキストの両方で質問に答えようとします。 URIAL を使用せずにこの質問を直接入力すると、Mamba は基本モデルと同じように動作し、質問に答える代わりにテキストを補完し、説明が重複することになります。 論文: https://allenai.github.io/re-align/ |
<<: 700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業
>>: 2024年に最も使用される11のAIテキスト生成ツール
2014年、Googleはイギリスの人工知能研究所DeepMindを買収した。現在、DeepMind...
常に人工知能の脅威論を支持してきたシリコンバレーの「鉄人」マスク氏は、今回、プログラマーたちの間で支...
人口は飛躍的に増加しており、農業は人口を養う問題を解決する必要がある。農業をより効率的かつ持続可能な...
2020年が過ぎようとしています。今年、人工知能の分野ではどんな大きな進展がありましたか?以下で一緒...
クラウド セキュリティのスタートアップ企業 Wiz の研究者は、SAS トークンの設定ミスが原因で、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Midjourney 5.2 はちょうど 1 週間前にリリースされ、さらに大きなアップデートが行われ...
現在、莫大な研究開発費と長い研究開発サイクルが、製薬会社の研究開発とイノベーションにおける「障害」に...
昨日、私たちは地球の最大の課題に取り組む絶好の機会であるアースデーを祝いました。 COVID-19パ...
脅威の状況が絶えず変化する中、高度なサイバー攻撃に対する防御手段として、生成型人工知能 (GAI) ...
米国移民関税執行局の最近の新しい規制は、アメリカのトップ大学の間で騒動を引き起こしている。ハーバード...
IT Homeは11月16日、韓国銀行が最近、人工知能(AI)が労働市場に与える影響に関する調査報告...
近年、人工知能などの新世代情報技術や5Gなどの新世代通信技術の急速な発展に伴い、あらゆる分野で科学技...
2023年ももうすぐ終わりです。過去1年間で、さまざまな大型モデルがリリースされました。 OpenA...