アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

今年は、ChatGPTやGPT-4に代表される大規模言語モデル(LLM)が急速に発展しました。それに続いて、MetaのオープンソースLLaMaおよびLlama 2シリーズモデルもAIコミュニティに大きな波紋を巻き起こしました。しかし、これには絶え間ない論争が伴います。LLM には制御不能なリスクがあり、人類の生存に潜在的な脅威をもたらすと考える人もいます。

これらの課題に対処するために、LLM アライメントの研究がますます重要になっています。一部の研究者は指示に従うことを提案していますが、この方法では多くの手動注釈が必要です。しかし、このような高品質の指示に従うデータセットに注釈を付けるには、非常にコストがかかります。

この論文では、Meta AIの研究者らが、対応する命令に自動的に注釈を付けることで高品質の命令準拠言語モデルを構築するスケーラブルな方法である命令バックトランスレーションを提案しました

論文アドレス: https://arxiv.org/pdf/2308.06259.pdf

具体的には、研究はシードモデルとしての言語モデルから始まり、少量のシードデータと Web コーパスで微調整されます。シード モデルの役割は、トレーニング サンプルを作成し、それらのサンプルから高品質のサンプルをいくつか選別し、これらのデータを使用してより強力なモデルを微調整することです。

LLaMa を 2 ラウンドの反復データセットで微調整した後、結果として得られたモデル Humpback は、Alpaca リーダーボードで LIMA、Claude、Guanaco などの他の既存の非蒸留モデルよりも優れたパフォーマンスを発揮しました。

Humpback はもともとザトウクジラを意味し、ザトウクジラとしても知られています。Meta はこのモデルを Humpback と名付けましたが、これには特別な意味があるのか​​もしれません。

この翻訳は、機械翻訳における古典的な逆翻訳手法を利用しており、人間が書いた翻訳対象文に、モデルが生成した別の言語の原文が自動的に注釈付けされるため、指示逆翻訳と呼ばれています。研究者らによると、この手法は機械翻訳における古典的な逆翻訳手法を利用しているとのことです。

チューリング賞受賞者のヤン・ルカン氏は、研究アプローチの概要を説明し、アライメント研究に重要な貢献をしたメタを称賛しました。

別のネットユーザーは、この研究について、データの品質は確かに大規模モデルにとって重要であるとうまくまとめています。研究中、彼らはさまざまなレベルのフィルタリングされたデータを使用してモデルを微調整しました。その結果、最良のサンプルだけが、他のサンプルよりも優れたパフォーマンスを発揮するモデルを生成できることが示されました。

この論文では、2 つのステップを必要とする新しいデータ拡張パラダイムを提案します。まず、より優れた命令データを生成するために、シード(命令、出力)ペアのセットとコーパスが必要です。

次の図は、Humpback といくつかのオープンソース モデルおよび独自モデルを比較したものです。

以下の表 4 は、65B および 33B モデル スケールの両方において、当社の方法が非蒸留モデルの中で最も優れたパフォーマンスを発揮するモデルであることを示しています。

具体的な方法を以下で見ていきましょう。

方法の紹介

この研究では、一般的に基本言語モデル、少量のシードデータ、ラベルなしのサンプルセット(Web コーパスなど)へのアクセスを前提とした自己トレーニング アプローチを提案しています。ラベルなしデータは、多くの場合、人間が作成したさまざまな形式の大量のドキュメントであり、人間が興味を持つさまざまなトピックに関するコンテンツが含まれていますが、最も重要なのは、指示が付いていないことです。

ここでは 2 つの重要な前提があります。最初の前提は、この非常に大きなテキスト セット (ラベルなしのサンプル セット) には、特定のユーザー指示の生成サンプルとして適したサブセットがいくつかあるということです。 2 番目の仮定は、これらの候補回答に対する指示を予測することができ、それを使用して、指示に従うモデルをトレーニングするための高品質のサンプル ペアを形成できるということです。

下の図 1 に示すように、この研究では、命令の逆翻訳プロセスは次の 2 つの主要なステップで構成されていると提案されています。

  • 自己拡張: ラベルなしデータ (Web コーパスなど) の指示を生成し、指示の調整用のトレーニング データ ペア (指示出力) を生成します。
  • 自己管理: 高品質のサンプル データをトレーニング データとして自動的に選択し、指示に従うようにベース モデルを微調整します。このアプローチは反復的に実行されます。

自己管理手順で使用されるプロンプトを以下の表 1 に示します。

実験と結果

この記事のデータセットには、主にシードデータと拡張データが含まれています。具体的な情報は表 2 と図 2 に示されています。

図 3 は、データ サイズが増加したにもかかわらず、自己キュレーションなしで拡張データを使用してモデルをトレーニングすると、指示に従うパフォーマンスが向上しないことを示しています。

次の図は、さまざまな命令チューニング データセットのデータ効率を比較したものです。

データとモデルの共同拡張: 調査の結果、7B モデルで観察されたデータ拡張の傾向は、より大規模なモデルにも当てはまることがわかりました。たとえば、65B シード モデルに高品質の拡張データを追加すると、さらなる改善が実現します。

常識的推論: この調査は、SIQA、PIQA、Arc-Easy、Arc-Challenge、Openbook QA (OBQA) の 5 つの常識的推論ベンチマークでテストされました。結果は表 5 にまとめられています。結果は、基本モデルと比較して、社会的推論などの多くの側面で私たちのモデルのパフォーマンスが向上したことを示しています。

MMLU: 表 6 は、MMLU (大規模マルチタスク言語理解) に関するさまざまなモデルの結果をまとめたものです。微調整されたモデルは、ベースモデルと比較してゼロショットの精度が向上しますが、5 ショットのコンテキストの例ではパフォーマンスが低下します。

<<: 

>>:  GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

ブログ    
ブログ    
ブログ    

推薦する

ビデオ監視産業の発展動向とAI技術の応用

1. ビデオ監視産業の発展動向わが国では、安全都市やインテリジェント交通などのさまざまな建設プロジェ...

...

...

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で...

AIファースト戦略への移行に向けた5つのポイント

多くの企業が人工知能(AI)ファーストの戦略を目指しており、ビジネスプロセスの最適化に加えて、ビジネ...

...

企業は人工知能の可能性に目がくらんでいるのでしょうか?

多くの企業が AI イニシアチブの導入に意欲的に取り組んでいる一方で、AI が自社のビジネスにどのよ...

ガートナーは、2025年までにクラウドデータセンターの半数がAI機能を備えたロボットを導入すると予測している。

ガートナーの予測によると、2025年までにクラウドデータセンターの半数が人工知能(AI)と機械学習(...

ニューラルネットワークはマルウェアを隠すことができる、と研究で判明

[[441136]] [51CTO.com クイック翻訳]ディープラーニング モデルには数百万、ある...

5000億の大台を突破?多くの国で人工知能が急速に進歩している

近年、モノのインターネット、クラウドコンピューティング、人工知能などの新世代技術が急速に発展し、特に...

130 億個のパラメータを持つモデルをトレーニングするには GPU がいくつ必要ですか?マイクロソフト: 1つで十分

今日のモデルには数千億、あるいは数兆ものパラメータがあります。一般の人がモデルをトレーニングできない...

2024 年の世界のデジタルビジネスに関するトップ 10 の予測

この記事では、今後 12 ~ 24 か月の間にグローバル ビジネス エコシステムを変革する外部要因と...

...

OpenAIは、かつてAGIロボットの開発に取り組んだロボット工学チームを解散。創設者:最良の決断

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

0 コーパスで「ラベル付け」してより良い多言語翻訳結果を得る方法

[[409976]]今日の多言語翻訳モデルのほとんどは、英語中心のデータセットで統合モデルをトレーニ...