アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

今年は、ChatGPTやGPT-4に代表される大規模言語モデル(LLM)が急速に発展しました。それに続いて、MetaのオープンソースLLaMaおよびLlama 2シリーズモデルもAIコミュニティに大きな波紋を巻き起こしました。しかし、これには絶え間ない論争が伴います。LLM には制御不能なリスクがあり、人類の生存に潜在的な脅威をもたらすと考える人もいます。

これらの課題に対処するために、LLM アライメントの研究がますます重要になっています。一部の研究者は指示に従うことを提案していますが、この方法では多くの手動注釈が必要です。しかし、このような高品質の指示に従うデータセットに注釈を付けるには、非常にコストがかかります。

この論文では、Meta AIの研究者らが、対応する命令に自動的に注釈を付けることで高品質の命令準拠言語モデルを構築するスケーラブルな方法である命令バックトランスレーションを提案しました

論文アドレス: https://arxiv.org/pdf/2308.06259.pdf

具体的には、研究はシードモデルとしての言語モデルから始まり、少量のシードデータと Web コーパスで微調整されます。シード モデルの役割は、トレーニング サンプルを作成し、それらのサンプルから高品質のサンプルをいくつか選別し、これらのデータを使用してより強力なモデルを微調整することです。

LLaMa を 2 ラウンドの反復データセットで微調整した後、結果として得られたモデル Humpback は、Alpaca リーダーボードで LIMA、Claude、Guanaco などの他の既存の非蒸留モデルよりも優れたパフォーマンスを発揮しました。

Humpback はもともとザトウクジラを意味し、ザトウクジラとしても知られています。Meta はこのモデルを Humpback と名付けましたが、これには特別な意味があるのか​​もしれません。

この翻訳は、機械翻訳における古典的な逆翻訳手法を利用しており、人間が書いた翻訳対象文に、モデルが生成した別の言語の原文が自動的に注釈付けされるため、指示逆翻訳と呼ばれています。研究者らによると、この手法は機械翻訳における古典的な逆翻訳手法を利用しているとのことです。

チューリング賞受賞者のヤン・ルカン氏は、研究アプローチの概要を説明し、アライメント研究に重要な貢献をしたメタを称賛しました。

別のネットユーザーは、この研究について、データの品質は確かに大規模モデルにとって重要であるとうまくまとめています。研究中、彼らはさまざまなレベルのフィルタリングされたデータを使用してモデルを微調整しました。その結果、最良のサンプルだけが、他のサンプルよりも優れたパフォーマンスを発揮するモデルを生成できることが示されました。

この論文では、2 つのステップを必要とする新しいデータ拡張パラダイムを提案します。まず、より優れた命令データを生成するために、シード(命令、出力)ペアのセットとコーパスが必要です。

次の図は、Humpback といくつかのオープンソース モデルおよび独自モデルを比較したものです。

以下の表 4 は、65B および 33B モデル スケールの両方において、当社の方法が非蒸留モデルの中で最も優れたパフォーマンスを発揮するモデルであることを示しています。

具体的な方法を以下で見ていきましょう。

方法の紹介

この研究では、一般的に基本言語モデル、少量のシードデータ、ラベルなしのサンプルセット(Web コーパスなど)へのアクセスを前提とした自己トレーニング アプローチを提案しています。ラベルなしデータは、多くの場合、人間が作成したさまざまな形式の大量のドキュメントであり、人間が興味を持つさまざまなトピックに関するコンテンツが含まれていますが、最も重要なのは、指示が付いていないことです。

ここでは 2 つの重要な前提があります。最初の前提は、この非常に大きなテキスト セット (ラベルなしのサンプル セット) には、特定のユーザー指示の生成サンプルとして適したサブセットがいくつかあるということです。 2 番目の仮定は、これらの候補回答に対する指示を予測することができ、それを使用して、指示に従うモデルをトレーニングするための高品質のサンプル ペアを形成できるということです。

下の図 1 に示すように、この研究では、命令の逆翻訳プロセスは次の 2 つの主要なステップで構成されていると提案されています。

  • 自己拡張: ラベルなしデータ (Web コーパスなど) の指示を生成し、指示の調整用のトレーニング データ ペア (指示出力) を生成します。
  • 自己管理: 高品質のサンプル データをトレーニング データとして自動的に選択し、指示に従うようにベース モデルを微調整します。このアプローチは反復的に実行されます。

自己管理手順で使用されるプロンプトを以下の表 1 に示します。

実験と結果

この記事のデータセットには、主にシードデータと拡張データが含まれています。具体的な情報は表 2 と図 2 に示されています。

図 3 は、データ サイズが増加したにもかかわらず、自己キュレーションなしで拡張データを使用してモデルをトレーニングすると、指示に従うパフォーマンスが向上しないことを示しています。

次の図は、さまざまな命令チューニング データセットのデータ効率を比較したものです。

データとモデルの共同拡張: 調査の結果、7B モデルで観察されたデータ拡張の傾向は、より大規模なモデルにも当てはまることがわかりました。たとえば、65B シード モデルに高品質の拡張データを追加すると、さらなる改善が実現します。

常識的推論: この調査は、SIQA、PIQA、Arc-Easy、Arc-Challenge、Openbook QA (OBQA) の 5 つの常識的推論ベンチマークでテストされました。結果は表 5 にまとめられています。結果は、基本モデルと比較して、社会的推論などの多くの側面で私たちのモデルのパフォーマンスが向上したことを示しています。

MMLU: 表 6 は、MMLU (大規模マルチタスク言語理解) に関するさまざまなモデルの結果をまとめたものです。微調整されたモデルは、ベースモデルと比較してゼロショットの精度が向上しますが、5 ショットのコンテキストの例ではパフォーマンスが低下します。

<<: 

>>:  GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

ブログ    
ブログ    

推薦する

...

...

...

医療や旅行など多くの分野で人工知能が導入され、生産と生活の変革が加速している。

モバイルインターネットやビッグデータなどの新技術の推進により、人工知能は新たな発展ブームを迎え、実際...

...

制御核融合における新たなマイルストーン! AIがプラズマの裂け目を予測することに成功し、ネイチャー誌に掲載され、クリーンエネルギーの「聖杯」に一歩近づいた。

制御された核融合に新たな進歩がありました!核融合は長い間、プラズマ不安定性の問題という「幽霊」に悩ま...

...

英国のAIスタートアップFacultyが4250万ドルのシリーズA資金調達を完了

5月25日、英国の人工知能企業Facultyは、Apax Digital Fund(ADF)が主導す...

この記事では、ロボットが視覚を通じてターゲット追跡を実現する方法を説明します。

概要: 視覚追跡技術は、コンピュータービジョン(人工知能の一分野)の分野における重要なトピックであり...

企業が大型モデルに「参入」する場合、なぜ大手メーカーによる生産が推奨されるのでしょうか?

GPT-3.5が海外で発売されてからまだ1年も経っていないし、文心易言が国内で発売されてからまだ半...

...

3400 コミ​​ットを統合します。バッチサイズの選択に役立つフレームワーク、PyTorch 1.10 がリリースされました

[[431318]] 10月21日の夜、ついにPyTorch 1.10がリリースされました!このアッ...

Amazon Translateについて

Amazon Translate は、高速、高品質、手頃な価格の言語翻訳を提供するニューラル機械翻訳...

Python での機械学習アルゴリズムの実装: ニューラル ネットワーク

今日は引き続き、パーセプトロンをベースにしたニューラルネットワークモデルを紹介します。パーセプトロン...

...