アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

今年は、ChatGPTやGPT-4に代表される大規模言語モデル(LLM)が急速に発展しました。それに続いて、MetaのオープンソースLLaMaおよびLlama 2シリーズモデルもAIコミュニティに大きな波紋を巻き起こしました。しかし、これには絶え間ない論争が伴います。LLM には制御不能なリスクがあり、人類の生存に潜在的な脅威をもたらすと考える人もいます。

これらの課題に対処するために、LLM アライメントの研究がますます重要になっています。一部の研究者は指示に従うことを提案していますが、この方法では多くの手動注釈が必要です。しかし、このような高品質の指示に従うデータセットに注釈を付けるには、非常にコストがかかります。

この論文では、Meta AIの研究者らが、対応する命令に自動的に注釈を付けることで高品質の命令準拠言語モデルを構築するスケーラブルな方法である命令バックトランスレーションを提案しました

論文アドレス: https://arxiv.org/pdf/2308.06259.pdf

具体的には、研究はシードモデルとしての言語モデルから始まり、少量のシードデータと Web コーパスで微調整されます。シード モデルの役割は、トレーニング サンプルを作成し、それらのサンプルから高品質のサンプルをいくつか選別し、これらのデータを使用してより強力なモデルを微調整することです。

LLaMa を 2 ラウンドの反復データセットで微調整した後、結果として得られたモデル Humpback は、Alpaca リーダーボードで LIMA、Claude、Guanaco などの他の既存の非蒸留モデルよりも優れたパフォーマンスを発揮しました。

Humpback はもともとザトウクジラを意味し、ザトウクジラとしても知られています。Meta はこのモデルを Humpback と名付けましたが、これには特別な意味があるのか​​もしれません。

この翻訳は、機械翻訳における古典的な逆翻訳手法を利用しており、人間が書いた翻訳対象文に、モデルが生成した別の言語の原文が自動的に注釈付けされるため、指示逆翻訳と呼ばれています。研究者らによると、この手法は機械翻訳における古典的な逆翻訳手法を利用しているとのことです。

チューリング賞受賞者のヤン・ルカン氏は、研究アプローチの概要を説明し、アライメント研究に重要な貢献をしたメタを称賛しました。

別のネットユーザーは、この研究について、データの品質は確かに大規模モデルにとって重要であるとうまくまとめています。研究中、彼らはさまざまなレベルのフィルタリングされたデータを使用してモデルを微調整しました。その結果、最良のサンプルだけが、他のサンプルよりも優れたパフォーマンスを発揮するモデルを生成できることが示されました。

この論文では、2 つのステップを必要とする新しいデータ拡張パラダイムを提案します。まず、より優れた命令データを生成するために、シード(命令、出力)ペアのセットとコーパスが必要です。

次の図は、Humpback といくつかのオープンソース モデルおよび独自モデルを比較したものです。

以下の表 4 は、65B および 33B モデル スケールの両方において、当社の方法が非蒸留モデルの中で最も優れたパフォーマンスを発揮するモデルであることを示しています。

具体的な方法を以下で見ていきましょう。

方法の紹介

この研究では、一般的に基本言語モデル、少量のシードデータ、ラベルなしのサンプルセット(Web コーパスなど)へのアクセスを前提とした自己トレーニング アプローチを提案しています。ラベルなしデータは、多くの場合、人間が作成したさまざまな形式の大量のドキュメントであり、人間が興味を持つさまざまなトピックに関するコンテンツが含まれていますが、最も重要なのは、指示が付いていないことです。

ここでは 2 つの重要な前提があります。最初の前提は、この非常に大きなテキスト セット (ラベルなしのサンプル セット) には、特定のユーザー指示の生成サンプルとして適したサブセットがいくつかあるということです。 2 番目の仮定は、これらの候補回答に対する指示を予測することができ、それを使用して、指示に従うモデルをトレーニングするための高品質のサンプル ペアを形成できるということです。

下の図 1 に示すように、この研究では、命令の逆翻訳プロセスは次の 2 つの主要なステップで構成されていると提案されています。

  • 自己拡張: ラベルなしデータ (Web コーパスなど) の指示を生成し、指示の調整用のトレーニング データ ペア (指示出力) を生成します。
  • 自己管理: 高品質のサンプル データをトレーニング データとして自動的に選択し、指示に従うようにベース モデルを微調整します。このアプローチは反復的に実行されます。

自己管理手順で使用されるプロンプトを以下の表 1 に示します。

実験と結果

この記事のデータセットには、主にシードデータと拡張データが含まれています。具体的な情報は表 2 と図 2 に示されています。

図 3 は、データ サイズが増加したにもかかわらず、自己キュレーションなしで拡張データを使用してモデルをトレーニングすると、指示に従うパフォーマンスが向上しないことを示しています。

次の図は、さまざまな命令チューニング データセットのデータ効率を比較したものです。

データとモデルの共同拡張: 調査の結果、7B モデルで観察されたデータ拡張の傾向は、より大規模なモデルにも当てはまることがわかりました。たとえば、65B シード モデルに高品質の拡張データを追加すると、さらなる改善が実現します。

常識的推論: この調査は、SIQA、PIQA、Arc-Easy、Arc-Challenge、Openbook QA (OBQA) の 5 つの常識的推論ベンチマークでテストされました。結果は表 5 にまとめられています。結果は、基本モデルと比較して、社会的推論などの多くの側面で私たちのモデルのパフォーマンスが向上したことを示しています。

MMLU: 表 6 は、MMLU (大規模マルチタスク言語理解) に関するさまざまなモデルの結果をまとめたものです。微調整されたモデルは、ベースモデルと比較してゼロショットの精度が向上しますが、5 ショットのコンテキストの例ではパフォーマンスが低下します。

<<: 

>>:  GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

ブログ    
ブログ    

推薦する

スマート革命の始まり! AIは今後10年間で医療と芸術に革命を起こすだろう

人工知能 (AI) は、新しい材料を設計し、学習方法や周囲のあらゆるものとのやり取り方法を変え、人々...

...

「自由に眠る」にはヘッドバンドを着けるだけ | Nature サブ出版物

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

マルチエージェント強化学習の大規模モデルに関する予備的研究

1. 大規模マルチエージェント意思決定モデルの課題現実世界における多くの実際的な問題は、複数のエージ...

...

AIGC教育産業パノラマレポート:AIティーチングアシスタントと家庭教師が現実のものとなり、学習マシンが新たな機会をもたらす

1 年間の急速な反復を経て、業界ではすでに、生成 AI が最初にどの業界に実装されるかについての答え...

2020年のAI目視検査の応用価値

【51CTO.com クイック翻訳】過去 10 年間、製造業者は継続的に利益を向上させるために自動化...

機械学習を知っていれば十分でしょうか?次世代のデータ サイエンティストは「フル スタック」へと移行しています。

[[342168]]データサイエンスは、特にコンピューターサイエンス、統計、ビジネス分析、エンジニ...

4つの主要な応用分野が開拓され、外骨格ロボットのブルーオーシャンが出現している

現在、ロボット産業の急速な発展に伴い、ロボット製品システムはより完成度が高まり、その用途も多様化して...

今後 20 年間で、人工知能ロボットが介護士に取って代わり、高齢者の世話をすることになり、介護士よりも信頼できる存在になるでしょう。

人工知能の発達により、数十年、あるいは12年後には、人々は介護者やロボットを使って高齢者の世話をする...

サイバーセキュリティにおけるAI、機械学習、自動化

サイバーセキュリティのスキル不足は、政府を含むさまざまな地域、市場、セクターの組織に引き続き影響を及...

「ディープラーニングは学習ではない」:インテル幹部とAI大手ルカンが罵り合う

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...