アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

アルパカはクジラに進化し、Meta は位置合わせを自動化し、Humpback は既存の LLaMa モデルをすべて打ち負かします

今年は、ChatGPTやGPT-4に代表される大規模言語モデル(LLM)が急速に発展しました。それに続いて、MetaのオープンソースLLaMaおよびLlama 2シリーズモデルもAIコミュニティに大きな波紋を巻き起こしました。しかし、これには絶え間ない論争が伴います。LLM には制御不能なリスクがあり、人類の生存に潜在的な脅威をもたらすと考える人もいます。

これらの課題に対処するために、LLM アライメントの研究がますます重要になっています。一部の研究者は指示に従うことを提案していますが、この方法では多くの手動注釈が必要です。しかし、このような高品質の指示に従うデータセットに注釈を付けるには、非常にコストがかかります。

この論文では、Meta AIの研究者らが、対応する命令に自動的に注釈を付けることで高品質の命令準拠言語モデルを構築するスケーラブルな方法である命令バックトランスレーションを提案しました

論文アドレス: https://arxiv.org/pdf/2308.06259.pdf

具体的には、研究はシードモデルとしての言語モデルから始まり、少量のシードデータと Web コーパスで微調整されます。シード モデルの役割は、トレーニング サンプルを作成し、それらのサンプルから高品質のサンプルをいくつか選別し、これらのデータを使用してより強力なモデルを微調整することです。

LLaMa を 2 ラウンドの反復データセットで微調整した後、結果として得られたモデル Humpback は、Alpaca リーダーボードで LIMA、Claude、Guanaco などの他の既存の非蒸留モデルよりも優れたパフォーマンスを発揮しました。

Humpback はもともとザトウクジラを意味し、ザトウクジラとしても知られています。Meta はこのモデルを Humpback と名付けましたが、これには特別な意味があるのか​​もしれません。

この翻訳は、機械翻訳における古典的な逆翻訳手法を利用しており、人間が書いた翻訳対象文に、モデルが生成した別の言語の原文が自動的に注釈付けされるため、指示逆翻訳と呼ばれています。研究者らによると、この手法は機械翻訳における古典的な逆翻訳手法を利用しているとのことです。

チューリング賞受賞者のヤン・ルカン氏は、研究アプローチの概要を説明し、アライメント研究に重要な貢献をしたメタを称賛しました。

別のネットユーザーは、この研究について、データの品質は確かに大規模モデルにとって重要であるとうまくまとめています。研究中、彼らはさまざまなレベルのフィルタリングされたデータを使用してモデルを微調整しました。その結果、最良のサンプルだけが、他のサンプルよりも優れたパフォーマンスを発揮するモデルを生成できることが示されました。

この論文では、2 つのステップを必要とする新しいデータ拡張パラダイムを提案します。まず、より優れた命令データを生成するために、シード(命令、出力)ペアのセットとコーパスが必要です。

次の図は、Humpback といくつかのオープンソース モデルおよび独自モデルを比較したものです。

以下の表 4 は、65B および 33B モデル スケールの両方において、当社の方法が非蒸留モデルの中で最も優れたパフォーマンスを発揮するモデルであることを示しています。

具体的な方法を以下で見ていきましょう。

方法の紹介

この研究では、一般的に基本言語モデル、少量のシードデータ、ラベルなしのサンプルセット(Web コーパスなど)へのアクセスを前提とした自己トレーニング アプローチを提案しています。ラベルなしデータは、多くの場合、人間が作成したさまざまな形式の大量のドキュメントであり、人間が興味を持つさまざまなトピックに関するコンテンツが含まれていますが、最も重要なのは、指示が付いていないことです。

ここでは 2 つの重要な前提があります。最初の前提は、この非常に大きなテキスト セット (ラベルなしのサンプル セット) には、特定のユーザー指示の生成サンプルとして適したサブセットがいくつかあるということです。 2 番目の仮定は、これらの候補回答に対する指示を予測することができ、それを使用して、指示に従うモデルをトレーニングするための高品質のサンプル ペアを形成できるということです。

下の図 1 に示すように、この研究では、命令の逆翻訳プロセスは次の 2 つの主要なステップで構成されていると提案されています。

  • 自己拡張: ラベルなしデータ (Web コーパスなど) の指示を生成し、指示の調整用のトレーニング データ ペア (指示出力) を生成します。
  • 自己管理: 高品質のサンプル データをトレーニング データとして自動的に選択し、指示に従うようにベース モデルを微調整します。このアプローチは反復的に実行されます。

自己管理手順で使用されるプロンプトを以下の表 1 に示します。

実験と結果

この記事のデータセットには、主にシードデータと拡張データが含まれています。具体的な情報は表 2 と図 2 に示されています。

図 3 は、データ サイズが増加したにもかかわらず、自己キュレーションなしで拡張データを使用してモデルをトレーニングすると、指示に従うパフォーマンスが向上しないことを示しています。

次の図は、さまざまな命令チューニング データセットのデータ効率を比較したものです。

データとモデルの共同拡張: 調査の結果、7B モデルで観察されたデータ拡張の傾向は、より大規模なモデルにも当てはまることがわかりました。たとえば、65B シード モデルに高品質の拡張データを追加すると、さらなる改善が実現します。

常識的推論: この調査は、SIQA、PIQA、Arc-Easy、Arc-Challenge、Openbook QA (OBQA) の 5 つの常識的推論ベンチマークでテストされました。結果は表 5 にまとめられています。結果は、基本モデルと比較して、社会的推論などの多くの側面で私たちのモデルのパフォーマンスが向上したことを示しています。

MMLU: 表 6 は、MMLU (大規模マルチタスク言語理解) に関するさまざまなモデルの結果をまとめたものです。微調整されたモデルは、ベースモデルと比較してゼロショットの精度が向上しますが、5 ショットのコンテキストの例ではパフォーマンスが低下します。

<<: 

>>:  GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

推薦する

無人運転は地方で大きな発展の可能性を秘めている

農業人口の高齢化と低所得化により、牛による耕作、手作業による移植、手作業による収穫といった伝統的な農...

人工知能は社会に何をもたらすのでしょうか? 1つの記事でAIの変革を理解する

人類の科学技術が急速に発展する時代において、人工知能はその精密なアルゴリズムと高効率な作業能力により...

ビッグデータアルゴリズムにもっと積極的な役割を担わせる

近年、ビッグデータコンピューティングの継続的な発展に伴い、ユーザーを中毒に誘導したり、悪いアイデアを...

...

...

Nvidia テルアビブ AI サミットが中止に!黄氏の社内メールが明らかに:Nvidiaの従業員も誘拐された

少し前、25歳の中国系イスラエル人少女、ノア・アルガマニの誘拐事件がネットユーザーの間で白熱した議論...

原子力 + AI: 原子力技術の未来を創造するのか?

近年、原子力技術と人工知能(AI)の融合により、原子力AIと呼ばれる強力な相乗効果が生み出されていま...

...

AIに置き換えられる最後のグループも失業するだろう

[[262639]]これまで、データラベラーは常に「AI に置き換えられる最初のグループ」と呼ばれて...

プログラミング啓蒙ロボット、本物の人形か、それとも本当の物語か?

[[255856]]画像ソース @Visual China人工知能の普及により、中国の親たちの不安...

...

...

「AI+セキュリティ」はホームセキュリティの新たなトーンとなり、過小評価されることはない

家庭の安全に対する国民の意識が高まり、社会環境の動向が変化する現状において、家庭の安全は人々の日常的...

機械学習と脳科学が次の10年間の教育発展をリードする

[51CTO.comよりオリジナル記事] 昨今人気の技術として、産業界における人工知能の応用が徐々に...

AIは人間のための単なるツールだということをご存知ですか?

[[429689]]この記事は、ハーパー氏が執筆したWeChatパブリックアカウント「データとイン...