大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

最適化はあらゆる分野で重要です。

一部の最適化は初期化から始まり、その後ソリューションを繰り返し更新して目的関数を最適化します。このような最適化アルゴリズムは、特に導関数を使用しない最適化の場合、決定空間によってもたらされる特定の課題に対処するために、個々のタスクに合わせて調整する必要があることがよくあります。

次に紹介する研究では、研究者は異なるアプローチを採用しました。彼らは大規模言語モデル (LLM) を最適化装置として使用し、さまざまなタスクでのパフォーマンスが人間が設計したプロンプトよりも優れていました。

この研究は、Google DeepMind によるもので、シンプルでありながら効果的な最適化手法である OPRO (Optimization by PROmpting) を提案しています。この手法では、最適化タスクを自然言語で記述できます。たとえば、LLM のプロンプトは、「深呼吸して、この問題を段階的に解決してください」や「数値コマンドと明確な思考を組み合わせて、答えを迅速かつ正確に解読しましょう」などです。

各最適化ステップで、LLM は以前に生成されたソリューションのヒントとその値に基づいて新しいソリューションを生成し、新しいソリューションを評価して次の最適化ステップのヒントに追加します。

最後に、この研究では、OPRO メソッドを線形回帰と巡回セールスマン問題 (よく知られている NP 問題) に適用し、プロンプト最適化に進み、タスクの精度を最大化する指示を見つけることを目標としています。

この論文では、PaLM-2 モデル ファミリの text-bison と Palm 2-L、GPT モデル ファミリの gpt-3.5-turbo と gpt-4 を含む複数の LLM の包括的な評価を実施します。 GSM8K および Big-Bench Hard のプロンプトを最適化するための実験が行われました。結果によると、OPRO によって最適化された最良のプロンプトは、手動で設計されたプロンプトよりも、GSM8K では 8%、Big-Bench Hard タスクでは最大 50% 優れています。

論文アドレス: https://arxiv.org/pdf/2309.03409.pdf

「ヒント最適化を実行するには、『問題を解き始めましょう』などの基本的な命令や空の文字列から始めます。そして最終的に、OPRO は LLM のパフォーマンスを徐々に向上させる命令を生成します。以下に示すパフォーマンス上昇曲線は、従来の最適化で発生するものとまったく同じです」と、論文の第一著者であり、Google DeepMind の研究科学者である Chengrun Yang 氏は述べています。

「各 LLM が同じ命令で始まっても、OPRO によって最適化された後、異なる LLM の最終的な最適化された命令は異なるスタイルを示します。これは人間が書いた命令よりも優れており、同様のタスクに転用できます。」

上記の表から、LLM が最適化装置として最終的に発見した命令スタイルは非常に異なっていることもわかります。PaLM 2-L-IT と text-bison の命令は比較的簡潔ですが、GPT の命令は長くて詳細です。一部のトップレベルの指示には「ステップバイステップ」のヒントが含まれていますが、OPRO は他の意味表現を見つけて、同等以上の精度を実現できます。

しかし、研究者の中には、「深呼吸して一歩ずつ進んでください」というリマインダーは、Google の PaLM-2 では非常に効果的だった (正解率は 80.2) という人もいます。しかし、すべてのモデルやすべての状況で機能することを保証することはできませんので、盲目的にどこでも使用すべきではありません。

OPRO: 最適化ツールとしての LLM

図2はOPROの全体的なフレームワークを示しています。各最適化ステップにおいて、LLM は最適化問題の説明とメタプロンプト内の以前に評価されたソリューションに基づいて、最適化タスクの候補ソリューションを生成します (図 2 の右下部分)。

次に、LLM は新しいソリューションを評価し、それを後続の最適化プロセスのメタヒントに追加します。

LLM がより良い最適化スコアを持つ新しいソリューションを提案できない場合、または最適化ステップの最大数に達した場合、最適化プロセスは終了します。

図3に例を示します。メタプロンプトには 2 つのコアコンテンツが含まれています。最初の部分は、以前に生成されたプロンプトとそれに対応するトレーニング精度です。2 番目の部分は最適化問題の説明で、関心のあるタスクを説明するためにトレーニング セットからランダムに選択されたいくつかの例が含まれています。

この論文では、まず LLM が「数学的最適化」オプティマイザーとして持つ可能性を示します。線形回帰問題の結果を表 2 に示します。

次に、この論文では、巡回セールスマン問題 (TSP) における OPRO の結果についても検討します。具体的には、TSP とは、n 個のノードとその座標のセットが与えられた場合に、開始ノードから始めてすべてのノードを横断し、最終的に開始ノードに戻る最短経路を見つけるという TSP タスクを意味します。

実験

この実験では、事前トレーニング済みの PaLM 2-L、命令を微調整した PaLM 2-L、text-bison、gpt-3.5-turbo、gpt-4 を LLM オプティマイザーとして使用し、事前トレーニング済みの PaLM 2-L と text-bison を LLM スコアラーとして使用します。

評価ベンチマーク GSM8K は小学校の数学に関するもので、7473 のトレーニング サンプルと 1319 のテスト サンプルがあります。Big-Bench Hard (BBH) ベンチマークは、記号操作や常識的推論など、算術推論以外の幅広いトピックをカバーしています。

GSM8Kの結果

図 1 (a) は、事前トレーニング済みの PaLM 2-L をスコアラーとして、PaLM 2-L-IT をオプティマイザーとして使用した即時最適化曲線を示しています。最適化曲線は全体的に上昇傾向を示しており、最適化プロセス全体を通じていくつかのジャンプが見られます。

次に、text-bison スコアラーと PaLM 2-L-IT オプティマイザーを使用して Q_begin 命令を生成した結果を示します。空の命令から開始し、その時点でのトレーニング精度は 57.1 で、その後トレーニング精度が上昇し始めます。図 4 (a) の最適化曲線も同様の上昇傾向を示しており、この期間中にトレーニング精度が飛躍的に向上しています。

BBHの結果

図 5 は、「ステップごとに考えてみましょう」という指示と比較した、23 の BBH タスクのそれぞれの精度の違いを視覚的に示しています。これは、OPRO によって見つかった指示が「ステップごとに考えてみましょう」よりも優れていることを示しています。ほぼすべてのタスクで大きな利点があります。この論文で見つかった指示は、PaLM 2-L スコアラーを使用した 23 のタスクのうち 19 で、text-bison スコアラーを使用した 23 のタスクのうち 15 で 5% 以上優れたパフォーマンスを発揮します。

GSM8K と同様に、図 6 に示すように、ほぼすべての BBH タスクの最適化曲線が上昇傾向を示していることがわかります。

<<:  10万ドル+26日、低コスト1000億パラメータLLMが誕生

>>:  13,000のスターを獲得したオープンソースコードインタープリターは、GitHubのホットリストでトップとなり、ローカルで実行してインターネットにアクセスできる。

推薦する

CTO は、企業開発のさまざまな段階で知的財産権の対応する全体像をどのように確立できるでしょうか?

最近、新しい「特許法」の全文が公布され、新たに改正された「著作権法」が公布されたことにより、国は知的...

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

現在、国内の新興デジタルインフラの進歩と、5G、クラウドコンピューティング、ビッグデータなどのモジュ...

数学的論理とコンピュータプログラムコードの深いつながり:互いの鏡像

DNAの二重らせん構造やブラックホールの存在など、いくつかの科学的発見は何か新しいことを明らかにする...

AI音声アシスタントの台頭:利便性とセキュリティのバランス

ChatGPT は私たちが知る限り最新の音声アシスタントです。 SiriやAlexaなどの企業は長年...

Truffleを使用してスマートコントラクトをデプロイする方法

[[397532]]この記事はWeChatの公開アカウント「ブロックチェーン研究室」から転載したもの...

...

...

顔認識は常に私たちのそばにあり、中秋節は「ハッピースキャン」から始まります

[[424699]]中秋節が近づいており、旅行の計画を立てている方も多いと思います。この特別な期間中...

配達員はSF映画のハイテク技術を駆使し、平地を歩いているかのように100キロの重量を運ぶ。

昨日、配達員の動画がインターネット上で話題になった。動画では、ハミングバードデリバリーの配達員がテイ...

...

機械学習におけるシャプレー値を理解するにはどうすればよいでしょうか?

[[282454]]シャプレー値について初めて聞いたのは、モデルの解釈可能性を勉強していたときでし...

...

...

...