Metaの公式Promptエンジニアリングガイド:Llama 2はより効率的

Metaの公式Promptエンジニアリングガイド:Llama 2はより効率的

大規模言語モデル (LLM) テクノロジが成熟するにつれて、迅速なエンジニアリングがますます重要になります。 Microsoft 、OpenAI など、いくつかの研究機関が LLM ヒント エンジニアリング ガイドラインを公開しています

最近、オープンソース モデルの Llama シリーズの提案者である Meta も、Llama 2 の迅速なエンジニアリングとベスト プラクティスを網羅した、Llama 2 のインタラクティブな迅速なエンジニアリング ガイドをリリースしました。

以下はこのガイドの中心的な内容です。

ラマモデル

2023年に、MetaはLlamaとLlama 2モデルを発売しました。小さいモデルは導入と実行のコストが安く、大きいモデルはより強力です。

Llama 2 シリーズ モデルのパラメータ スケールは次のとおりです。

Code Llama は、Llama 2 上に構築されたコード中心の LLM であり、さまざまなパラメータ スケーリングと微調整のバリエーションも備えています。

LLM を展開する

LLM は、次のようなさまざまな方法で導入およびアクセスできます。

セルフホスティング: llama.cpp を使用して Macbook Pro で Llama 2 を実行するなど、ローカル ハードウェアを使用して推論を実行します。利点: プライバシーやセキュリティが懸念される場合や、十分な GPU がある場合には、セルフホスティングが最適です。

クラウド ホスティング: AWS、Azure、GCP などのクラウド プロバイダーを介して Llama 2 を実行するなど、特定のモデルをホストするインスタンスをデプロイするには、クラウド プロバイダーに依存します。利点: クラウド ホスティングは、モデルとそのランタイムをカスタマイズする最適な方法です。

マネージド API: API を介して LLM を直接呼び出します。 AWS Bedrock、Replicate、Anyscale、Together など、Llama 2 推論 API を提供する企業は数多くあります。利点: マネージド API は全体的に最もシンプルなオプションです。

マネージドAPI

マネージド API には通常、次の 2 つの主要なエンドポイントがあります。

1. 補完: 指定されたプロンプトに対する応答を生成します。

2. chat_completion: メッセージのリスト内の次のメッセージを生成し、チャットボットなどのユースケースに明確な指示とコンテキストを提供します。

トークン

LLM はトークンと呼ばれるブロックの形式で入力と出力を処理し、各モデルには独自のトークン化スキームがあります。たとえば、次の文:

私たちの運命は星に記されています。

ラマ 2 のトークン化は ["our"、"dest"、"iny"、"is"、"writing"、"in"、"the"、"stars"] です。トークンは、API の価格設定や内部動作 (ハイパーパラメータなど) を検討するときに特に重要です。各モデルには、プロンプトが超えることのできない最大コンテキスト長があり、これは Llama 2 の場合は 4096 トークン、Code Llama の場合は 100K トークンです。

ノートブックの設定

例として、Replicate を使用して Llama 2 チャットを呼び出し、LangChain を使用してチャット完了 API を簡単に設定します。

まず前提条件をインストールします:

 pip install langchain replicate
 from typing import Dict, List from langchain.llms import Replicate from langchain.memory import ChatMessageHistory from langchain.schema.messages import get_buffer_string import os # Get a free API key from https://replicate.com/account/api-tokens os.environ ["REPLICATE_API_TOKEN"] = "YOUR_KEY_HERE" LLAMA2_70B_CHAT = "meta/llama-2-70b-chat:2d19859030ff705a87c746f7e96eea03aefb71f166725aee39692f1476566d48" LLAMA2_13B_CHAT = "meta/llama-2-13b-chat:f4e2de70d66816a838a89eeeb621910adffb0dd0baba3976c96980970978018d" # We'll default to the smaller 13B model for speed; change to LLAMA2_70B_CHAT for more advanced (but slower) generations DEFAULT_MODEL = LLAMA2_13B_CHAT def completion ( prompt: str, model: str = DEFAULT_MODEL, temperature: float = 0.6, top_p: float = 0.9, ) -> str: llm = Replicate ( model=model, model_kwargs={"temperature": temperature,"top_p": top_p, "max_new_tokens": 1000} ) return llm (prompt) def chat_completion ( messages: List [Dict], model = DEFAULT_MODEL, temperature: float = 0.6, top_p: float = 0.9, ) -> str: history = ChatMessageHistory () for message in messages: if message ["role"] == "user": history.add_user_message (message ["content"]) elif message ["role"] == "assistant": history.add_ai_message (message ["content"]) else: raise Exception ("Unknown role") return completion ( get_buffer_string ( history.messages, human_prefix="USER", ai_prefix="ASSISTANT", ), model, temperature, top_p, ) def assistant (content: str): return { "role": "assistant", "content": content } def user (content: str): return { "role": "user", "content": content } def complete_and_print (prompt: str, model: str = DEFAULT_MODEL): print (f'==============\n {prompt}\n==============') response = completion (prompt, model) print (response, end='\n\n')

補完API

 complete_and_print ("The typical color of the sky is:")
 complete_and_print ("which model version are you?")

チャット完了モデルは、LLM と対話するための追加の構造を提供し、単一のテキストではなく、構造化されたメッセージ オブジェクトの配列を LLM に送信します。このメッセージ リストは、LLM に処理を進めるための「背景」または「履歴」情報を提供します。

通常、各メッセージは役割とコンテンツで構成されます。

システム ロールを持つメッセージは、開発者が LLM にコア指示を提供するために使用されます。

ユーザー ロールを持つメッセージは通常、人間が提供するメッセージです。

ヘルパー ロールを持つメッセージは通常、LLM によって生成されます。

 response = chat_completion (messages=[ user ("My favorite color is blue."), assistant ("That's great to hear!"), user ("What is my favorite color?"), ]) print (response) # "Sure, I can help you with that! Your favorite color is blue."

LLM ハイパーパラメータ

LLM API は、出力の創造性と決定論に影響するパラメータを頻繁に受け取ります。各ステップで、LLM はトークンとその確率のリストを生成します。最も可能性の低いトークンがリストから「カット」され(top_p に基づいて)、残りの候補からトークンがランダムに選択されます(温度パラメータ温度)。言い換えると、top_p は生成に使用される語彙の幅を制御し、temperature は語彙のランダム性を制御し、temperature パラメータが 0 の場合、ほぼ決定論的な結果が生成されます。

 def print_tuned_completion (temperature: float, top_p: float): response = completion ("Write a haiku about llamas", temperature=temperature, top_p=top_p) print (f'[temperature: {temperature} | top_p: {top_p}]\n {response.strip ()}\n') print_tuned_completion (0.01, 0.01) print_tuned_completion (0.01, 0.01) # These two generations are highly likely to be the same print_tuned_completion (1.0, 1.0) print_tuned_completion (1.0, 1.0) # These two generations are highly likely to be different

プロンプトのヒント

詳細で明確な指示は、自由形式のプロンプトよりも良い結果を生み出します。

 complete_and_print (prompt="Describe quantum physics in one short sentence of no more than 12 words") # Returns a succinct explanation of quantum physics that mentions particles and states existing simultaneously.

使用ルールや制限事項を明記することで明確な指示を出すことができます。

  • 様式化の例:
  • 子供向けの教育ネットワーク番組で小学生に教えるのと同じように、私にこれを説明してください。
  • 私は要約のための大規模言語モデルを扱うソフトウェア エンジニアです。次のテキストを 250 語で要約してください。
  • 私立探偵のように事件を段階的に追跡し、答えを出してください。
  • 形式
  • ポイントを使用する;

  • JSON オブジェクトとして返されます。

  • 専門用語をあまり使わず、仕事上のコミュニケーションに活用しましょう。

  • 制限
  • 学術論文のみが使用されました。
  • 2020 年より前のソースは提供しないでください。
  • 答えが分からない場合は、分からないとだけ言ってください。

明示的な指示を与える例を以下に示します。

 complete_and_print ("Explain the latest advances in large language models to me.") # More likely to cite sources from 2017 complete_and_print ("Explain the latest advances in large language models to me. Always cite your sources. Never cite sources older than 2020.") # Gives more specific advances and only cites sources from 2020

ゼロショットプロンプト

Llama 2 などの一部の大規模言語モデルは、事前にタスクの例を見なくても指示に従い、応答を生成することができます。例のないプロンプトはゼロショットプロンプトと呼ばれます。例えば:

 complete_and_print ("Text: This was the best movie I've ever seen! \n The sentiment of the text is:") # Returns positive sentiment complete_and_print ("Text: The director was trying too hard. \n The sentiment of the text is:") # Returns negative sentiment

数ショットのプロンプト

望ましい出力の具体的な例を追加すると、より正確で一貫性のある出力が生成されることがよくあります。この方法は「few-shot prompting」と呼ばれます。例えば:

 def sentiment (text): response = chat_completion (messages=[ user ("You are a sentiment classifier. For each message, give the percentage of positive/netural/negative."), user ("I liked it"), assistant ("70% positive 30% neutral 0% negative"), user ("It could be better"), assistant ("0% positive 50% neutral 50% negative"), user ("It's fine"), assistant ("25% positive 50% neutral 25% negative"), user (text), ]) return response def print_sentiment (text): print (f'INPUT: {text}') print (sentiment (text)) print_sentiment ("I thought it was okay") # More likely to return a balanced mix of positive, neutral, and negative print_sentiment ("I loved it!") # More likely to return 100% positive print_sentiment ("Terrible service 0/10") # More likely to return 100% negative

役割プロンプト

ラマ 2 は、役割を割り当てられたときに一般的に一貫性のある応答をし、必要な回答の種類に関するコンテキストを LLM に提供しました。

たとえば、Llama 2 で、PyTorch を使用することの長所と短所に関する質問に対して、より的を絞った技術的な回答を作成します。

 complete_and_print ("Explain the pros and cons of using PyTorch.") # More likely to explain the pros and cons of PyTorch covers general areas like documentation, the PyTorch community, and mentions a steep learning curve complete_and_print ("Your role is a machine learning expert who gives highly technical advice to senior engineers who work with complicated datasets. Explain the pros and cons of using PyTorch.") # Often results in more technical benefits and drawbacks that provide more technical details on how model layers

思考の連鎖

段階的な思考を促すフレーズを追加するだけで、大規模言語モデルの複雑な推論を実行する能力が大幅に向上します (Wei et al. (2022))。これは、CoT または Chain of Thoughts と呼ばれるアプローチで、次のことを促します。

 complete_and_print ("Who lived longer Elvis Presley or Mozart?") # Often gives incorrect answer of "Mozart" complete_and_print ("Who lived longer Elvis Presley or Mozart? Let's think through this carefully, step by step.") # Gives the correct answer "Elvis"

自己一貫性

LLM は確率的であるため、思考連鎖を使用しても、単一のビルドで誤った結果が生成される場合があります。自己一貫性により、複数の世代から最も一般的な回答を選択することで、精度が向上します (計算コストは​​高くなります)。

 import re from statistics import mode def gen_answer (): response = completion ( "John found that the average of 15 numbers is 40." "If 10 is added to each number then the mean of the numbers is?" "Report the answer surrounded by three backticks, for example:```123```", model = LLAMA2_70B_CHAT ) match = re.search (r'```(\d+)```', response) if match is None: return None return match.group (1) answers = [gen_answer () for i in range (5)] print ( f"Answers: {answers}\n", f"Final answer: {mode (answers)}", ) # Sample runs of Llama-2-70B (all correct): # [50, 50, 750, 50, 50] -> 50 # [130, 10, 750, 50, 50] -> 50 # [50, None, 10, 50, 50] -> 50

検索強化生成

アプリケーションで事実の知識を使用したい場合もあるため、大規模なモデルからすぐに共通の事実を抽出することが可能です (つまり、モデルの重みのみを使用します)。

 complete_and_print ("What is the capital of the California?", model = LLAMA2_70B_CHAT) # Gives the correct answer "Sacramento"

しかし、LLM では、より具体的な事実や個人情報を確実に取得できないことがよくあります。モデルは、わからないと宣言するか、間違った答えを想像します。

 complete_and_print ("What was the temperature in Menlo Park on December 12th, 2023?") # "I'm just an AI, I don't have access to real-time weather data or historical weather records." complete_and_print ("What time is my dinner reservation on Saturday and what should I wear?") # "I'm not able to access your personal information [..] I can provide some general guidance"

検索拡張生成(RAG)では、外部データベースから取得した情報をプロンプトに含める(Lewis et al.(2020))。 RAG は、LLM アプリケーションに事実を組み込む効果的な方法であり、コストがかかり、基盤となるモデルの機能に悪影響を与える可能性のある微調整よりも手頃な価格です。

 MENLO_PARK_TEMPS = { "2023-12-11": "52 degrees Fahrenheit", "2023-12-12": "51 degrees Fahrenheit", "2023-12-13": "51 degrees Fahrenheit", } def prompt_with_rag (retrived_info, question): complete_and_print ( f"Given the following information: '{retrived_info}', respond to: '{question}'" ) def ask_for_temperature (day): temp_on_day = MENLO_PARK_TEMPS.get (day) or "unknown temperature" prompt_with_rag ( f"The temperature in Menlo Park was {temp_on_day} on {day}'", # Retrieved fact f"What is the temperature in Menlo Park on {day}?", # User question ) ask_for_temperature ("2023-12-12") # "Sure! The temperature in Menlo Park on 2023-12-12 was 51 degrees Fahrenheit." ask_for_temperature ("2023-07-18") # "I'm not able to provide the temperature in Menlo Park on 2023-07-18 as the information provided states that the temperature was unknown."

プログラム支援言語モデル

LLM は本質的に次のような計算を実行するのが得意ではありません。

 complete_and_print (""" Calculate the answer to the following math problem: ((-5 + 93 * 4 - 0) * (4^4 + -7 + 0 * 5)) """) # Gives incorrect answers like 92448, 92648, 95463

Gao et al. (2022) は、「プログラム支援言語モデル (PAL)」の概念を提案しました。 LLM は算術演算は得意ではありませんが、コード生成は非常に得意です。 PAL は、計算タスクを解決するためのコードを記述するように LLM に指示します。

 complete_and_print ( """ # Python code to calculate: ((-5 + 93 * 4 - 0) * (4^4 + -7 + 0 * 5)) """, model="meta/codellama-34b:67942fd0f55b66da802218a19a8f0e1d73095473674061a6ea19f2dc8c053152" )
 # The following code was generated by Code Llama 34B: num1 = (-5 + 93 * 4 - 0) num2 = (4**4 + -7 + 0 * 5) answer = num1 * num2 print (answer)


<<:  ハルビン工科大学と快手が共同でCogGPTを提案:大規模モデルにも認知反復が必要

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ワンジ自動車ミリ波レーダーポイントクラウド技術の分析

レーダー点群のセマンティックセグメンテーションは、レーダーデータ処理における新たな課題です。このタス...

連合継続学習における最新の研究の進歩の概要

データプライバシーの制限により、複数のセンター間でのデータ共有は制限されており、フェデレーテッドラー...

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

拡散モデルの出現により、テキスト生成ビデオ技術の開発が促進されましたが、このような方法は通常、計算コ...

AIと自動化はCOVID-19後のビジネス成功の鍵

COVID-19 パンデミックが発生する前は、ビジネスリーダーたちは、ビジネス運営の最適化、収益性の...

アリババ初のAIチップ「Pingtou Ge」が発売! NVIDIA P4 より 46 倍高速で、推論パフォーマンスの世界新記録を樹立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

「フルスタック自社開発」自動運転に大きな後退か?

01 「フルスタック自主開発」は小さな農民経済過去2年間、私はさまざまな機会に、さまざまなサプライ...

...

2030 年までに人工知能はどのようになるでしょうか?

[[378797]]画像ソース: unsplashマッキンゼー・グローバル・インスティテュートの調...

...

人工知能やロボットによって仕事が奪われた後、人々の収入はどこから来るのでしょうか?考えるための材料

中国の現在の経済社会発展の最大の原動力は科学技術の進歩である。特に米国によるファーウェイとZTEの規...

ホーキング博士:人工知能の脅威は核兵器のようなもので、世界には10の大きな変化が起こるでしょう!

[[215578]]有名な科学者ホーキングは「宇宙の王」として知られています。彼は、これまで人類に...

スタンフォード大学のAIアルゴリズムは死を予測できる!これはホスピスにとって良いことかもしれない…

人工知能を使って患者の死期を予測するというのは、ディストピアSFシリーズ『ブラック・ミラー』のような...

AIドクターは正式に勤務中ですか? AIと医療の融合が爆発点に到達!

近年、医療分野における人工知能の応用が非常にホットな話題となっています。 「ニューイングランド・ジャ...

実は不滅なんです!冬季オリンピックの水中聖火リレーはロボットでどのように行われたのでしょうか?どのようなハイテク技術が使われたのでしょうか?

2022年北京冬季オリンピックが新たなニュースをもたらしました。冬季オリンピックでの「ブラックテク...