大規模言語モデル (LLM) テクノロジが成熟するにつれて、迅速なエンジニアリングがますます重要になります。 Microsoft 、OpenAI など、いくつかの研究機関が LLM ヒント エンジニアリング ガイドラインを公開しています。 最近、オープンソース モデルの Llama シリーズの提案者である Meta も、Llama 2 の迅速なエンジニアリングとベスト プラクティスを網羅した、Llama 2 のインタラクティブな迅速なエンジニアリング ガイドをリリースしました。 以下はこのガイドの中心的な内容です。 ラマモデル2023年に、MetaはLlamaとLlama 2モデルを発売しました。小さいモデルは導入と実行のコストが安く、大きいモデルはより強力です。 Llama 2 シリーズ モデルのパラメータ スケールは次のとおりです。 Code Llama は、Llama 2 上に構築されたコード中心の LLM であり、さまざまなパラメータ スケーリングと微調整のバリエーションも備えています。
LLM を展開するLLM は、次のようなさまざまな方法で導入およびアクセスできます。 セルフホスティング: llama.cpp を使用して Macbook Pro で Llama 2 を実行するなど、ローカル ハードウェアを使用して推論を実行します。利点: プライバシーやセキュリティが懸念される場合や、十分な GPU がある場合には、セルフホスティングが最適です。 クラウド ホスティング: AWS、Azure、GCP などのクラウド プロバイダーを介して Llama 2 を実行するなど、特定のモデルをホストするインスタンスをデプロイするには、クラウド プロバイダーに依存します。利点: クラウド ホスティングは、モデルとそのランタイムをカスタマイズする最適な方法です。 マネージド API: API を介して LLM を直接呼び出します。 AWS Bedrock、Replicate、Anyscale、Together など、Llama 2 推論 API を提供する企業は数多くあります。利点: マネージド API は全体的に最もシンプルなオプションです。 マネージドAPI マネージド API には通常、次の 2 つの主要なエンドポイントがあります。 1. 補完: 指定されたプロンプトに対する応答を生成します。 2. chat_completion: メッセージのリスト内の次のメッセージを生成し、チャットボットなどのユースケースに明確な指示とコンテキストを提供します。 トークン LLM はトークンと呼ばれるブロックの形式で入力と出力を処理し、各モデルには独自のトークン化スキームがあります。たとえば、次の文: 私たちの運命は星に記されています。 ラマ 2 のトークン化は ["our"、"dest"、"iny"、"is"、"writing"、"in"、"the"、"stars"] です。トークンは、API の価格設定や内部動作 (ハイパーパラメータなど) を検討するときに特に重要です。各モデルには、プロンプトが超えることのできない最大コンテキスト長があり、これは Llama 2 の場合は 4096 トークン、Code Llama の場合は 100K トークンです。 ノートブックの設定例として、Replicate を使用して Llama 2 チャットを呼び出し、LangChain を使用してチャット完了 API を簡単に設定します。 まず前提条件をインストールします: pip install langchain replicate from typing import Dict, List from langchain.llms import Replicate from langchain.memory import ChatMessageHistory from langchain.schema.messages import get_buffer_string import os # Get a free API key from https://replicate.com/account/api-tokens os.environ ["REPLICATE_API_TOKEN"] = "YOUR_KEY_HERE" LLAMA2_70B_CHAT = "meta/llama-2-70b-chat:2d19859030ff705a87c746f7e96eea03aefb71f166725aee39692f1476566d48" LLAMA2_13B_CHAT = "meta/llama-2-13b-chat:f4e2de70d66816a838a89eeeb621910adffb0dd0baba3976c96980970978018d" # We'll default to the smaller 13B model for speed; change to LLAMA2_70B_CHAT for more advanced (but slower) generations DEFAULT_MODEL = LLAMA2_13B_CHAT def completion ( prompt: str, model: str = DEFAULT_MODEL, temperature: float = 0.6, top_p: float = 0.9, ) -> str: llm = Replicate ( model=model, model_kwargs={"temperature": temperature,"top_p": top_p, "max_new_tokens": 1000} ) return llm (prompt) def chat_completion ( messages: List [Dict], model = DEFAULT_MODEL, temperature: float = 0.6, top_p: float = 0.9, ) -> str: history = ChatMessageHistory () for message in messages: if message ["role"] == "user": history.add_user_message (message ["content"]) elif message ["role"] == "assistant": history.add_ai_message (message ["content"]) else: raise Exception ("Unknown role") return completion ( get_buffer_string ( history.messages, human_prefix="USER", ai_prefix="ASSISTANT", ), model, temperature, top_p, ) def assistant (content: str): return { "role": "assistant", "content": content } def user (content: str): return { "role": "user", "content": content } def complete_and_print (prompt: str, model: str = DEFAULT_MODEL): print (f'==============\n {prompt}\n==============') response = completion (prompt, model) print (response, end='\n\n') 補完API complete_and_print ("The typical color of the sky is:") complete_and_print ("which model version are you?") チャット完了モデルは、LLM と対話するための追加の構造を提供し、単一のテキストではなく、構造化されたメッセージ オブジェクトの配列を LLM に送信します。このメッセージ リストは、LLM に処理を進めるための「背景」または「履歴」情報を提供します。 通常、各メッセージは役割とコンテンツで構成されます。 システム ロールを持つメッセージは、開発者が LLM にコア指示を提供するために使用されます。 ユーザー ロールを持つメッセージは通常、人間が提供するメッセージです。 ヘルパー ロールを持つメッセージは通常、LLM によって生成されます。 response = chat_completion (messages=[ user ("My favorite color is blue."), assistant ("That's great to hear!"), user ("What is my favorite color?"), ]) print (response) # "Sure, I can help you with that! Your favorite color is blue." LLM ハイパーパラメータ LLM API は、出力の創造性と決定論に影響するパラメータを頻繁に受け取ります。各ステップで、LLM はトークンとその確率のリストを生成します。最も可能性の低いトークンがリストから「カット」され(top_p に基づいて)、残りの候補からトークンがランダムに選択されます(温度パラメータ温度)。言い換えると、top_p は生成に使用される語彙の幅を制御し、temperature は語彙のランダム性を制御し、temperature パラメータが 0 の場合、ほぼ決定論的な結果が生成されます。 def print_tuned_completion (temperature: float, top_p: float): response = completion ("Write a haiku about llamas", temperature=temperature, top_p=top_p) print (f'[temperature: {temperature} | top_p: {top_p}]\n {response.strip ()}\n') print_tuned_completion (0.01, 0.01) print_tuned_completion (0.01, 0.01) # These two generations are highly likely to be the same print_tuned_completion (1.0, 1.0) print_tuned_completion (1.0, 1.0) # These two generations are highly likely to be different プロンプトのヒント詳細で明確な指示は、自由形式のプロンプトよりも良い結果を生み出します。 complete_and_print (prompt="Describe quantum physics in one short sentence of no more than 12 words") # Returns a succinct explanation of quantum physics that mentions particles and states existing simultaneously. 使用ルールや制限事項を明記することで明確な指示を出すことができます。 - 子供向けの教育ネットワーク番組で小学生に教えるのと同じように、私にこれを説明してください。
- 私は要約のための大規模言語モデルを扱うソフトウェア エンジニアです。次のテキストを 250 語で要約してください。
- 私立探偵のように事件を段階的に追跡し、答えを出してください。
- 学術論文のみが使用されました。
- 2020 年より前のソースは提供しないでください。
- 答えが分からない場合は、分からないとだけ言ってください。
明示的な指示を与える例を以下に示します。 complete_and_print ("Explain the latest advances in large language models to me.") # More likely to cite sources from 2017 complete_and_print ("Explain the latest advances in large language models to me. Always cite your sources. Never cite sources older than 2020.") # Gives more specific advances and only cites sources from 2020 ゼロショットプロンプト Llama 2 などの一部の大規模言語モデルは、事前にタスクの例を見なくても指示に従い、応答を生成することができます。例のないプロンプトはゼロショットプロンプトと呼ばれます。例えば: complete_and_print ("Text: This was the best movie I've ever seen! \n The sentiment of the text is:") # Returns positive sentiment complete_and_print ("Text: The director was trying too hard. \n The sentiment of the text is:") # Returns negative sentiment 数ショットのプロンプト 望ましい出力の具体的な例を追加すると、より正確で一貫性のある出力が生成されることがよくあります。この方法は「few-shot prompting」と呼ばれます。例えば: def sentiment (text): response = chat_completion (messages=[ user ("You are a sentiment classifier. For each message, give the percentage of positive/netural/negative."), user ("I liked it"), assistant ("70% positive 30% neutral 0% negative"), user ("It could be better"), assistant ("0% positive 50% neutral 50% negative"), user ("It's fine"), assistant ("25% positive 50% neutral 25% negative"), user (text), ]) return response def print_sentiment (text): print (f'INPUT: {text}') print (sentiment (text)) print_sentiment ("I thought it was okay") # More likely to return a balanced mix of positive, neutral, and negative print_sentiment ("I loved it!") # More likely to return 100% positive print_sentiment ("Terrible service 0/10") # More likely to return 100% negative 役割プロンプト ラマ 2 は、役割を割り当てられたときに一般的に一貫性のある応答をし、必要な回答の種類に関するコンテキストを LLM に提供しました。 たとえば、Llama 2 で、PyTorch を使用することの長所と短所に関する質問に対して、より的を絞った技術的な回答を作成します。 complete_and_print ("Explain the pros and cons of using PyTorch.") # More likely to explain the pros and cons of PyTorch covers general areas like documentation, the PyTorch community, and mentions a steep learning curve complete_and_print ("Your role is a machine learning expert who gives highly technical advice to senior engineers who work with complicated datasets. Explain the pros and cons of using PyTorch.") # Often results in more technical benefits and drawbacks that provide more technical details on how model layers 思考の連鎖 段階的な思考を促すフレーズを追加するだけで、大規模言語モデルの複雑な推論を実行する能力が大幅に向上します (Wei et al. (2022))。これは、CoT または Chain of Thoughts と呼ばれるアプローチで、次のことを促します。 complete_and_print ("Who lived longer Elvis Presley or Mozart?") # Often gives incorrect answer of "Mozart" complete_and_print ("Who lived longer Elvis Presley or Mozart? Let's think through this carefully, step by step.") # Gives the correct answer "Elvis" 自己一貫性 LLM は確率的であるため、思考連鎖を使用しても、単一のビルドで誤った結果が生成される場合があります。自己一貫性により、複数の世代から最も一般的な回答を選択することで、精度が向上します (計算コストは高くなります)。 import re from statistics import mode def gen_answer (): response = completion ( "John found that the average of 15 numbers is 40." "If 10 is added to each number then the mean of the numbers is?" "Report the answer surrounded by three backticks, for example:```123```", model = LLAMA2_70B_CHAT ) match = re.search (r'```(\d+)```', response) if match is None: return None return match.group (1) answers = [gen_answer () for i in range (5)] print ( f"Answers: {answers}\n", f"Final answer: {mode (answers)}", ) # Sample runs of Llama-2-70B (all correct): # [50, 50, 750, 50, 50] -> 50 # [130, 10, 750, 50, 50] -> 50 # [50, None, 10, 50, 50] -> 50 検索強化生成 アプリケーションで事実の知識を使用したい場合もあるため、大規模なモデルからすぐに共通の事実を抽出することが可能です (つまり、モデルの重みのみを使用します)。 complete_and_print ("What is the capital of the California?", model = LLAMA2_70B_CHAT) # Gives the correct answer "Sacramento" しかし、LLM では、より具体的な事実や個人情報を確実に取得できないことがよくあります。モデルは、わからないと宣言するか、間違った答えを想像します。 complete_and_print ("What was the temperature in Menlo Park on December 12th, 2023?") # "I'm just an AI, I don't have access to real-time weather data or historical weather records." complete_and_print ("What time is my dinner reservation on Saturday and what should I wear?") # "I'm not able to access your personal information [..] I can provide some general guidance" 検索拡張生成(RAG)では、外部データベースから取得した情報をプロンプトに含める(Lewis et al.(2020))。 RAG は、LLM アプリケーションに事実を組み込む効果的な方法であり、コストがかかり、基盤となるモデルの機能に悪影響を与える可能性のある微調整よりも手頃な価格です。 MENLO_PARK_TEMPS = { "2023-12-11": "52 degrees Fahrenheit", "2023-12-12": "51 degrees Fahrenheit", "2023-12-13": "51 degrees Fahrenheit", } def prompt_with_rag (retrived_info, question): complete_and_print ( f"Given the following information: '{retrived_info}', respond to: '{question}'" ) def ask_for_temperature (day): temp_on_day = MENLO_PARK_TEMPS.get (day) or "unknown temperature" prompt_with_rag ( f"The temperature in Menlo Park was {temp_on_day} on {day}'", # Retrieved fact f"What is the temperature in Menlo Park on {day}?", # User question ) ask_for_temperature ("2023-12-12") # "Sure! The temperature in Menlo Park on 2023-12-12 was 51 degrees Fahrenheit." ask_for_temperature ("2023-07-18") # "I'm not able to provide the temperature in Menlo Park on 2023-07-18 as the information provided states that the temperature was unknown." プログラム支援言語モデルLLM は本質的に次のような計算を実行するのが得意ではありません。 complete_and_print (""" Calculate the answer to the following math problem: ((-5 + 93 * 4 - 0) * (4^4 + -7 + 0 * 5)) """) # Gives incorrect answers like 92448, 92648, 95463 Gao et al. (2022) は、「プログラム支援言語モデル (PAL)」の概念を提案しました。 LLM は算術演算は得意ではありませんが、コード生成は非常に得意です。 PAL は、計算タスクを解決するためのコードを記述するように LLM に指示します。 complete_and_print ( """ # Python code to calculate: ((-5 + 93 * 4 - 0) * (4^4 + -7 + 0 * 5)) """, model="meta/codellama-34b:67942fd0f55b66da802218a19a8f0e1d73095473674061a6ea19f2dc8c053152" ) # The following code was generated by Code Llama 34B: num1 = (-5 + 93 * 4 - 0) num2 = (4**4 + -7 + 0 * 5) answer = num1 * num2 print (answer)
|