大規模モデルをより強力にするには、検索拡張生成を使用します。ここでは、Python による実装手順を示します。

この記事では、まず RAG の概念と理論に焦点を当てます。次に、オーケストレーション用の LangChain、OpenAI 言語モデル、および Weaviate ベクトルデータベースを使用して、シンプルな RAG を実装する方法を示します。

検索強化生成とは何ですか?

検索拡張生成 (RAG) の概念は、外部の知識ソースを通じて LLM に追加情報を提供することを指します。これにより、LLM は幻覚を減らしながら、より正確で文脈に沿った回答を生成できるようになります。

質問

現在最も優れた LLM は大量のデータを使用してトレーニングされるため、ニューラルネットワークの重みには多くの一般的な知識 (パラメーターメモリ) が保存されます。ただし、プロンプトを通じて結果を生成するために LLM がトレーニングデータ以外の知識 (新しい情報、独自のデータ、ドメイン固有の情報など) を必要とする場合は、次のスクリーンショットに示すように、事実の不正確さ (幻覚) が発生する可能性があります。

したがって、LLM の一般的な知識を追加のコンテキストと統合することが非常に重要であり、これにより、LLM はより少ない幻覚でより正確でコンテキストに沿った結果を生成するのに役立ちます。

解決

従来、ニューラルネットワークは、モデルを微調整することでドメイン固有または独自の情報に適応されてきました。この手法は効果的ですが、計算量が多く、コストがかかり、技術的な専門知識が必要となるため、変化する情報に迅速に適応することが困難です。

2020 年、Lewis らによる論文「知識集約型 NLP タスクのための検索拡張生成」では、より柔軟な手法である検索拡張生成 (RAG) が提案されました。この論文では、研究者らは生成モデルと、より簡単に更新できる外部知識ソースを使用して追加情報を提供できる検索モジュールを組み合わせました。

簡単に言えば、RAG は LLM にとって、人間にとってのオープンブック試験のようなものです。オープンブック試験では、学生は教科書やノートなどの参考資料を持ち込み、質問に答えるための関連情報を得ることができます。オープンブック試験の考え方は、特定の情報を記憶する能力ではなく、学生の推論能力に重点を置くというものです。

同様に、事実の知識は LLM の推論機能とは別であり、簡単にアクセスして更新できる外部の知識ソースに保存できます。

パラメータ化された知識: トレーニング中に学習された知識で、ニューラルネットワークの重みに暗黙的に保存されます。
非パラメトリック知識: ベクターデータベースなどの外部知識ソースに保存されます。

次の図は、最も基本的な RAG ワークフローを示しています。

検索強化生成 (RAG) ワークフロー

検索: ユーザークエリは、外部のナレッジソースから関連するコンテキストを取得するために使用されます。これを行うには、埋め込みモデルを使用して、ユーザークエリをベクトルデータベース内の追加コンテキストと同じベクトル空間に埋め込みます。このようにして、類似性検索を実行し、ユーザークエリに最も近いベクトルデータベース内の k 個のデータオブジェクトが返されます。
機能強化: ユーザークエリと取得された追加のコンテキストがプロンプトテンプレートに入力されます。
生成: 最後に、検索が強化されたプロンプトが LLM に送られます。

LangChainを使用して検索強化型生成を実装する

以下は、OpenAI LLM と Weaviate ベクターデータベース、OpenAI 埋め込みモデルを使用して、Python で RAG ワークフローを実装する方法のチュートリアルです。 LangChainの役割はオーケストレーションです。

必要な前提条件

必要な Python パッケージがインストールされていることを確認してください。

langchain、オーケストレーション
openai、埋め込みモデル、LLM
weaviate-client、ベクターデータベース

#!pip install langchain openai weaviate-client

さらに、ルートディレクトリの .env ファイルを使用して、関連する環境変数を定義します。 OpenAI API キーを取得するには OpenAI アカウントが必要で、その後 API キー (https://platform.openai.com/account/api-keys) で「新しいキーを作成」する必要があります。

 OPENAI_API_KEY="<YOUR_OPENAI_API_KEY>"

次に、次のコマンドを実行して、関連する環境変数を読み込みます。

 import dotenv dotenv.load_dotenv()

準備

準備段階では、すべての追加情報を保存するための外部知識ソースとしてベクターデータベースを準備する必要があります。このベクターデータベースの構築には、次の手順が含まれます。

データの収集とロード
文書をチャンクに分割する
テキストブロックを埋め込んで保存する

最初のステップは、データを収集してロードすることです。たとえば、バイデン大統領の 2022 年の一般教書演説を追加のコンテキストとして使用するとします。 LangChain の GitHub リポジトリには、オリジナルのテキストドキュメントが提供されています。このデータをロードするには、LangChain に組み込まれている多くのドキュメントロードツールを使用できます。ドキュメントは、テキストとメタデータで構成される辞書です。テキストを読み込むには、LangChain の TextLoader を使用できます。

元のドキュメントのアドレス: https://raw.githubusercontent.com/langchain-ai/langchain/master/docs/docs/modules/state_of_the_union.txt

 import requests from langchain.document_loaders import TextLoader url = "https://raw.githubusercontent.com/langchain-ai/langchain/master/docs/docs/modules/state_of_the_union.txt" res = requests.get(url) with open("state_of_the_union.txt", "w") as f: f.write(res.text) loader = TextLoader('./state_of_the_union.txt') documents = loader.load()

次に、ドキュメントをチャンクに分割します。ドキュメントの元の状態は長すぎて LLM コンテキストウィンドウに収まらないため、小さなテキストチャンクに分割する必要があります。 LangChain には、分割ツールも多数組み込まれています。この単純な例では、chunk_size が 500、chunk_overlap が 50 の CharacterTextSplitter を使用して、テキストブロック間のテキストの連続性を維持できます。

 from langchain.text_splitter import CharacterTextSplitter text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50) chunks = text_splitter.split_documents(documents)

最後に、テキストブロックを埋め込んで保存します。テキストチャンク全体でセマンティック検索を実行できるようにするには、テキストチャンクごとにベクトル埋め込みを生成し、埋め込みとともに保存する必要があります。ベクトル埋め込みを生成するには、OpenAI 埋め込みモデルを使用できます。保存には、Weaviate ベクトルデータベースを使用できます。 .from_documents() を呼び出すと、ベクターデータベースにテキストブロックを自動的に入力できます。

 from langchain.embeddings import OpenAIEmbeddings from langchain.vectorstores import Weaviate import weaviate from weaviate.embedded import EmbeddedOptions client = weaviate.Client( embedded_options = EmbeddedOptions() ) vectorstore = Weaviate.from_documents( client = client, documents = chunks, embedding = OpenAIEmbeddings(), by_text = False )

ステップ1: 取得

ベクターデータベースにデータを入力し終えたら、ユーザークエリと埋め込みブロック間の意味的類似性に基づいて追加のコンテキストを取得できるリトリーバーコンポーネントとして定義できます。

 retriever = vectorstore.as_retriever()

ステップ2: 強化

from langchain.prompts import ChatPromptTemplate template = """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise. Question: {question} Context: {context} Answer: """ prompt = ChatPromptTemplate.from_template(template) print(prompt)

次に、追加のコンテキストでプロンプトを強化するには、プロンプトテンプレートを準備する必要があります。プロンプトは、以下に示すように、プロンプトテンプレートを使用して簡単にカスタマイズできます。

ステップ3: 生成

最後に、リトリーバー、プロンプトテンプレート、LLM をリンクして、この RAG プロセスの思考チェーンを構築できます。 RAG チェーンが定義されると、それを呼び出すことができます。

 from langchain.chat_models import ChatOpenAI from langchain.schema.runnable import RunnablePassthrough from langchain.schema.output_parser import StrOutputParser llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0) rag_chain = ( {"context": retriever, "question": RunnablePassthrough()} | prompt | llm | StrOutputParser() ) query = "What did the president say about Justice Breyer" rag_chain.invoke(query) "The president thanked Justice Breyer for his service and acknowledged his dedication to serving the country. The president also mentioned that he nominated Judge Ketanji Brown Jackson as a successor to continue Justice Breyer's legacy of excellence."

次の図は、この特定の例の RAG プロセスを示しています。

要約する

この記事では、2020 年の論文「知識集約型 NLP タスクのための検索拡張生成」に由来する RAG の概念を紹介します。この記事では、RAG の背後にある理論 (動機と解決策を含む) を紹介した後、それを Python で実装する方法を示します。この投稿では、Weaviate ベクターデータベースと OpenAI 埋め込みモデルを使用して OpenAI LLM で RAG ワークフローを実装する方法を説明します。 LangChainの役割はオーケストレーションです。

<<: GPT-4V の医師免許試験の点数は、ほとんどの医学生よりも高いです。AI がクリニックに参加するまでにはどれくらい時間がかかりますか?

>>: LangChain、RStudio、Enough Python を使って人工知能を構築する方法