検索拡張生成による AI 幻覚問題の解決

検索拡張生成による AI 幻覚問題の解決

ラフルプラダン

出典| https://www.infoworld.com/article/3708254/addressing-ai-hallucinations-with-retrieval-augmented-generation.html

人工知能は現代の最も影響力のある技術になると期待されています。トランスフォーマー技術と生成 AIの最近の進歩は、大規模なイノベーションと創意工夫を解き放つ可能性を実証しています。

しかし、生成 AI には課題がないわけではありません。この変革的なテクノロジーの導入と価値創造を深刻に妨げる可能性のある課題もあります。生成 AI モデルの複雑さと機能が増大し続けるにつれて、入力データに基づかない出力の生成など、独自の課題も生じます。

これらのいわゆる「幻覚」は、モデルが、一貫性はあるものの、事実や入力とは文脈が合わない出力を生成する場合に発生します。この記事では、生成 AI の変革的影響について簡単に紹介し、このテクノロジーの欠点と課題を検討し、幻覚を軽減するために使用できる手法について説明します。

生成型AIの変革効果

生成 AI モデルは、ディープラーニングと呼ばれる複雑な計算プロセスを使用して大規模なデータセット内のパターンを識別し、その情報を使用して説得力のある新しい出力を作成します。モデルは、ニューラル ネットワークと呼ばれる機械学習技術を組み込むことでこれを実現します。ニューラル ネットワークは、人間の脳が情報を処理して解釈し、時間をかけて学習する方法にヒントを得たものです。

OpenAI の GPT-4 や Google の PaLM 2 などの生成 AI モデルは、自動化、データ分析、ユーザー エクスペリエンスの革新を加速すると期待されています。これらのモデルは、コードを記述したり、記事を要約したり、さらには病気の診断にも役立ちます。ただし、これらのモデルの実行可能性と最終的な価値は、その精度と信頼性に依存します。医療、金融、法律サービスなどの重要な分野では、信頼できる精度が不可欠です。しかし、生成 AI の潜在能力を最大限に引き出すには、すべてのユーザーにとってこれらの課題に対処する必要があります。

大規模言語モデルの欠点

LLM は基本的に確率的かつ非決定論的です。特定の単語シーケンスが次に出現する確率に基づいてテキストを生成します。 LLM には知識の概念がなく、推奨エンジンとしてトレーニングされたデータのコーパスを介したナビゲーションに完全に依存しています。生成されるテキストは、一般的に文法と意味の規則に従いますが、プロンプトとの統計的な一貫性を満たすことに完全に基づいています。

LLM のこの確率的な性質は、利点であると同時に欠点でもあります。正しい答えに到達すること、またはその答えに基づいて重要な決定を下すことが目標である場合、幻想は良くなく、有害となる可能性さえあります。しかし、目標が創造的な取り組みである場合、LLM を利用して芸術的創造性を開発し、アートワーク、ストーリーライン、およびスクリプトを比較的迅速に作成することができます。

ただし、目標に関係なく、 LLM モデルの出力を信頼できない場合は深刻な結果を招く可能性があります。これにより、これらのシステムの機能に対する信頼が損なわれるだけでなく、AI が人間の生産性とイノベーションを加速させる効果も大幅に低下することになります。

結局のところ、AI の良し悪しは、トレーニングに使用されたデータ次第です。 LLM 幻覚は主にデータセットとトレーニングの欠陥によって発生し、次のような側面が含まれます

  • オーバーフィッティング:オーバーフィッティングは、モデルがトレーニング データ (ノイズや外れ値を含む) を過度に学習した場合に発生します。過剰適合は、モデルの複雑さ、ノイズの多いトレーニング データ、またはトレーニング データの不足によって発生する可能性があります。その結果、パターン認識の品質が低下し、モデルが新しいデータに適切に一般化できなくなり、分類や予測のエラー、事実と矛盾する出力、信号対雑音比の低い出力、または完全な幻覚が発生します。
  • データの品質:トレーニングに使用されるデータの誤ったラベル付けや誤分類は、幻覚に大きな影響を及ぼす可能性があります。偏ったデータや関連データの欠如により、モデルの出力は正確に見えるかもしれませんが、モデルが推奨する決定の範囲によっては有害となる可能性があります。
  • データ不足:データ不足、または最新または関連性の高いデータの必要性は、錯覚を引き起こし、企業が生成 AI を導入するのを妨げる重大な問題の 1 つです。最新のコンテンツとコンテキスト データでデータを更新することで、錯覚や偏見を減らすことができます。
大規模言語モデルにおける幻覚への対処

LLM における幻覚の問題に対処するためのアプローチはいくつかあり、微調整、キュー エンジニアリング、検索拡張生成 (RAG) などの手法が含まれます。

  • 微調整とは、ドメイン固有のデータセットを使用してモデルを再トレーニングし、そのドメインに関連するコンテンツをより正確に生成できるようにすることです。ただし、モデルの再トレーニングや微調整には長い時間がかかり、継続的にトレーニングしないとデータはすぐに古くなります。さらに、モデルの再トレーニングにも多大なコスト負担がかかります。
  • ヒント エンジニアリングは、入力内のより説明的でわかりやすい特徴をヒントとして提供することで、 LLM が高品質の結果を生成できるようにすることを目的としています。モデルに追加のコンテキストを提供し、それを事実に基づいて構築すると、モデルが幻覚を起こす可能性を減らすことができます。
  • 検索強化生成 ( RAG) は、LLM の基盤に最も正確で最新の情報を提供することに重点を置いたフレームワークです。 LLM の応答性は、外部の知識ベースからの事実をモデルにリアルタイムで供給することで向上できます。
強化された生成データとリアルタイムデータを取得する

検索強化型生成は、大規模言語モデルの精度を向上させる最も有望な技術の 1 つです。 RAG をリアルタイム データと組み合わせると、幻覚が大幅に軽減されることが示されています

RAG により、企業は最新の独自データとコンテキスト データを使用して LLM を活用できるようになります。 RAG は幻覚を軽減するだけでなく、コンテキスト固有の情報で入力を充実させ、言語モデルがより正確でコンテキストに適した応答を生成できるようにします。エンタープライズ環境では、微調整は実用的ではないことがよくありますが、RAG は、パーソナライズされた情報に基づいたユーザー エクスペリエンスを提供するための低コストでメリットの高い代替手段を提供します。

RAG モデルの効率を向上させるには、LLM のネイティブ言語、つまりテキストの意味をエンコードする埋め込みと呼ばれる高次元の数学的ベクトルでデータを保存できる実用的なデータ ストアと RAG を組み合わせる必要があります。ユーザーがクエリを実行すると、データベースはそれを数値のベクトルに変換します。この方法では、同じ用語が含まれているかどうかに関係なく、ベクター データベースで関連テキストを照会できます。

セマンティック検索を使用して大量の非構造化データを保存および照会できる、可用性が高く、パフォーマンスの高いデータベースは、 RAG プロセスの重要なコンポーネントです。

<<:  インテルが第3四半期の財務報告を発表、人工知能と新ファウンドリ事業が注目を集める

>>:  ボストンダイナミクスは、ChatGPTなどの大規模モデルトレーニングを使用して、スポットロボット犬を「話すツアーガイド」に変えました。

ブログ    
ブログ    

推薦する

過去20年間、Huilianは政府サービスにおけるグローバルインテリジェンスを実現してきました。

農業、工業、情報、知能、社会は常に進歩しています。長い発展の過程で、生産手段と生産ツールは常に変化し...

...

孤独を研究していますか? Reddit のホットな話題: AI のゴッドファーザー、ヤン・ルカンが提案した「エネルギー モデル」とは一体何でしょうか?

「エネルギー自己教師学習っていったい何?」と多くのRedditネットユーザーがコメントした。ちょう...

2022年にAIがサイバーセキュリティにもたらすもの

過去 1 年間で、人工知能 (AI) は私たちの日常生活のより大きな部分を占めるようになり、さまざま...

PyTorch でテンソルを操作するための 5 つの基本関数

ニューラル ネットワークを正確かつ効率的に構築する能力は、ディープラーニング エンジニアの採用担当者...

クリスマスのギフトボックスにロボット犬を見つけますか?ボストン・ダイナミクスがイースターエッグをリリースしたが、ギフトボックスが逃げてしまった

クリスマスが近づいてきました。ボストン ダイナミクスから特別なクリスマス ギフトをお届けします。昨日...

なぜ失敗したかご存知ですか?機械学習プロジェクトの 87% がこのように失敗します…

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

人工知能の未来を見据えて、いつかは遊ぶだけになる日が来るでしょう!

[[216218]]人工知能スピーカー2017年は人工知能が爆発的に発展した年であり、「人工知能元...

...

...

AI バイアス: なぜ起こるのか、そして企業はどのように修正できるのか

ビジネスや社会で AI の利用が広まるにつれ、企業は機械モデルに現れる人間の偏見に注意を払う必要があ...

無人運転技術がますます成熟するにつれて、将来も運転免許証を取得する必要があるのでしょうか?それは確かだ

北京や上海などの街では、特別な車をよく見かけます。これらの車は車体の上部と側面に特別な装置が付いてい...

人工知能はあらゆる点で人間よりも優れているのに、なぜ人間の言っていることを理解できないのでしょうか?

9月8日、英国の新聞「ガーディアン」は、熱心な読者でも記者でもなく、サンフランシスコの人工知能スタ...

...