実際のシナリオにおける知識グラフに基づく大規模モデル幻覚の原因、評価、緩和戦略の探究

大規模モデルの実用化の問題に関しては、現在業界では大規模モデルを使用して質疑応答を行うのが一般的ですが、実際の応用ではこの方法がうまく機能しないことが多く、多くの質問に対する回答には実用的な参考価値がありません。アルゴリズム担当者として、私たちは問題の原因を深く理解する必要があります。大規模なモデルによって引き起こされる幻覚問題については、その定義が主観的なものか客観的なものかを明確にし、実行可能な解決策を提供する方法を模索する必要があります。ビジネスアプリケーションでは、回答を提供することに加えて、回答の信頼性を評価するための確率値も提供する必要があります。また、グラフ技術に関しては、グラフは時代遅れだという見方もありますが、実際にはグラフとビッグモデルの間には統合ポイントがいくつかあります。これらの統合ポイントを、ビッグモデルとグラフ技術をよりうまく組み合わせるのに役立ついくつかの戦略にまとめました。

1. 産業質問応答における大規模モデルの使用の実装と課題

まず、大規模な業界 Q&A の実装と課題について詳しく見ていきましょう。

1. 知識管理におけるビッグモデルの形態

業界の質問に答える際には、既存の製品のパフォーマンスを理解することが重要です。 360 Enterprise Cloud Disk を例にとると、明確なプロセスが提供されます。大量のドキュメントを分類して整理した後、360 Intelligent Brain モデルを使用して、書面による週報をテキスト形式に変換したり、さまざまな質問をして簡単に回答を得たりなど、多くのタスクを完了できます。また、同僚間で重要な情報を伝達するのにも役立ちます。

さらに、PDF ファイルをアップロードし、入力ボックスでファイルの関連コンテンツについて質問して、記事の要約を提案することもできます。システムはすぐに要約してくれるので、作業効率が向上します。さらに、システムは検索戦略を使用して、ユーザーに関連するファイルの推奨を提供することもできます。たとえば、ユーザーが記事をアップロードすると、システムは関連ファイルを推奨し、ユーザーがこれらのファイルを見つけられるようにします。関連するファイルをどのように見つけるかが重要なポイントであることは注目に値します。これはまさにグラフの役割です。システムは、ドキュメント間の関係とイベントを事前に構築し、ユーザーが必要なものをすばやく見つけられるようにします。

実際のビジネスでは、多くの顧客がドキュメントリソース用の質問応答ロボットを迅速に構築したいと考えています。たとえば、自分のミニプログラム、Web ページ、またはパブリックアカウントの Q&A ロボットに公開する必要があるドキュメントがある場合、公開されたコンテンツをタイムリーにクラウドディスクにアップロードするだけで済みます。クラウドディスクのわかりやすい要約回答、タイムリーなコンテキスト認識、コンテンツの自動更新などの機能により、知識コンテンツに関する質疑応答を迅速に行うことができます。例えば、上の写真は、私たちがすでに接続している拱墅区の政策相談です。クラウドディスクに関連ファイルを更新するだけで、指導理念が何であるかなど、関連情報を直接問い合わせることができます。

また、機能をモジュール化してシステムを再利用可能にし、個人および専門的なシナリオの知識に関する質問と回答の構成ニーズを満たすこともできます。まずナレッジアカウントを作成し、データ管理、トレーニング、公開、マッチングテスト、質問と回答の構成のためのデータセット管理などの一連の操作を実行します。このようにして、再利用が実現され、効率が向上し、ビジネスプロセスの柔軟性が向上します。

2. 大規模モデルでドキュメントQ&Aを実装する方法

大規模なモデルがドキュメントインテリジェンスを実現する方法を調査したところ、その背後にはコーパスの準備、質問の入力、ベクトルの取得、ベクトルの類似性の計算、プロンプトの最適化、結果の返却という 6 つの主要なリンクがあることがわかりました。

（１）コーパスの準備

コーパスの準備は主にオフライン環境で行われ、大量の業界関連の知識やコーパスをベクターデータベースにアップロードし、ベクター化されたテキストとして保存することが主な作業です。

コーパスファイルが準備された後、ドキュメントを小さなチャンクに分割するチャンク処理が実行されます。技術が進歩するにつれて、コンテキストの長さに対する需要は、以前の 2K、4K、8K から現在の 192K または 200K へと増加しています。ただし、チャックは大きいほど良いです。実際の大型モデルアプリケーションでは、高精度を実現できる場合、4K は非常に優れています。チャンク処理が完了したら、セグメント化された質問テキストに対してベクトル化操作を実行する必要があります。BGE や M3E などの埋め込みモデルが適切な選択です。この手順を完了すると、ベクトルを含むコーパスセグメントが取得され、これを Faiss などのベクトルデータベースに追加できるようになります。これらの手順を完了すると、コーパスの準備が整います。

（２）質問入力

クエリが到着すると、前のステップと同じ埋め込みモデルを使用してクエリが処理され、入力された質問がベクトルを持つ質問に変換されます。

（３）質問検索

クエリはベクトルに変換され、検索用に準備されたコーパスによって生成されたベクトルデータベースに格納されます。クエリとベクトルの類似度を計算することで、マッチング結果が得られます。ここで行われるのは QQ マッチングではなく QD マッチングであることに注目する価値があります。 QD マッチングには大きな問題があります。それは、Q が通常非常に短いということです。たとえば、類似性を調べる場合、トレーニングには通常、数十語のクエリが使用されます。しかし、実際の正式なシナリオでは、QQ は基本的に 100 語対 100 語ですが、QD は 100 語対 300 語、400 語、または 500 語になります。このとき、再現率の精度は最適化が必要な問題です。

（4）ベクトル類似度を計算する

ベクトル類似度は、L1、L2、またはコサイン類似度を使用して測定できます。たとえば、コサイン類似度を使用する場合は、しきい値を通常 0.8 または 0.9 程度に設定する必要があります。その後、意味的に最も関連性の高い TopN の Fact が一致します。

（５）迅速な最適化

一致した TopN の事実とユーザーの質問がプロンプトとしてモデルに入力されます。できるだけ現実的な回答を提供するためには、質問に対する回答が正確であることを確認する必要があり、質問に答えられない場合は、モデルでその旨を明確に示す必要があります。プロンプトを設定するときは、すべての重要な詳細に注意を払う必要があります。たとえば、単純な改行「\n」は結果に大きな影響を与える可能性があります。したがって、正確性と一貫性を確保する必要があります。

（6）返された結果

プロンプトをコンテキスト内で組み立てることで、記憶の相互作用の下で生成されたコンテンツを取得できます。これにより、より正確になり、幻覚の問題が軽減されます。

大規模モデルの知識ベース質問応答を扱う場合、プロセス全体の 6 つのステップのそれぞれでエラーが蓄積される可能性があります。したがって、全体の精度を向上させるには、各段階の詳細に注意を払い、各段階の精度を可能な限り向上させるようにする必要があります。各段階の精度を 0.8 から 0.98 に上げるだけでも、全体の精度は 0.8 の 6 乗から 0.98 に大幅に向上します。

3. 大規模モデルにおける現実の問題に関する質問と回答

最初の問題は、ドキュメントのレイアウトが複雑で、特に表、画像、単一列、二重列などを扱うのが非常に難しいことです。たとえば、金融シナリオの調査レポートには、企業名、リリース時間、K ラインチャートなどが含まれます。また、PDF ファイルを処理する際に、グラフ内の線を識別する必要がある場合は、線を分割したり結合したりする必要があります。このとき、このような問題に対処するには、ドキュメントレイアウトモジュールが必要です。

2 番目の問題は、モデルが頑固で、下流のタスクを処理するときに取得された知識に十分な注意を払うことができないことです。特に、取得された知識が LLM のパラメーター知識と競合する場合、モデルは依然として答えから外れてしまいます。

3 番目の問題は、ドメイン埋め込みのノイズ除去です。BGE や M3E などの既存の一般的な埋め込みは、特定のドメインではうまく機能しません。特定のドメインでは、ノイズ除去に十分なデータがない場合、埋め込みのパフォーマンスが制限されます。さらに、類似性を制御することも課題です。上位 k 件の結果をどのようにフィルタリングするかが重要な問題です。適切なしきい値と k 値を選択することが重要です。フィルタリングが厳しすぎたり緩すぎたりすると、リコール率が低くなりすぎたり、無関係なコンテンツが大量にリコールされたりする可能性があります。

最後に、大規模なモデルは、ドキュメントを処理するときにドキュメントの最初と最後にのみ焦点を当て、中間のコンテンツは無視します。この「途中で失われる」現象は、テキストが長い場合に特に顕著になります。したがって、モデルのパフォーマンスを向上させるには、テキストの前半と後半に重要な情報を配置するようにする必要があります。

上記の問題はすべて錯覚の問題です。錯覚の問題を具体的に説明するために、例を挙げます。セキュリティ分野の知識クイズで、「OceanLotus組織とは何か？」という質問があります。OceanLotusがAPT組織であることはわかっていますが、ビッグモデルの答えは「OceanLotusは中国のインターネットに現れた謎の組織であり、犯罪を犯した疑いがあります。名前の「sea」は海を表しています。」です。この答えは言語的には完璧ですが、実際には事実と一致していません。これは錯覚問題の現れです。

上記の幻覚現象が発生する主な原因は、トレーニングデータの不足です。セキュリティ分野のデータは非常に少なく、ログデータの多くはテキストデータほど標準化されていないため、セキュリティ分野の大規模モデルの幻覚問題はより深刻です。

この問題を解決するには、OceanLotus に関する質問に答える必要があるときに呼び出すことができるセキュリティナレッジベースを導入します。調べてみると、OceanLotusという組織は東南アジアを背景とした組織だということが分かりました。同時に、モデルが質問に答えるときに幻覚を起こさないようにするためには、質問に答えるべきかどうかを判断するための大規模なモデルが必要です。モデルが正しい答えを見つけられない場合は、ユーザーに答えられないことを直接伝える必要があります。そのため、そのような幻覚を避けるために、回答拒否リンクを追加して、モデルが無意味な話をしないようにする必要があります。

新たなデータ不足問題に直面した場合、グラフ生成を使用してその問題を解決できます。セキュリティ知識グラフを組み合わせることで、OceanLotus の高度な組織化などの最適化結果を観察できます。

2. 幻想とは何か？どこの出身ですか？評価方法

1. 巨大モデル錯視とは何ですか?

私たちの着陸シーンで最も直接的な錯覚は、文脈矛盾の錯覚です。複数ラウンドの会話では、前後のコンテキストに矛盾が生じることがよくあります。たとえば、あるトピックが以前に言及されたが、その後の会話で突然別のトピックに切り替わり、前の情報が無視されたり忘れられたりすることがあります。これにより、ユーザーが混乱し、会話とユーザーエクスペリエンスの一貫性が低下する可能性があります。この問題は通常、質問と回答のシナリオで、回答が質問のコンテキストと一致しない場合に発生します。たとえば、上の図では、大きなモデルによってイスラエルとハマスの対立を要約できると期待していますが、回答結果には明らかな文脈上の矛盾が示されています。

もう 1 つの錯覚は、事実との矛盾という錯覚です。これは、LLM によって生成されたコンテンツが、確立された世界の知識に忠実ではないことを意味します。たとえば、ポルトガルの 3 人の王についての質問の回答には、カスティーリャのウラカ女王の名前が誤って含まれていました。また、月面を歩いた最初の人物についての質問の回答には、チャールズ・レッドバーグの名前が誤って記載されていましたが、実際には、月面を歩いた最初の人物はアームストロングでした。

2. 大きなモデルの錯視はどこから来たのでしょうか?

大規模モデルのトレーニングプロセスを詳しく調べると、データの問題が最も重要であることがわかります。事前トレーニング段階では、インターネットにはランダムな Web コンテンツがあふれており、その多くは正確ではない可能性があるため、データのソースを制御することはできません。データを完全にクリーンアップすることはできず、言語をより流暢にすることしかできません。さらに、Web ページにはストーリーのようなコンテンツが多数含まれているため、幻覚的なトレーニングデータが存在することになり、大規模なモデルが誤った相関関係を事実の知識として扱うことになります。LLM はテストサンプルを肯定する傾向があるため、LLM はこの錯覚的な動作を簡単に再現したり、増幅したりすることができます。

大規模なモデルは、主に次のトークンの確率を予測する際にデータ分布の問題を本質的に処理するため、その能力を過大評価することがあります。非常に大規模な LLM の場合、正解と不正解の分布エントロピーは類似している可能性があり、LLM は正解を生成するときと同様に不正解を生成するときにも自信を持っています。

SFT 段階では、幻覚の問題が最も顕著に発生します。問題のあるアライメントプロセスにより、大規模モデルが幻覚に陥る可能性があります。LLM が事前トレーニング段階で関連する事前知識を取得していない場合、トレーニング指示中の誤ったアライメントプロセスにより、LLM が幻覚を起こします。

例えば、上の図の右下にある 2 つの円のうち、左側は事前学習で得たパラメータ化された知識、右側は SFT データ、中央部分は 2 つの交点です。SFT データが中央にあれば正解です。右側の SFT データ自体は学習されていないのに、特定の情報を伝えた場合は、モデルを騙していることになります。たとえば、これが金融モデルで、中国のある法律がいつ公布されたかを尋ねたところ、その法律に関するデータがこれまで一度も見たことがないとします。SFT データが美しくても、嘘を教えてしまうと、あなたとその回答の両方に問題が生じます。したがって、SFT データの品質は可能な限り正確である必要があります。

一般的に使用される top-k 法や top-p 法など、LLM で採用されている生成戦略は、実際には局所的な最適解であり、グローバルな最適性を保証することはできません。これは、検索空間が狭くなることを意味し、幻覚の問題が発生する可能性があります。

データ側とデコード側の観点から見ると、データ生成とデコードプロセスの両方によって、モデルが幻覚を生成する可能性があります。したがって、モデルは、知識を正確に処理し、幻覚の問題を回避できるように、慎重に評価および調整する必要があります。

3. 大規模モデル幻覚を評価する方法

大規模モデルのパフォーマンスを評価する鍵は、その出力を測定するための信頼性の高いメトリックを開発することです。現在、この目標を達成するためのアプローチはいくつかありますが、そのうちの 1 つは、事実の記述評価を生成し、流暢さや一貫性と同様に幻覚を生成的特徴として扱い、LLM によって生成されたテキストを評価して、自然言語推論 (NLI) の 3 つの問題と同様に、前のクエリの回答と次のクエリの 2 つの回答の間に含意関係があるかどうかを確認することに基づいています。さらに、質問と回答のペアに基づく評価を実行して、2 つの回答に重複があるかどうかを比較することもできます。

大規模モデルの幻覚問題をより適切に評価するために、TruthfulQA やその他のさまざまなベンチマークなどのいくつかのベンチマークが登場しており、その中でも清華大学の Atlas は知識グラフを使用して大規模モデルの幻覚問題を評価しています。

大規模モデルの幻想を軽減する戦略

1. 戦略1: 高品質の微調整データを構築し、回答を拒否する

LLM が事前トレーニング段階で関連する事前知識を取得しないと、指示をトレーニングするときに誤った調整プロセスが発生し、LLM が幻覚を起こす原因になります。これには、データの処理と整理が必要であり、編集された指示データに基づいて微調整された LLM は、より高いレベルの信憑性と事実性を示すことができます。さらに、回答拒否セッションを追加することで、正直志向の SFT を採用することもできます。つまり、SFT データに正直なサンプルをいくつか導入します。正直なサンプルとは、「申し訳ありませんが、わかりません」など、自分の無能さを認める回答を指し、幻覚を減らすために特定の質問への回答を拒否することを学習します。

回答拒否に関するデータの割合については、回答拒否を促すデータが1,000を超えると、回答拒否の意識をよりよく形成できることが実践で分かっています。回答されていない質問が多すぎる場合、大規模モデルはどの質問に対しても回答がわからないと表示します。

2. 戦略2: 強化フェーズで誠実な調整を導入する

GPT4 は合成幻覚データを使用して報酬モデルをトレーニングし、RL を実行することで、Truth-fulOA の精度を約 30% から 60% に向上させます。
報酬モデルを最適化し、幻覚を軽減するための特別な報酬関数を設計します。「Unhedged/HedgedCorrect/Wrong」は、LLM が肯定的またはためらいがちな口調で正解または不正解を提供することを表します。

3. 戦略3: 最適化されたデコード戦略: CAD/RAML

コンテキストを考慮したデコード戦略（CAD）は、コンテキストにさらに注意を払います
LLM は、下流のタスクを処理するときに、特に取得された知識が LLM 自体のパラメータ知識と矛盾する場合に、取得された知識に十分な注意を払わないことがあります。
これにより、LLM は、意思決定を行う際に自身のパラメータ知識に過度に依存するのではなく、コンテキスト情報にさらに注意を払うようになります。
KNN+LLM戦略
推論中、2 つの next_token 分布が融合されます。1 つは LLM 出力自体から、もう 1 つは取得された上位 k トークンから得られます。LLM 埋め込み方法は、外部知識ベースでクエリトークンに類似したトークンを見つけるために使用されます。
RALM戦略
自己回帰を使用したデコード戦略の取得https://arxiv.org/pdf/2302.00083.pdf。
まず、LLM を使用していくつかのトークンをデコードし、次にトークンに類似したテキストを取得し、それらをプロンプトに挿入して次のトークンを予測します。このようにして、デコードは自己回帰的に完了します。

4. 戦略4: プラグインの知識ベースを強化して幻覚を軽減する

不正行為に関する知識の向上には、いつ不正行為をするか、どのくらいの頻度で不正行為をするか、そして不正行為の具体的な方法など、いくつかの重要な問題が関係します。一般的な方法は、クエリを受信してから検索を実行し、検索結果を大規模な言語モデルに入力して回答を生成することです。この 1 回限りのプラグイン方式は、場合によっては効果的です。しかし、GPT4などのモデルを使用すると、特定の質問に対するモデルの回答が確実でなかったり、十分に正確ではなかったりすることがわかります。このとき、反復法を使用してプラグインします。モデルの予備的な回答を取得した後、質問またはモデルの回答を再度入力として使用し、複数の反復を実行します。次に、生成された回答に事後的に介入します。たとえば、ナレッジグラフ（KG）などのツールを使用して回答を取得および修正すると、回答の精度と信頼性が向上します。

プラグインする適切なタイミングを選択する際には、モデルが回答を生成する前、回答を生成するプロセス中、および回答を生成した後にプラグインするという 3 つのオプションを検討できます。同時に、検索エンジンや API コードエグゼキュータなどのプラグインにどのようなナレッジベースやツールを使用するかについても検討する必要があります。具体的なプラグイン方式を選択する際には、生成モデルと補正モデルの特性を踏まえて検討し、選択する必要があります。

IV. 結論

最後に、いくつかの要約した洞察を共有したいと思います。

1. グランドモデル錯視とは何ですか？また、それをどのように見るべきでしょうか？

（１）グランドモデル幻覚の分類次元は異なる。

（２）幻覚を必要とするシーン（創作など）もあれば、幻覚を必要としないシーン（医療や法律など）もある。

2. 大規模モデルの錯覚と多様性の間にはどのような論理的関係があるのでしょうか? 鶏が先か卵が先か?

多様性は幻覚の重要な原因です。多様性が生成され、幻覚が発生するからです。

3. 巨大モデル錯視の原因は何ですか?

データ、トレーニング方法、デコードなど、あらゆる側面をカバーします。

4. 大きなモデルの錯覚は解消できるのか？

（１）根本的な解決策はなく、緩和策のみがあり、具体的なビジネスシナリオに応じて差別化する必要がある。

（２）既存のRAGはビッグモデル自体には触れず、症状のみを治療し、根本的な原因は治療しません。

5. ビッグモデルは、自分自身を知っているかどうか知っていますか?

分かりません。すべては自然界の確率です。

6. 大規模モデルの文脈では、知識グラフは独自の位置を見つける必要がある

構造化されたデータを適切に処理し、知識管理とネットワーク構造化の特性を十分に発揮します。

5. 質疑応答

Q1: OpenAI が埋め込みを取得する方法を詳しく説明していただけますか?埋め込み方法を変えることで効果はどの程度向上しますか？全体的な応答速度は向上しましたか?

A1: OpenAI の埋め込みは API インターフェースを介して取得されます。提供されているドキュメントに従って対応するコードを記述し、OpenAI のインターフェースを直接呼び出すことができます。精度向上の具体的な範囲は、データセット、モデルアーキテクチャ、埋め込み品質によって異なります。RAG シナリオでいくつかの比較を行い、いくつかの QD ペアと QD ネガティブサンプルを独自に構築しました。テストサンプルが数千程度になると、リコール側が 30% 向上しました。OpenAI の埋め込みの呼び出しには速度制限があります。一部の独自モデルでは、サービス全体をより高性能なグラフィックカードに展開すると、処理速度が大幅に向上し、ミリ秒レベルに達します。

Q2: エラーの何パーセントが幻覚によって引き起こされますか?戦略最適化を使用した後、どの程度の最適化が達成されましたか?

A2: この比率は実際にはさまざまなシナリオによって異なります。RAG (質問と回答の生成) を使用しない場合、比率の内容の多くは無意味になり、まったく理解できない可能性があります。しかし、RAG シナリオに当てはめると、回答内容の約 30% が見落とされてしまうことがわかります。回答拒否を追加した後、ある極端なシナリオでは、プロセス全体の精度が 25% から 95% に大幅に向上しました。これはかなりの改善です。

Q3: 先ほど、大きなモデルはコンプレッサーであるとおっしゃいました。私が理解しているのは、モデルが生成した知識の一部を逆に学習すると、サムネイルのサムネイルのようなものになるということです。最終的には少しぼやけてしまうのでしょうか?業界はこの問題をどのように見ているのでしょうか、あるいは関連する研究はありますか?

A3: 生成されたコンテンツが以前のトレーニングデータに登場していた場合、データの分布が強化され、ぼやけることなくより鮮明に記憶に残りやすくなると思います。ただし、大量の未知のコンテンツが生成されてデータセットに追加されると、モデルのデータ配分が妨げられ、出力があいまいになる可能性があります。

Q4: ビジネスプロセスをナレッジグラフに変換するプロセスにおいて、特にサンプルグラフをナレッジグラフに変換する方法やノードの変更に対処する方法について、共有できる経験はありますか。

A4: 実は、ここ数年イベントマップに取り組んでいます。各ノードはアクションであり、各プロセスはイベントフレーズに固定され、分類されています。これは本質的には生成と転送の関係であり、生成プロセス全体を手動で構築する必要があります。旅行記などの一般的な分野では、まずイベントを抽出し、次にイベント間の関係性を抽出し、最後にエッジを抽出します。このようなことは一般的な分野や特定のシナリオではうまく機能しますが、私たちのケースではエージェントの問題を解決する必要があるため、ビジネスシナリオは非常に固定されています。この場合、100% の精度を確保するには、時間をかけて手動で構築するだけで十分です。

Q5: 大規模モデルの幻覚問題を解決するために、先制拒否モデルを追加したため、実際には根本的に解決できないことがわかりました。ドキュメントの要約や Q&A の際に、このモデルが答えられない質問はないように思えます。この拒否モデルがどのように実装され、大きなモデルが答えられない質問をどのように判断するかを理解したいと思います。

A5: これは2次元で解くことができます。 1 つ目は、セキュリティマップがあるため、OceanLotus などの特定のシナリオのセキュリティシナリオについて質問するなど、いくつかの決定論的な質問をすることです。エンティティに質問すると、モデルがこのシナリオでこれらのことを見たことがないためであることがわかります。大きなモデルによると、オーシャンロータスにこれを見たことがないかどうか尋ねると、間違った答えが返ってくる可能性があります。では、どうすればよいでしょうか。まず、先ほどのグラフ法を使用して、正のサンプルと負のサンプルを作成します。これが KG シナリオです。もう 1 つのシナリオは、要約回答を行うことです。たとえば、元のポリシーに関するナレッジベースを構築し、各ベースでどのような質問をすることができるかを決定します。そして、関連コンテンツを生成することで、ユーザーがファン・ビンビンが誰なのかを尋ねたときに、システムは直接回答を拒否することができます。

Q6: ドキュメントの Q&A を行う際に、テキストリコールを含む検索前の拡張リンクを設定しています。PPT でも、このしきい値は確かに難しいと述べられています。具体的な解決策があるかどうか、ぜひ知りたいです。私自身の実践では、文書だけでなく画像にも類似度のしきい値を設定するときに、現在採用されている方法はラベルを付けて観察することです。たとえば、しきい値を 0.7 に設定した場合、その精度はどの程度でしょうか。しきい値を 0.6 に設定すると、まるで組立ラインプロジェクトのように、非常に面倒な試行錯誤のプロセスが必要になります。そこで、この問題を解決するより賢い方法があるのではないかと考えています。

A6: まず、このケースは確かに解決が難しいです。私たちのチームも同様の問題に遭遇しました。閾値の問題に関しては、私たちはそれを深く研究することを好みます。具体的には、ランクを複数のランクで追跡するようにします。たとえば、段落 p1 と比較した後、p1 を分解できます。 QD は互いを認識できないため、1 つのスペースに圧縮することはできません。この問題を解決するには、クエリを書き直して結合します。段落 p を選択した後、その下の文も比較します。QD マッチングの値の範囲が低い場合、次の再ランク付け後に対応する文のスコアが増加します。この方法では、この問題を軽減できますが、アルゴリズムの最適化の過程で、あることに集中しているうちに別のことを見失ってしまうという状況によく遭遇するため、どの程度効果があるかはわかりません。テキストの切り取りと比較の問題を解決するために、さまざまな派手な切り取り方法を含め、多くの作業を行ってきましたが、それでも克服すべき課題はまだ多く残っています。

<<:

>>: OpenAIがヴィンセントのビデオモデル「Sora」をリリース。一般人がその恩恵を最大化するにはどうすればいいか？