Newbingが他の生成AIと大きく異なる理由

Newbing を使い始めてから、CHATGPT 3.5 を諦めました。昨日記事を書いた後、ChatGPTを再度試してみました。昨年ブロックされたアカウントが再び使えるとは思っていませんでした。しかし、バージョン3.5しか使えません。4.0を使うには、月額20ドルかかるPROにアップグレードする必要があります。だから、Newbing だけで十分だったので、支払おうとはしませんでした。

数日前、データベースの質問に答える際の複数の公開ビッグモデルのパフォーマンス比較についての記事を公開したところ、友人から、Newbing を他の一般的なビッグモデルと競争させるのは少し不公平だというメッセージが届きました。Newbing は RAG+LLM を使用してサービスを提供するエンジニアリングシステムだからです。まず、検索を通じて関連する知識を見つけ、次にビッグモデルに質問します。パフォーマンスは他の LLM よりも確実に優れています。おそらくこの友人は、私が比較したいくつかの大型国産車のグループの一員だったので、私のテストの公平性についてより懸念していたのでしょう。これは確かにその通りです。他の大型モデルが提供するインターフェースも設計されていますが、Microsoft ほど優れているわけではありません。今のところ、これが私が比較できる唯一のものです。

上記の文章から、一般的な大規模モデルのパフォーマンスは、運用と保守のサポートに直接使用する場合は不十分であり、ローカル知識ベースの埋め込みを通じてのみより良い結果が得られることに気付いた友人は多いでしょう。これは、専門技術分野では、一般的な大規模モデルには十分な専門分野の知識が欠けていることが多く、多くの問題に対して盲目的な推測しかできず、パフォーマンスが明らかに不十分だからです。

写真

OpsEvalが昨年11月に発表した大規模運用保守モデルベンチマークから判断すると、OPS分野における一般的な大規模モデルのパフォーマンスは満足できるものではありません。主な問題は幻覚です。Few shot 思考チェーンの象徴である GPT 4.0 の 3 ショット Cot は 88.70 に過ぎず、これはパラメータスケールがはるかに小さい Yi-34B-Chat モデルの 10% 未満であることがわかります。このレベルのサービスでは、信頼できるサービスを提供することはできず、参考としてのみ機能します。ゼロショットの性能に関してはさらに悲惨です。 Yi-34Bの得点はわずか65%で、これは学習していない知識に基づいて大規模モデルが出した回答の約3分の1が間違っていたことを意味します。一般的なモデルでは、正確な回答が求められる運用・保守の分野には対応できません。

大規模なモデルのトレーニングにはコストがかかり、段階的にトレーニングすることはできないため (段階的なトレーニングは微調整のためにのみ実行可能)、モデルに新しい知識を継続的に追加することは現実的ではありません。 RAG を使用してローカル知識ベースのベクトルを埋め込むか、AutoPrompt を使用して質問を最適化することは、この欠点を補う効果的な方法であり、現在、大規模に商業的に使用されています。

また、少し前にも言いましたが、テクノロジーに携わる人々にとって、いつでも誰にでも助けを提供できるナレッジベースを持つことは非常に重要です。 Newbing は今のところ良いサポートを提供してくれますが、それでも多くの場合、プライベートなナレッジベースが必要であると感じています。

写真

私は昨年から Ant のオープンソースプロジェクト DB-GPT をフォローしています。12 GB のグラフィックカードで推論を実行できるこの大規模なモデルフレームワークは、DBA が独自のプライベートインテリジェントアシスタントを構築するのに適しています。 1 年間の反復を経て、このオープンソースプロジェクトは比較的成熟してきました。この分野で作業したいと考えている友人は、独自のナレッジベースを作成するだけで済みます。

<<: 生産AI駆動型ホスト自動化テスト

>>: