Newbing を使い始めてから、CHATGPT 3.5 を諦めました。昨日記事を書いた後、ChatGPTを再度試してみました。昨年ブロックされたアカウントが再び使えるとは思っていませんでした。しかし、バージョン3.5しか使えません。4.0を使うには、月額20ドルかかるPROにアップグレードする必要があります。だから、Newbing だけで十分だったので、支払おうとはしませんでした。 数日前、データベースの質問に答える際の複数の公開ビッグモデルのパフォーマンス比較についての記事を公開したところ、友人から、Newbing を他の一般的なビッグモデルと競争させるのは少し不公平だというメッセージが届きました。Newbing は RAG+LLM を使用してサービスを提供するエンジニアリング システムだからです。まず、検索を通じて関連する知識を見つけ、次にビッグモデルに質問します。パフォーマンスは他の LLM よりも確実に優れています。おそらくこの友人は、私が比較したいくつかの大型国産車のグループの一員だったので、私のテストの公平性についてより懸念していたのでしょう。これは確かにその通りです。他の大型モデルが提供するインターフェースも設計されていますが、Microsoft ほど優れているわけではありません。今のところ、これが私が比較できる唯一のものです。 上記の文章から、一般的な大規模モデルのパフォーマンスは、運用と保守のサポートに直接使用する場合は不十分であり、ローカル知識ベースの埋め込みを通じてのみより良い結果が得られることに気付いた友人は多いでしょう。これは、専門技術分野では、一般的な大規模モデルには十分な専門分野の知識が欠けていることが多く、多くの問題に対して盲目的な推測しかできず、パフォーマンスが明らかに不十分だからです。 写真 OpsEvalが昨年11月に発表した大規模運用保守モデルベンチマークから判断すると、OPS分野における一般的な大規模モデルのパフォーマンスは満足できるものではありません。主な問題は幻覚です。Few shot 思考チェーンの象徴である GPT 4.0 の 3 ショット Cot は 88.70 に過ぎず、これはパラメータ スケールがはるかに小さい Yi-34B-Chat モデルの 10% 未満であることがわかります。このレベルのサービスでは、信頼できるサービスを提供することはできず、参考としてのみ機能します。ゼロショットの性能に関してはさらに悲惨です。 Yi-34Bの得点はわずか65%で、これは学習していない知識に基づいて大規模モデルが出した回答の約3分の1が間違っていたことを意味します。一般的なモデルでは、正確な回答が求められる運用・保守の分野には対応できません。 大規模なモデルのトレーニングにはコストがかかり、段階的にトレーニングすることはできないため (段階的なトレーニングは微調整のためにのみ実行可能)、モデルに新しい知識を継続的に追加することは現実的ではありません。 RAG を使用してローカル知識ベースのベクトルを埋め込むか、AutoPrompt を使用して質問を最適化することは、この欠点を補う効果的な方法であり、現在、大規模に商業的に使用されています。 また、少し前にも言いましたが、テクノロジーに携わる人々にとって、いつでも誰にでも助けを提供できるナレッジベースを持つことは非常に重要です。 Newbing は今のところ良いサポートを提供してくれますが、それでも多くの場合、プライベートなナレッジ ベースが必要であると感じています。 写真 私は昨年から Ant のオープン ソース プロジェクト DB-GPT をフォローしています。12 GB のグラフィック カードで推論を実行できるこの大規模なモデル フレームワークは、DBA が独自のプライベート インテリジェント アシスタントを構築するのに適しています。 1 年間の反復を経て、このオープン ソース プロジェクトは比較的成熟してきました。この分野で作業したいと考えている友人は、独自のナレッジ ベースを作成するだけで済みます。 |
「私の仕事はロボットに置き換えられるのでしょうか?」人工知能の急速な発展により、ますます多くの人々...
AI の最新の傾向は、自然言語モデルが大きくなるほど精度が向上するということですが、コスト、時間、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2018年、国内の人工知能とビッグデータ産業は引き続き急速な発展を遂げ、国家計画の導入に伴い、各地...
論文: ディープラーニングの最近の進歩: 概要論文アドレス: https://arxiv.org/p...
宅配ラベルのプライバシー漏洩、APPからの過度な権利要求、個人情報の違法収集・利用などの問題が依然と...
近年、人工知能は頻繁に話題になっていますが、まだ真の実現には程遠い状況です。人工知能技術の開発におけ...
近年では、大規模データ向けのTensorFlow、PyTorch、Caffee、CNTK、Spark...
諜報活動は私たちが想像するよりもはるかに退屈で複雑です。現在、米国の諜報機関は、手作業に代わる人工知...
販売業界が進化し続けるにつれて、販売チームが新規顧客を引き付け、既存顧客を維持するのに役立つ販売戦略...