Newbingが他の生成AIと大きく異なる理由

Newbingが他の生成AIと大きく異なる理由

Newbing を使い始めてから、CHATGPT 3.5 を諦めました。昨日記事を書いた後、ChatGPTを再度試してみました。昨年ブロックされたアカウントが再び使えるとは思っていませんでした。しかし、バージョン3.5しか使えません。4.0を使うには、月額20ドルかかるPROにアップグレードする必要があります。だから、Newbing だけで十分だったので、支払おうとはしませんでした。

数日前、データベースの質問に答える際の複数の公開ビッグモデルのパフォーマンス比較についての記事を公開したところ、友人から、Newbing を他の一般的なビッグモデルと競争させるのは少し不公平だというメッセージが届きました。Newbing は RAG+LLM を使用してサービスを提供するエンジニアリング システムだからです。まず、検索を通じて関連する知識を見つけ、次にビッグモデルに質問します。パフォーマンスは他の LLM よりも確実に優れています。おそらくこの友人は、私が比較したいくつかの大型国産車のグループの一員だったので、私のテストの公平性についてより懸念していたのでしょう。これは確かにその通りです。他の大型モデルが提供するインターフェースも設計されていますが、Microsoft ほど優れているわけではありません。今のところ、これが私が比較できる唯一のものです。

上記の文章から、一般的な大規模モデルのパフォーマンスは、運用と保守のサポートに直接使用する場合は不十分であり、ローカル知識ベースの埋め込みを通じてのみより良い結果が得られることに気付いた友人は多いでしょう。これは、専門技術分野では、一般的な大規模モデルには十分な専門分野の知識が欠けていることが多く、多くの問題に対して盲目的な推測しかできず、パフォーマンスが明らかに不十分だからです。

写真

OpsEvalが昨年11月に発表した大規模運用保守モデルベンチマークから判断すると、OPS分野における一般的な大規模モデルのパフォーマンスは満足できるものではありません。主な問題は幻覚です。Few shot 思考チェーンの象徴である GPT 4.0 の 3 ショット Cot は 88.70 に過ぎず、これはパラメータ スケールがはるかに小さい Yi-34B-Chat モデルの 10% 未満であることがわかります。このレベルのサービスでは、信頼できるサービスを提供することはできず、参考としてのみ機能します。ゼロショットの性能に関してはさらに悲惨です。 Yi-34Bの得点はわずか65%で、これは学習していない知識に基づいて大規模モデルが出した回答の約3分の1が間違っていたことを意味します。一般的なモデルでは、正確な回答が求められる運用・保守の分野には対応できません。

大規模なモデルのトレーニングにはコストがかかり、段階的にトレーニングすることはできないため (段階的なトレーニングは微調整のためにのみ実行可能)、モデルに新しい知識を継続的に追加することは現実的ではありません。 RAG を使用してローカル知識ベースのベクトルを埋め込むか、AutoPrompt を使用して質問を最適化することは、この欠点を補う効果的な方法であり、現在、大規模に商業的に使用されています。

また、少し前にも言いましたが、テクノロジーに携わる人々にとって、いつでも誰にでも助けを提供できるナレッジベースを持つことは非常に重要です。 Newbing は今のところ良いサポートを提供してくれますが、それでも多くの場合、プライベートなナレッジ ベースが必要であると感じています。

写真

私は昨年から Ant のオープン ソース プロジェクト DB-GPT をフォローしています。12 GB のグラフィック カードで推論を実行できるこの大規模なモデル フレームワークは、DBA が独自のプライベート インテリジェント アシスタントを構築するのに適しています。 1 年間の反復を経て、このオープン ソース プロジェクトは比較的成熟してきました。この分野で作業したいと考えている友人は、独自のナレッジ ベースを作成するだけで済みます。


<<:  生産AI駆動型ホスト自動化テスト

>>: 

ブログ    

推薦する

3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです...

GPT-4 Turboがリリースされたが、人気が高すぎて翌日2時間ダウンした。

11月7日、北米の人工知能企業OpenAIの開発者会議が世界のテクノロジーコミュニティの注目を集め...

MITのロボットは、浸透する無線周波数を使って隠れた物体を感知する

[[391062]]海外メディアの報道によると、世界中の研究者がロボットが周囲の状況をよりよく認識...

...

...

ゼロサンプルのパフォーマンスが小サンプルのパフォーマンスを上回り、Google の新しい 1370 億パラメータ モデルは GPT-3 よりも強力

[[422681]] NLP の分野では、事前トレーニングの微調整とプロンプトチューニングの手法に...

あらゆる人間の声を再現できるAI技術

ポッドキャスト業界は、よりリラックスした、自然でカジュアルなオーディオストーリーテリングへと移行して...

量子コンピューティングは人工知能の未来でしょうか?

量子コンピューティングは「量子状態」でさまざまな結果に対応できるため、機械学習や人工知能の問題に対す...

AIとIoTが交通管理をどう変えるのか

人工知能 (AI) とモノのインターネット (IoT) はどちらも、私たちの周りの世界で注目を集め始...

建築設計におけるスマートビルディングと IoT の統合

技術が急速に進歩する時代において、私たちと建築との関係は大きな変化を遂げています。もはやレンガやモル...

...

「自由に眠る」にはヘッドバンドを着けるだけ | Nature サブ出版物

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

米国の改正規則:自動運転車は人間の制御を必要としない

米道路交通安全局(NHTSA)は木曜日、自動運転車メーカーに対し、衝突基準を満たすために完全自動運転...

海外メディア:科学者らが深海を探索できる魚のようなソフトロボットを設計

3月4日のニュース、外国メディアの報道によると、ネイチャー誌に最近発表された研究によると、中国のエン...

機械学習を使用したデータマッピング

[[278276]]中小企業から大企業まで、ほぼすべての企業が顧客の注目を集める機会を求めて競争して...