Newbingが他の生成AIと大きく異なる理由

Newbingが他の生成AIと大きく異なる理由

Newbing を使い始めてから、CHATGPT 3.5 を諦めました。昨日記事を書いた後、ChatGPTを再度試してみました。昨年ブロックされたアカウントが再び使えるとは思っていませんでした。しかし、バージョン3.5しか使えません。4.0を使うには、月額20ドルかかるPROにアップグレードする必要があります。だから、Newbing だけで十分だったので、支払おうとはしませんでした。

数日前、データベースの質問に答える際の複数の公開ビッグモデルのパフォーマンス比較についての記事を公開したところ、友人から、Newbing を他の一般的なビッグモデルと競争させるのは少し不公平だというメッセージが届きました。Newbing は RAG+LLM を使用してサービスを提供するエンジニアリング システムだからです。まず、検索を通じて関連する知識を見つけ、次にビッグモデルに質問します。パフォーマンスは他の LLM よりも確実に優れています。おそらくこの友人は、私が比較したいくつかの大型国産車のグループの一員だったので、私のテストの公平性についてより懸念していたのでしょう。これは確かにその通りです。他の大型モデルが提供するインターフェースも設計されていますが、Microsoft ほど優れているわけではありません。今のところ、これが私が比較できる唯一のものです。

上記の文章から、一般的な大規模モデルのパフォーマンスは、運用と保守のサポートに直接使用する場合は不十分であり、ローカル知識ベースの埋め込みを通じてのみより良い結果が得られることに気付いた友人は多いでしょう。これは、専門技術分野では、一般的な大規模モデルには十分な専門分野の知識が欠けていることが多く、多くの問題に対して盲目的な推測しかできず、パフォーマンスが明らかに不十分だからです。

写真

OpsEvalが昨年11月に発表した大規模運用保守モデルベンチマークから判断すると、OPS分野における一般的な大規模モデルのパフォーマンスは満足できるものではありません。主な問題は幻覚です。Few shot 思考チェーンの象徴である GPT 4.0 の 3 ショット Cot は 88.70 に過ぎず、これはパラメータ スケールがはるかに小さい Yi-34B-Chat モデルの 10% 未満であることがわかります。このレベルのサービスでは、信頼できるサービスを提供することはできず、参考としてのみ機能します。ゼロショットの性能に関してはさらに悲惨です。 Yi-34Bの得点はわずか65%で、これは学習していない知識に基づいて大規模モデルが出した回答の約3分の1が間違っていたことを意味します。一般的なモデルでは、正確な回答が求められる運用・保守の分野には対応できません。

大規模なモデルのトレーニングにはコストがかかり、段階的にトレーニングすることはできないため (段階的なトレーニングは微調整のためにのみ実行可能)、モデルに新しい知識を継続的に追加することは現実的ではありません。 RAG を使用してローカル知識ベースのベクトルを埋め込むか、AutoPrompt を使用して質問を最適化することは、この欠点を補う効果的な方法であり、現在、大規模に商業的に使用されています。

また、少し前にも言いましたが、テクノロジーに携わる人々にとって、いつでも誰にでも助けを提供できるナレッジベースを持つことは非常に重要です。 Newbing は今のところ良いサポートを提供してくれますが、それでも多くの場合、プライベートなナレッジ ベースが必要であると感じています。

写真

私は昨年から Ant のオープン ソース プロジェクト DB-GPT をフォローしています。12 GB のグラフィック カードで推論を実行できるこの大規模なモデル フレームワークは、DBA が独自のプライベート インテリジェント アシスタントを構築するのに適しています。 1 年間の反復を経て、このオープン ソース プロジェクトは比較的成熟してきました。この分野で作業したいと考えている友人は、独自のナレッジ ベースを作成するだけで済みます。


<<:  生産AI駆動型ホスト自動化テスト

>>: 

ブログ    
ブログ    

推薦する

流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

全国的な「オンライン授業」が始まって1か月、湖北省以外の省では新型コロナウイルスの新規感染者もそれほ...

...

Google の社内機械学習プロジェクト「Project Ninja」の秘密を解明します。

すべての製品に人工知能を統合したい場合は、強力な機械学習チームを育成する必要があります。 Googl...

...

今週の Github の人気プロジェクトの概要: 自然言語処理 Python ライブラリ spaCy が最もホットです!

先週、Github で最も人気のあるプロジェクトは、最近バージョン 2.0 に更新された自然言語処理...

Google、少量のサンプル学習と会話で記事を書き換えられるAIライティングアシスタントをリリース

[[412579]] 2016 年には、財務報告書に基づいてプレスリリースを書くという、人間と機械に...

...

蔡子星院士:オープンソースは人工知能開発の新たなトレンド

[[397103]] 「AIコア技術の躍進は産業の高度化の原動力であり、オープンソースはAI発展の新...

2021年のスマートシティの変革と再構築のトレンド

現代では、混沌とした賑やかな都市がどんどん増え、実際に「スマートシティ」の称号を競い合っています。そ...

...

AIとIoTが健康や医療のスマートイノベーションに貢献

中国の医療サービス市場の規模は巨大です。中国の医療サービス業界は、国家政策の推進により、デジタル化と...

先頭に立つ! 16人の学際的な専門家がAIの次の10年について語る

ニューヨーク大学の心理学・神経科学教授ゲイリー・マーカス氏と、ディープラーニングの先駆者で2018年...

IoTとロボットの連携

明らかに、ロボット工学とモノのインターネットはまったく異なる分野です。しかし、両者が互いに成長し革新...

静的な知識を動的にする: ナレッジグラフからファクトグラフへ

[[392524]]ソーシャル ネットワークには、有名な「6 次の隔たり理論」があります。 「世界中...

...