Newbingが他の生成AIと大きく異なる理由

Newbingが他の生成AIと大きく異なる理由

Newbing を使い始めてから、CHATGPT 3.5 を諦めました。昨日記事を書いた後、ChatGPTを再度試してみました。昨年ブロックされたアカウントが再び使えるとは思っていませんでした。しかし、バージョン3.5しか使えません。4.0を使うには、月額20ドルかかるPROにアップグレードする必要があります。だから、Newbing だけで十分だったので、支払おうとはしませんでした。

数日前、データベースの質問に答える際の複数の公開ビッグモデルのパフォーマンス比較についての記事を公開したところ、友人から、Newbing を他の一般的なビッグモデルと競争させるのは少し不公平だというメッセージが届きました。Newbing は RAG+LLM を使用してサービスを提供するエンジニアリング システムだからです。まず、検索を通じて関連する知識を見つけ、次にビッグモデルに質問します。パフォーマンスは他の LLM よりも確実に優れています。おそらくこの友人は、私が比較したいくつかの大型国産車のグループの一員だったので、私のテストの公平性についてより懸念していたのでしょう。これは確かにその通りです。他の大型モデルが提供するインターフェースも設計されていますが、Microsoft ほど優れているわけではありません。今のところ、これが私が比較できる唯一のものです。

上記の文章から、一般的な大規模モデルのパフォーマンスは、運用と保守のサポートに直接使用する場合は不十分であり、ローカル知識ベースの埋め込みを通じてのみより良い結果が得られることに気付いた友人は多いでしょう。これは、専門技術分野では、一般的な大規模モデルには十分な専門分野の知識が欠けていることが多く、多くの問題に対して盲目的な推測しかできず、パフォーマンスが明らかに不十分だからです。

写真

OpsEvalが昨年11月に発表した大規模運用保守モデルベンチマークから判断すると、OPS分野における一般的な大規模モデルのパフォーマンスは満足できるものではありません。主な問題は幻覚です。Few shot 思考チェーンの象徴である GPT 4.0 の 3 ショット Cot は 88.70 に過ぎず、これはパラメータ スケールがはるかに小さい Yi-34B-Chat モデルの 10% 未満であることがわかります。このレベルのサービスでは、信頼できるサービスを提供することはできず、参考としてのみ機能します。ゼロショットの性能に関してはさらに悲惨です。 Yi-34Bの得点はわずか65%で、これは学習していない知識に基づいて大規模モデルが出した回答の約3分の1が間違っていたことを意味します。一般的なモデルでは、正確な回答が求められる運用・保守の分野には対応できません。

大規模なモデルのトレーニングにはコストがかかり、段階的にトレーニングすることはできないため (段階的なトレーニングは微調整のためにのみ実行可能)、モデルに新しい知識を継続的に追加することは現実的ではありません。 RAG を使用してローカル知識ベースのベクトルを埋め込むか、AutoPrompt を使用して質問を最適化することは、この欠点を補う効果的な方法であり、現在、大規模に商業的に使用されています。

また、少し前にも言いましたが、テクノロジーに携わる人々にとって、いつでも誰にでも助けを提供できるナレッジベースを持つことは非常に重要です。 Newbing は今のところ良いサポートを提供してくれますが、それでも多くの場合、プライベートなナレッジ ベースが必要であると感じています。

写真

私は昨年から Ant のオープン ソース プロジェクト DB-GPT をフォローしています。12 GB のグラフィック カードで推論を実行できるこの大規模なモデル フレームワークは、DBA が独自のプライベート インテリジェント アシスタントを構築するのに適しています。 1 年間の反復を経て、このオープン ソース プロジェクトは比較的成熟してきました。この分野で作業したいと考えている友人は、独自のナレッジ ベースを作成するだけで済みます。


<<:  生産AI駆動型ホスト自動化テスト

>>: 

ブログ    
ブログ    
ブログ    

推薦する

将来のAIの世界における興味深い仕事

現在、人工知能 (AI) システムは反復的で非創造的なタスクを実行するのが得意ですが、スクリプトから...

ニューラルネットワークと人間の思考の深い関係

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

ソフトウェアエンジニアの年収は930万ドル! Googleの給与が明らかに:15億6千万ドルは史上最高額

シリコンバレーの大企業の中でも、グーグルの従業員はテクノロジー業界で最も高給を得ている社員の一部であ...

顔認識で間違った人物が「捕まった」ため、その人物は10日間刑務所に収監された

それはとんでもないことだ。何もしてないのに理由もなく10日間警察に拘留されるんですか? ! [[39...

AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

ジェフリー・ヒントンは、コンピューターに学習方法を教えることに生涯を費やしてきました。今、彼は人工脳...

ディープラーニングは自動運転車にとって何を意味するのでしょうか?

[[348074]]自動運転車でディープラーニングを使用すると、歩行者の行動を理解したり、最短ルー...

自然言語処理: エンタープライズ AI の新たなフロンティア

単純なスペルミスや単語の誤用によって会話ボットの応答が変わってしまう可能性がありますが、人間のエージ...

...

SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションにつ...

Microsoft Copilot は、コード インタープリター、DALL·E 3、ChatGPT を備えた完全バージョンに進化しました。

Copilot のリリース 1 周年を記念して、一連のメジャー アップデートが予定されています。 ...

2019年の人工知能の予測と展望

2019 年に人工知能の分野はどのように進化するでしょうか? 過去数年と比べてどのように変化するでし...

IoTソリューションは、より効果的なデータ駆動型警察活動の基盤を築く

個人によって生成されるデータの量と種類が増加し続けるにつれて、警察はそれに追いつくために効果的な自動...

...