ChatGPTの最強の対戦相手が実際のテストでWen Xin Yi Yanに敗れました！

編纂者：王睿平

校正 | Yan Zheng

著作権侵害、プライバシー侵害、度重なる訴訟により、ChatGPT のトラフィックは急落し、市場競争力は急落しました。

このとき、Open AI の最大のライバルである Anthropic がこの状況を利用し、Claude 2 をリリースして Open AI を不意打ちした。ネットユーザーグループが最初に試用したところ、圧倒的な賞賛が寄せられました。

Claude シリーズは発売当初から大きな期待が寄せられていたと伝えられています。創設メンバーは全員 Open AI で働いており、高い技術力を持っていたため、彼らが提示した結果は非常に完璧で、意図の理解も優れていました。完全に無料の Claude Chat の Web バージョンもリリースしました。

パフォーマンス面では、Claude 2 は 100,000 トークンの入力を公式にサポートし、一度に 4,000 トークンを出力できます。

さらに、モデルは2023年のデータを使用してトレーニングされているため、Claude 2は「現在の出来事を理解し」、出力内容はよりタイムリーなものになっています。これらのパフォーマンスの向上により、ユーザーの心の中での Claude 2 の重みは大幅に高まりました。

(出典: Anthropic)

「パフォーマンスと応答時間が改善された新モデル、Claude 2をリリースできることを嬉しく思います。このモデルはAPIとパブリックベータサイトClaude.aiからアクセスできます」とAnthropicはウェブサイトで述べた。

1. パフォーマンスの向上：文系と理系の両方に適しており、安全性を確保

ChatGPT と比較して、Claude 2 には次の利点があります。

まず、トークンについてですが、GPT-4 の下限はデフォルトで 8k トークン、上限は 32k トークンですが、Claude 2 は 100k トークンであり、GPT-4 と同じレベルではありません。

さらにコストもかかります。GPT-4 は月額 20 ドルですが、Claude 2 は完全に無料です。

Claude 2 はトークンが長く、長いテキストの処理に優れているため、人文科学分野では有利です。

写真

米国司法試験の多肢選択式問題で 76.5% の正解率を達成できますが、前世代の Claude 1.3 では正解率は 70% に過ぎませんでした。 GRE のリーディングとライティングのテストで卒業生の中で 90 パーセンタイルのスコアを獲得しました。米国の医師免許試験において、クロード 2 は 3 つの科目すべてで 60% 以上の得点を獲得し、全科目合格を達成しました。

それだけでなく、クロード2号は芸術と科学の両方に優れており、プログラミング、数学、推論の精度が大幅に向上しました。

反復プロセス中に、Claude 2 のセキュリティは強化され、モデルによって制約が厳しくなり、攻撃的または危険な出力を生成することが困難になりました。 R&D チームは、多数の有害なプロンプトに対するモデルテストのスコア付けと自動化を行う特別な評価チームを設置しました。チームは定期的に結果を直接確認し、すべてが正しいことを確認します。

結果は、評価セッション全体を通して、Claude 2 は Claude 1.3 の 2 倍の無害なフィードバックを与える能力があることを示しました。

セキュリティ、機能性、パフォーマンスの向上を考慮して、Anthropic は Claude 2 が米国と英国で完全な公開テストを開始したことを発表し、今後数か月以内にテスト対象を拡大する予定であるとも発表しました。

2. 強力なエコシステム：多分野・学際的な協力

Anthropic の理念は多分野かつ学際的なコラボレーションであり、Claude API を使用する何千もの企業とパートナーシップを確立しています。

その一つがAIGCのユニコーン企業であるJasperです。 Claude 2 は、さまざまなユースケースで他の最先端モデルに追いつくことができ、特に長時間、低遅延での使用に優れ、クライアント向けにユニークでクリエイティブな広告コンテンツを生成します。

「強化されたセマンティクス、最先端の知識トレーニング、複雑なプロンプトの推論の改善を備えた Claude 2 をお客様に提供する最初の企業の 1 つになれたことを嬉しく思います」と、Jasper のエンジニアリング担当副社長である Greg Larson 氏は述べています。

Sourcegraph は、顧客がコードを作成、修正、保守するのに役立つ AI コードプラットフォームです。コーディングアシスタント Cody は、Claude 2 の改良された推論機能を使用して、より正確な回答を顧客に提供するとともに、最大 10 万トークンのコンテキストウィンドウを通じてより多くのコードベースを提供します。さらに、Claude 2 のトレーニングデータが更新され、新しいフレームワークとライブラリに関する知識が取得されます。

オンライン教育ソリューションの大手プロバイダーである Juni Learning は、Anthropic を使用して Discord Juni Tutor Bot を強化し、学生が学習を完了できるようにしています。

写真

「私たちにとって、クロードは単なる表面的な答えではなく、本当のメンターや教師のように感じられる会話体験を提供してくれます」とCEOのビビアン・シェン氏は語った。

法律分野における最も難しい問題の一つは、複雑な法律文書を読んで理解することです。その結果、法務インフラ企業のRobin AIも契約書の作成にClaude 2を使用しています。

3. オープンAIは内外のトラブルに直面しているが、挑戦者にとっては良い時期

最近、海外メディアの報道によると、OpenAIの中核従業員がGoogleに負けているという。これらの従業員の中にはすでに辞職して Google と契約を結んでいる者もいるが、近い将来 OpenAI を去る者もいる。

この中核的従業員の一連の退職は、OpenAI の爆発的な成長によって引き起こされた一連の経営上の問題のように見えますが、その根本的な原因を詳しく調べると、従業員の CEO の経営に対する不満と ChatGPT の技術の進歩の欠如に対する失望が原因であることが分かるかもしれません。

OpenAI は Microsoft から 100 億ドルの資金提供を受け、最大の収益源である ChatGPT の追求に満足しているようだが、ChatGPT のさらなる開発計画はない。 3月にローンチしたClaudeは当初の意図通りの方向に発展しているようですが、ChatGPTは途中で停滞しているようです。

内部の問題だけでなく、外部の脅威も重なりました。マスク氏はこの状況を注視しており、新たな大きな動きを起こそうとしている。傘下に新たな会社が誕生しました！現地時間7月12日、マスク氏はツイッターで人工知能企業xAIが正式に設立されたと発表した。

写真

xAIの公式ウェブサイトが公開されました。報道によると、同社はマスク氏自身が率いており、他のメンバーはDeepMind、OpenAI、Google Research、Microsoft Research、Tesla、トロント大学などから来ている。彼らはDeepMindのAlphaCodeやOpenAIのGPT-3.5およびGPT-4チャットボットなどのプロジェクトに参加している。

非常にハイエンドなメンバー構成から判断すると、マスク氏はxAIを、そのほとんどが有名なチャットボットの推進者であるOpenAI、Google、Anthropicなどの企業と競合する企業として位置付けているのかもしれない。

xAI の宣言された使命は、「宇宙の真の性質を理解する」ことです。 7月14日、同社チームはTwitterで記者会見を開き、ネットユーザーのさらなる質問に答える予定だ。

4. バージョンレビュー

公式サイトによると、Claudeは今年3月に正式に発売されました。当時は、それぞれ独自の機能と特徴を持つClaude1.3とClaude Instant1.1という2つのバージョンがリリースされました。

研究者らは基本的な評価において、3つのバージョンを比較した。データにより、新バージョンでは主に以下の点で機能が大幅に改善されたことが証明されています。

写真

上の表に示されているように、Claude 2 は、Python 関数合成 (Codex P)、GSM8k (小学校の算数問題)、MMLU (多科目質問応答)、QuALITY (長文質問応答テスト)、ARC-Challenge (科学問題)、TriviaQA (読解力)、および RACE-H (高校の読解力と推論力) のほとんどのテストで高いスコアを獲得しました。

公式サイトでは、「Claude は高性能ですが、Claude Instant は安価で高速です」とも明らかにされています。

5. 鶏とウサギを同じケージに入れ、ウェン・シンイヤンに負ける

Claude 2 の能力をテストするために、「同じケージの中の鶏とウサギ」問題を使用して Wen Xin Yi Yan と Claude 2 をテストし、比較してみました。

写真

図に示すように、Claude 2 は中国語と英語の両方で間違った回答を出力します...

写真

Wen Xin Yi Yanでテストしたところ、正解でした。Wen Xin Yi Yanはやはり信頼できるようです！

写真

興味深いことに、ChatGPT の中国語版は正解でしたが、英語版は間違っていました。実際のテストはちょっと恥ずかしいです！クロード2号の数学能力の向上にはまだまだ長い道のりがあるようです。

6. ユーザー: クロードはChatGPTよりもおしゃべりです

ユーザーのフィードバックを見てみましょう。Claude によって生成された会話テキストは ChatGPT よりも柔軟性が高いようです。

「クロードはChatGPTよりもおしゃべりだし、よりインタラクティブでクリエイティブなストーリーテリングができる」とあるユーザーはコメントした。

「個人的には、クロードの回答の提示方法が気に入っています。詳細でありながらシンプルです」と、クロードの言語スキルとQ&Aの専門知識に感銘を受けたあるユーザーはコメントしました。

写真

主要パートナーの1つであるQuoraも、AIチャットツールPoeを通じてユーザーにClaudeを紹介した。「ユーザーは総じて、クロード氏の回答は詳細かつ分かりやすく、会話も普通の会話のように感じていると感じている」と、Quoraの人事・コミュニケーション担当責任者、オータム・ベッセルマン氏は語った。

ユーザーは、現在のすべてのモデルと同様に、Claude が不合理なコンテンツを出力する可能性があることに注意する必要があります。ただし、これによってクロードと話すことが妨げられるわけではありません。オープンで包括的な心で使用してください。体験アドレスはこちらです: https://claude.ai/chats。楽しんでください!