GPT-4 の時代は終わったのでしょうか?世界中のネットユーザーがクロード3を試し衝撃を受けた

GPT-4 の時代は終わったのでしょうか?世界中のネットユーザーがクロード3を試し衝撃を受けた

大型モデルのプレーンテキスト方向は終焉を迎えた?

昨夜、OpenAI の最大のライバルである Anthropic が、新世代の AI 大規模モデル シリーズ「Claude 3」をリリースしました。

このシリーズには、能力の点から弱いものから強いものの順に並べられた、Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus の 3 つのモデルが含まれています。その中でも最も優れた Opus は、複数のベンチマーク テストで GPT-4 や Gemini 1.0 Ultra よりも高いスコアを獲得し、数学、プログラミング、多言語理解、視覚など、複数の側面で新たな業界ベンチマークを確立しました。

Anthropic によれば、Claude 3 Opus は人間に関して学部レベルの知識を持っているとのことです。

新しいモデルのリリース後、Claude は初めてマルチモーダル機能のサポートを導入しました (MMMU の Opus バージョンのスコアは 59.4% で、GPT-4V を上回り、Gemini 1.0 Ultra と同等でした)。ユーザーは、写真、グラフ、ドキュメント、その他の種類の非構造化データをアップロードして、AI が分析して回答できるようになります。

さらに、これら 3 つのモデルは、Claude シリーズ モデルの伝統的な強みである長いコンテキスト ウィンドウも継承しています。初期段階では 20 万トークンのコンテキスト ウィンドウがサポートされていますが、Anthropic によれば、3 つすべてが 100 万トークンのコンテキスト入力をサポートしており (一部の顧客が対象)、これは英語版の「白鯨」または「ハリー ポッターと死の秘宝」の長さとほぼ同じです。

ただし、価格面では、最も強力な Claude 3 は GPT-4 Turbo よりもはるかに高価です。GPT-4 Turbo は 100 万トークンの入出力あたり 10/30 ドルを請求しますが、Claude 3 Opus は 15/75 ドルを請求します。

Opus と Sonnet は現在 claude.ai と Claude API で利用可能で、Haiku も近日中に利用可能になる予定です。 Amazon Web Services は、Amazon Bedrock での新しいモデルのリリースも発表しました。以下は Anthropic がリリースした公式デモです:

Anthropic の正式発表後、製品を試す機会を得た多くの研究者も体験談を共有しました。クロード 3 ソネットは、これまで GPT-4 だけが解けたパズルを解いたと言う人もいます。

しかし、実際の経験上、Claude 3 が GPT-4 を完全に打ち負かしたわけではないという意見もありました。

Claude3の直接テスト

アドレス: https://claude.ai/

Claude 3 は公式に主張されているように、本当にあらゆる面で GPT-4 を上回っているのでしょうか?今ではほとんどの人が、確かに興味深いと考えています。

測定結果の一部を以下に示します。

まず、頭の体操です。28 日ある月はどれでしょうか?実際の正解は毎月です。クロード3はこういう質問が苦手なようです。

次に、Claude 3 が得意とする分野をテストしました。公式の紹介から、Claude は画像からのテキスト抽出、UI をフロントエンド コードに変換すること、複雑な数式の理解、手書きのメモの書き起こしなど、「画像の理解と処理」が得意であることがわかります。

大型モデルの場合、フライドチキンとテディベアの区別が難しいことがよくあります。テディベアとフライドチキンを含む画像を入力すると、Claude 3 は次のように答えました。「この画像は、犬とフライドチキンナゲットまたはチキンナゲットのコラージュであり、犬自体に非常に似ています...」この質問は合格しました。

次に、何人の人が出てくるのかと聞かれると、クロード3号も「このアニメーションには7人の小さな漫画のキャラクターが描かれています」と正しく答えました。

Claude 3 は写真からテキストを抽出でき、中国語と日本語の縦書きも正しく認識できます。

インターネットのミームを使用した場合、どのような反応があるでしょうか?視覚エラーの画像に関しては、GPT-4 と Claude3 は反対の推測をしました。

どちらが正しいでしょうか?

Claude は、画像の理解に加え、長いテキストの処理も可能です。今回リリースされた大規模モデルの全範囲は、20 万のコンテキスト ウィンドウを提供し、100 万を超えるトークン入力を受け入れることができます。

効果は何ですか?最近 Microsoft と中国科学技術大学が発表した論文「1 ビット LLM の時代: すべての大規模言語モデルは 1.58 ビット」を入力し、記事の要点を 1、2、3 の順に要約するように依頼しました。時間を記録したところ、全体の回答を出力するのに約 15 秒かかりました。

ただし、これはClaude 3 Sonnetの出力効果のみです。Claude Proバージョンを使用すると速度は速くなりますが、月額20ドルかかります。

注目すべきは、Claude がアップロードされた記事のサイズが 10 MB を超えないことを要求していることです。10 MB を超えると、プロンプトが表示されます。

Claude 3 のブログで、Anthropic は新しいモデルのコーディング能力が大幅に向上したことを指摘しました。基本的な ASCII コードを Claude に直接投げてみたところ、圧力がまったくなかったという人もいました。

Claude 3 は GPT-4 よりも強力なコーディング機能を備えていることが確認できるはずです。

少し前、OpenAIを辞任したばかりのKarpathy氏は、「単語分割」チャレンジを提案した。具体的には、彼は録画した 2 時間 13 分のチュートリアル ビデオを LLM に取り込み、トークナイザーに関する本の章やブログ投稿の形式に翻訳しました。

この課題に直面した Claude 3 がそれを引き受け、AnthropicAI の研究エンジニア Emmanuel Ameisen が投稿した結果が以下のとおりです。

写真


おそらく、もはや既得権益がなくなったため、カルパシー氏はより徹底的かつ客観的な評価を下した。

スタイルの観点から見ると、本当にとても良いです!よく見ると、微妙な問題や錯覚があることに気づくでしょう。いずれにせよ、これはほぼすぐに使用できる素晴らしいシステムです。 Claude 3 でもっと遊ぶのが楽しみです。強力なモデルのようです。

これについて私が言いたいことは、評価結果自体が思っているよりも悪いだけでなく、多くの評価結果が定義されていない方法で過剰適合されており、比較によって誤解を招く可能性があるため、評価比較を行う際には細心の注意を払う必要があるということです。 GPT-4のエンコード率(HumanEval)は67%ではありません。コーディング パフォーマンスの代用としてこのような比較が使用されているのを見ると、目の端がピクピクし始めます。

上記の微妙なテスト結果を受けて、すでに「Anthropic が復活した」と叫んでいる人もいます。

最後に、anthropic は複数の方向プロンプトを含むプロンプト ライブラリもリリースしました。 Claude 3 の新機能について詳しく知りたい場合は、ぜひお試しください。

リンク: https://docs.anthropic.com/claude/prompt-library

クロード 3 シリーズ モデル

Claude 3 シリーズ モデルには、Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku の 3 つのバージョンがあります。

その中でも、Claude 3 Opus は最もインテリジェントなモデルであり、20 万トークンのコンテキスト ウィンドウをサポートし、非常に複雑なタスクで現在の SOTA パフォーマンスを実現します。このモデルは、優れた流暢さと人間レベルの理解力で、オープンエンドのプロンプトや目に見えないシーンを処理できます。 Claude 3 Opus は、生成 AI で可能なことの限界を示しています。

Claude 3 Sonnet は、特にエンタープライズ ワークロード向けに、インテリジェンスと速度の理想的なバランスを実現します。同様のモデルよりも低コストで強力なパフォーマンスを提供し、大規模な AI 展開での高い耐久性を実現するように設計されています。 Claude 3 Sonnet は 200k トークンのコンテキスト ウィンドウをサポートします。

Claude 3 Haiku は、ほぼリアルタイムの応答性を備えた、最も高速かつコンパクトなモデルです。興味深いことに、サポートされているコンテキスト ウィンドウも 200k です。このモデルは、単純なクエリやリクエストに比類のない速度で応答できるため、ユーザーは人間のやり取りを模倣したシームレスな AI エクスペリエンスを構築できます。

次に、Claude 3シリーズモデルの機能と性能を詳しく見てみましょう。

GPT-4を全面的に上回り、新たなSOTAレベルの知能を実現

Opus は、Claude 3 シリーズの中で最もインテリジェントなモデルとして、学部レベルの専門知識 (MMLU)、大学院レベルの専門的推論 (GPQA)、基礎数学 (GSM8K) など、AI システムの評価ベンチマークのほとんどで競合製品を上回っています。さらに、Opus は複雑なタスクに対して人間に近いレベルの理解力と流暢さを示し、汎用知能への道を先導しています。

さらに、Opus を含むすべての Claude 3 シリーズ モデルでは、分析と予測、詳細なコンテンツ作成、コード生成、スペイン語、日本語、フランス語などの英語以外の言語での会話などの機能が強化されています。

下の図は、複数のパフォーマンスベンチマークでClaude 3モデルと競合モデルを比較したものです。最強のOpusがあらゆる面でOpenAIのGPT-4より優れていることがわかります。

ほぼリアルタイムの応答

Claude 3 モデルは、ライブ顧客チャット、自動補充、データ抽出など、即時かつリアルタイムの応答が必要なタスクをサポートできます。

Haiku は、スマート カテゴリの市場で最も高速かつ最もコスト効率に優れたモデルです。高密度のチャートとグラフを含む arXiv 論文 (約 10,000 トークン) を 3 秒未満で読み取ることができます。

ほとんどのタスクにおいて、Sonnet は Claude 2 および Claude 2.1 よりも 2 倍高速でスマートです。知識の検索や販売の自動化など、迅速な対応が必要なタスクに優れています。 Opus は Claude 2 および 2.1 と速度は似ていますが、インテリジェンスのレベルはより高くなっています。

強力な視覚機能 

Claude 3 は、他のヘッドモデルに匹敵する高度な視覚機能を備えています。写真、チャート、グラフ、技術図など、さまざまな視覚形式でデータを処理できます。

Anthropic 社によると、同社の顧客の中には、ナレッジベースの 50% 以上が PDF、フローチャート、プレゼンテーション スライドなどのさまざまなデータ形式でプログラムされているところもあるそうです。したがって、新しいモデルの強力な視覚機能は非常に役立ちます。

拒否の返信が減る

以前の Claude モデルでは、不必要な拒否が行われることが多く、モデルにコンテキストの理解が欠けていることが示されていました。 Anthropic はこの分野で大きな進歩を遂げました。以前の世代のモデルと比較すると、Opus、Sonnet、Haiku では、ユーザーがシステムの下限に近い値でプロンプトを出しても、回答を拒否する可能性が大幅に低くなっています。以下に示すように、Claude 3 モデルは、要求をより細かく理解し、本当に有害なプロンプトを識別でき、無害なプロンプトへの応答を拒否する頻度が大幅に低下します。

精度の向上

モデルの精度を評価するために、Anthropic は多数の複雑で事実に基づく質問を使用して、現在のモデルの既知の弱点に対処しました。 Anthropic は、回答を正解、不正解 (または錯覚)、および不確実な応答 (不正確な情報を提供するのではなく、モデルが回答を知らない場合) に分類します。 Claude 2.1 と比較すると、Opus はこれらの難しい自由回答形式の質問に対する精度 (または正解) を 2 倍にし、誤った回答も削減しました。

より信頼性の高い応答を生成することに加えて、Anthropic は Claude 3 モデルでの参照も可能にし、モデルが応答を裏付けるために参照資料内の正確な文章を指摘できるようにします。

長い文脈とほぼ完璧な記憶

Claude 3 シリーズ モデルは、発売当初は 200K コンテキスト ウィンドウで利用可能になります。しかし、関係者によると、3つのモデルはすべて100万トークン以上の入力を受け付けることができ、その機能はより高い処理能力を必要とする特定のユーザーに提供されるという。

長いコンテキストの手がかりを効果的に処理するには、モデルに強力な想起能力が必要です。 Needle In A Haystack (NIAH) 評価は、モデルが大量のデータから情報をどれだけ正確に思い出すことができるかを測定します。 Anthropic は、プロンプトごとに 30 個のランダムな Needle/質問のペアを使用して、クラウドソーシングされたドキュメントの多様なコレクションでベンチマークをテストすることにより、ベンチマークの堅牢性を強化します。 Claude 3 Opus は、ほぼ完璧な再現率だけでなく、99% を超える精度も達成します。また、場合によっては、評価自体の限界も特定され、「ニードル」文が元のテキストに人為的に挿入されたことが判明しました。

安全で使いやすい

アンスロピックは、セキュリティリスクを追跡し、軽減するための専門チームを設置したと述べた。同社はまた、モデルのセキュリティと透明性を向上させ、新しいモデルが引き起こす可能性のあるプライバシーの懸念を軽減するために、憲法AIなどのアプローチを開発しています。

研究によると、Claude 3 モデル ファミリーは、生物学的知識、サイバー関連の知識、自律性の主要な指標において以前のモデルよりも改善されており、新しいモデルは AI 安全レベル 2 (ASL-2) の範囲内にあります。

ユーザー エクスペリエンスの面では、Claude 3 は以前のモデルよりも複雑な複数ステップの指示に従うのが優れており、ブランドと応答のガイドラインに準拠できるため、信頼性の高いアプリケーションをより適切に開発できます。さらに、Anthropic によれば、Claude 3 モデルは JSON などの形式で一般的な構造化出力を生成する能力が向上し、自然言語分類や感情分析などのユースケースに Claude をより簡単に適用できるようになったとのことです。

技術レポートには何が書かれていますか?

現在、Anthropic は「Claude 3 モデル ファミリー: Opus、Sonnet、Haiku」というタイトルの 42 ページの技術レポートを公開しています。

レポートアドレス: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

Claude 3 シリーズのモデルのトレーニング データ、評価基準、およびより詳細な実験結果を確認しました。

学習データに関しては、Claude 3シリーズのモデルは、2023年8月時点でインターネット上で公開されている専用の混合データのほか、第三者からの非公開データ、データラベリングサービスプロバイダーや有償契約者から提供されたデータ、Claude内のデータで学習されています。

Claude 3 シリーズ モデルは、以下を含む複数の基準に基づいて徹底的に評価されました。

  • 推論能力
  • 多言語対応
  • 長いコンテキスト
  • 信頼性/事実性
  • マルチモーダル機能

まず、推論、プログラミング、質問応答タスクの評価結果です。Claude 3 シリーズのモデルは、推論、読解、数学、科学、プログラミングに関する一連の業界標準ベンチマークで競合モデルと比較されました。結果は、以前のモデルを上回っただけでなく、ほとんどの場合で新しい SOTA を達成したことを示しました。

Anthropic は、Claude 3 シリーズのモデルを、ロースクール入学試験 (LSAT)、マルチステート弁護士試験 (MBE)、アメリカ数学コンペティション 2023、大学院入学資格試験 (GRE) 一般試験で評価しました。具体的な結果を以下の表 2 に示します。

Claude 3 モデル ファミリはマルチモーダル (画像とビデオ フレームの入力) に対応しており、単純なテキスト理解を超えた複雑なマルチモーダル推論の課題を解決する上で大きな進歩を遂げています。

典型的な例は、グラフを解析し、複数の選択肢の形式で対応する質問に回答する視覚的な質問回答評価である AI2D Scientific Graphs ベンチマークにおける Claude 3 モデルのパフォーマンスです。

Claude 3 Sonnet は、0 ショット設定で SOTA レベル (89.2%) を達成し、Claude 3 Opus (88.3%)、Claude 3 Haiku (80.6%) がそれに続きます。具体的な結果は、以下の表 3 に示されています。

この技術レポートに対して、エディンバラ大学の博士課程の学生である Fu Yao 氏が最初の機会に自身の分析を発表しました。

まず第一に、彼の意見では、評価されたモデルは、MMLU/GSM8K/HumanEval などのいくつかの指標において基本的に差別化されていません。私たちが本当に気にする必要があるのは、なぜ最良のモデルでも GSM8K で 5% の誤差があるかということです。

彼は、モデルを本当に区別できるのは MATH と GPQA であり、これらの超難問こそが AI モデルが次に目指すべきものだと考えています。

クロード氏の以前のモデルと比較して最も改善が見られた分野は、金融と医療です。

視覚の面では、Claude 3 によって実証された視覚 OCR 機能は、データ収集において大きな可能性を示しています。

彼はまた、他のいくつかの傾向も発見しました。

現在の評価ベンチマークと経験から判断すると、Claude 3 はインテリジェンス、マルチモーダル機能、速度の面で大きな進歩を遂げています。新しいシリーズのモデルのさらなる最適化と応用により、より多様化した大規模モデル エコシステムが実現する可能性があります。

ブログアドレス: https://www.anthropic.com/news/claude-3-family

<<:  ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

>>:  シングルテナント AI ファクトリーは最新のデータセンタートレンドでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。 「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

AIエージェントがまた衝撃的なニュースをもたらしました。AIエージェントが直接監督に昇進し、「サウス...

...

機械学習を学ぶ前に、まずは確率論の基礎知識を習得する必要があります。

機械学習には非常に重要な中核となる基本概念が数多くあります。これらの概念を習得することは、機械学習や...

2020年に注目すべき8つのAIトレンド

自動化、ハードウェア、モデル開発などの新たな開発が、2020 年の AI を形作るでしょう。 O&#...

...

人工知能やロボットが新たなスターとなった分野はどこでしょうか?

[[252297]] 8月15日から19日まで、世界ロボット会議が北京市宜荘で成功裏に終了しました...

...

時代の流れに乗り、華麗に変革を遂げる UiPath RPA が上海ノキアベルの新たな航海をサポートします。

上海ノキアベル株式会社(以下、「ノキアベル」)は、ノキアグループと中国保利集団の子会社である華新郵電...

テクノロジーが伝染病との戦いに役立ちます!無人車両が配送業界の「寵児」に

2014年、わが国の宅配業界は「100億」時代に入り、それ以来高速成長傾向を維持しています。 202...

Pytorchの核心部分である自動微分化を突破! !

こんにちは、Xiaozhuangです! PyTorch での自動微分演算に関して、この論文では Py...

...

ライブクイズゲーム「Winning with Ease」は止められない、Baidu AIが150万の現金獲得にあなたを招待します!

「2進数では、1+1=?」答えが2の場合、残念ながら150万を逃してしまいます。これは頭​​の体操...

モノのインターネットにおける人工知能の役割

私たちの周りのあらゆるものがどうしてこんなにスマートになったのか、不思議に思ったことはありませんか?...