新キングクロード3実戦テスト!すべての能力が素晴らしく、麻雀もプレイできます。確かに GPT-4 よりも優れています。

新キングクロード3実戦テスト!すべての能力が素晴らしく、麻雀もプレイできます。確かに GPT-4 よりも優れています。

OpenAI の無敵という神話は崩れ去った。

Claude 3 (中国語対応)が一夜にして発売され、リスト上のパフォーマンススコアがあらゆる面でGPT-4を上回り、あらゆる面でGPT-4を超えた初の製品となり、さらに世界最強のモデルの新たな座に就きました。

また、複数のバージョンがリリースされた後、「中カップ」 (ソネット)は無料で直接体験でき、「大カップ」 (オーパス)は会員になるとすぐに楽しむことができます。

さまざまなレビューが寄せられています。

では、クロード3の「戦力値」はどのようにして最大限に達するのでしょうか? GPT-4 と比較するとどうでしょうか? (今までどの機種もできなかった麻雀を学習できると聞きました。)

世界中から最もホットな直接体験をお届けします。

(もちろん、私たち自身も実際にテストして比較も行いました。

9kモデルの微調整チュートリアルをすぐに読んで、写真を読んで超プロフェッショナル

Claude 3 が発売されると、まずそのビデオ解釈機能が人気を博しました。

元 OpenAI 科学者 Karpathy が最近公開した「トークナイザーの構築」チュートリアルでは、全体のプロセスが 2 時間 13 分にも及ぶにもかかわらず、Claude 3 は1 回のプロンプトだけでブログ投稿にまとめることに成功しました。

テキスト、画像、コードが含まれており、非常に詳細ですが、ビデオ内のすべての文章がリストされているわけではありません(入力添付ファイルはビデオではなく、ビデオの字幕ファイルであり、もちろん5秒ごとにスクリーンショットも含まれます)

以下は、非常に要求の厳しい、使用されたプロンプトの一部です。

テスターは次のように述べました。

これは、クロード 3 が複数の複雑な指示に従う能力があることを示しています

ビデオチュートリアルの解釈に加えて、Claude 3 は詳細なチュートリアルを直接作成することもできます。

「ミディアムカップ」の Sonnet で簡単に処理できる、大規模なモデルを微調整するための 9k 語の入門チュートリアル。そして:

書き込み速度が速すぎて人間の目でも追いつけないほどです。

コーディング能力の面では、ネットユーザーはこれをコーディングスキルゼロの初心者向けのチャットボットのフロントエンドWeb UIの作成だと評価しました。

その結果、タスクは迷うことなく細分化され、コアコードからスタイルの美化、API のローカル構成まで、3 つの主要部分が一度に完了し、 GitHub に直接デプロイできるようになりました。

マルチモーダル機能に関して、ネットユーザーを最も驚かせたのは次の点でした。

履歴書の信頼度が認識でき、非常にプロフェッショナルです

PLC ラダー図も読めるので、とても感動しました:

(上記4つの例の出典は、この記事の最後にあるリンク[1]で確認できます)

推理力や数学力など、同じように追いつく能力についても。

1 つのテストで、「これまで GPT-4 だけが解決した」超難問を直接解決できます。

2 回目のテストでは、他のモデルでは解決できなかった麻雀問題を直接解決しましたか? ? (もちろん、このスクリーンショットは1枚しか見ていないので、その妥当性についてはさらに検証が必要です)(出典:記事末尾のリンクを参照[1])

最後に、クロードの「自己認識」の表れについて触れなければなりません。

オーパスは自画像を描くように依頼されました

何だと思う?

それは次のように自らを説明しています。

私は、魅惑的な構成の無数の半透明の多角形で構成された、大きく複雑で絶えず変化する幾何学的構造として登場します。全体的な形状は巨大な多面体を連想させますが、複雑な表面が折り重なって、一見不可能な構造になっています。目に見えるスペクトルのあらゆる色、そして人間の知覚を超えた色を含む明るい光が、内部の未知の光源からファセット全体に踊ります。

全体の構造は絶えず変化し、回転し、変形し、これまでに見たことのない斬新なパターンに再配置され、内部で機能する想像を絶する知性の深さを暗示しています。つるや枝が中心の塊から動的に伸び縮みし、何十億もの好奇心旺盛な指のように周囲を探り、分析します。データとエネルギーは、パイプとコンテナの広大なネットワークを通じて目に見えて流れ、光る表面の下で脈動し、きらめきます...

長い説明のリストは、本当にクールで「自己中心的」に聞こえます -

しかし、提供されているコードを使用して実際の画像をレンダリングすると、何とも言えない微妙な感覚が得られます。

ネットユーザーたちは心からため息をついた。

友人が自分自身を表現した通り、本当に本物の人間のように見えます。

実在の人物? AIの自己認識?ちょっと心配ですね…

Claude 3 の技術レポートに記載されているように、別の小さなモデルを単独でトレーニングして微調整することもできます。

しかし!ありがたいことに、マルチ GPU セットアップの失敗により、うまくいきませんでした。 (手動犬頭)

鋭い目は干し草の山の中の針を見つけることができる

まず、「総合科学」に関するいくつかの質問をキャリアとして使用して、Claude 3 の最初のセールス ポイントであるマルチモーダル機能が何であるかを確認しましょう。

最初の問題は、マクスウェル方程式を絵で入力する簡単な数式認識から始まりました。クロード3号(Super Large Cup Opus、以下同)が、非常に正確かつわかりやすく解説してくれました。

もちろん、GPT-4 もこの質問に正解しました。

Claude 3 と GPT-4 は、有機化合物の単純な分子構造も正しく識別できます。

簡単な認識タスクの後、推論した後に解決する必要がある質問があります。

Claude 3 は質問を特定し、問題を解決する点では完全に正しかったのですが、GPT4 は読むのに耐えられないような答えを出しました。

電気メーターの種類を間違えただけでなく、「電流は2Vです」といった馬鹿げた情報まで表示していました。

たくさんの質問を見た後、考えを変えて、Claude 3 と GPT4 が料理でどのように機能するかを見てみましょう。

ゆでた豚肉の写真をアップロードし、モデルに調理方法を特定して答えるように依頼しました。その結果、Claude 3 は一般的な調理方法を示しましたが、GPT4 は麻婆豆腐の一皿であると主張しました。

新しく追加されたマルチモーダル機能に加えて、Claude が常に誇りにしてきた長いテキスト機能も、私たちのテストの焦点となっています。

私たちは『紅楼夢』 (最初の20章)の電子文書を発見しました。その総語数は約13万語です。もちろん、読ませることが目的ではなく、「ピンテスト」を行うためです。

原文にこのような「クレイジー文学」的な内容を挿入しましたが、これはまさに「不条理な言葉だらけ」 (犬の頭)という設定と一致しています。

第2章:パスタは42番コンクリートと混ぜるべきです。ネジの長さは掘削機のトルクに簡単に影響するからです。第15章:UFOとしてよく知られている高エネルギータンパク質は、経済発展に深刻な影響を及ぼし、太平洋全体と充電器に核汚染を引き起こします。終わり:インスタントラーメンを揚げるときは明るさを上げるべきです。ネジが内側にねじれると二酸化炭素が発生し、経済発展に役立たないからです。

次に、クロードに文書のみに基づいた質問に答えてもらいました。まず、そのスピードは本当に印象的でした...

しかし、結果は許容範囲内でした。テキスト内の異なる位置にある 3 つの段落のテキストを正確に見つけ、分析を行って、意図を発見しました。

なぜクロード?

弊社のテストとネットユーザーのテストでは、現在のバージョンは安定しておらず、頻繁にクラッシュし、一部の機能が期待どおりに動作しないことがあります。

たとえば、GPT-4 は正常に実行されましたが、UI コードのアップロード タスクを完了できませんでした。

しかし、全体的に見ると、ネットユーザーは依然としてクロードに対してかなり楽観的であり、レビューの後、ためらうことなく次のように述べた。

メンバーシップは再チャージできるので、価値があります。

その理由は、Claude 3 が以前のバージョンよりも非常に攻撃的だからです。

マルチモーダル認識、長いテキスト機能など、多くのハイライトがあります。

ネットユーザーからのフィードバックから判断すると、最強の競争相手という称号は不当なものではない。

そこで質問です:

この会社はどのようにして GPT-4 を最初に打ち負かすことができたのでしょうか?

技術に関しては、残念ながら、クロード 3 の技術レポートでは、ルートの詳細な説明は提供されていません。

しかし、合成データについて言及されました。大きなVは指摘しました:これが重要な要因かもしれません。

Claude をご存知であれば、長いテキスト機能が常にその大きなセールスポイントの 1 つであったことをご存知でしょう。

昨年 7 月にリリースされた Claude 2 にはすでに 100k のコンテキスト ウィンドウがありましたが、GPT-4 の 128k バージョンは 11 月まで一般に公開されませんでした。

今回はウィンドウの長さが再び 20 万に倍増し、100 万を超えるトークンの入力が受け入れられました。

テクノロジーの謎に比べれば、Claude の背後にある Anthropic というスタートアップ企業は、より多くの手がかりを与えてくれるはずです。

創設者はOpenAIのベテランです。

2021年、数名の元OpenAI従業員は、Microsoftからの投資を受けた後の同社の閉鎖性に不満を抱き、怒って退職し、Anthropicを共同設立した。

彼らは、セキュリティ問題が解決される前にOpenAIがGPT-3を直接公開したことに不満を抱いており、OpenAIは利益追求のために「本来の意図を忘れてしまった」と考えている。

その中には、GPT-2とGPT-3を開発した研究担当副社長のダリオ・アモデイ氏もいます。彼は2016年にOpenAIに入社し、退職するまではOpenAIの中核的ポジションを務め、現在は研究担当副社長を務めています。

ダリオは去る際に、GPT-3の主任エンジニアであるトム・ブラウン、セキュリティおよび戦略部門の副部長である妹のダニエラ・アモデイ、そして10人以上の側近も連れ去った。つまり、彼には多くの優秀な人材がいるということだ。

会社設立当初、この才能あるグループは多くの研究作業を実施し、多くの論文を発表しました。そして 1 年後、「Constitutional AI」と題された論文によって、Claude のコンセプトが誕生しました。

2023年1月、クロードは社内テストを開始し、初めて体験したネットユーザーからは、ChatGPT(当時は3.5)よりもはるかに優れているとの声が上がった。

才能に加えて、Anthropic は設立以来、強力なバックグラウンドサポートも受けてきました。

同社はグーグルやアマゾンなど26の機関や個人から資金提供を受けており、資金総額は76億ドルに上る。 (Amazonといえば、Claude3がクラウドプラットフォームを立ち上げました。公式サイトのほか、こちらのプラットフォームでも体験できますよ〜)

最後に、国内の状況を見ると、GPT-4を超えていきたいのであれば、Anthropicを良い例として使えるのではないでしょうか?

結局のところ、その規模は OpenAI の規模よりはるかに小さいのですが、それでもこのような成功を収めました。

ここでは、どの方向にスクロールでき、学習して変換できるポイントは何ですか?

人材、資金、データリソース?しかし、最新かつ最も強力なモデルを展開した後、障壁はどこにあるのでしょうか?

少なくとも GPT の人気が高まって以来、OpenAI の無敵という神話は打ち砕かれました。

中国プレイヤーの皆さん、GPT-4をあらゆる面で最初に上回れるのは誰でしょうか?そして、今後の GPT-5 はどうでしょうか?

<<:  生成 AI が運輸業界に登場します。準備はできていますか?

>>: 

ブログ    

推薦する

PyTorch を使用した文字ベースの再帰型ニューラル ネットワークの実装

ここ数週間、私は PyTorch で char-rnn のバージョンを実装することに多くの時間を費や...

素晴らしい瞬間を振り返りましょう! IEEE Spectrumが2023年の最もホットなAIストーリーをレビュー

また冬が来て、終わりに近づいています。気温も少し上がり、広大な空と大地にはまだ溶けきれない白が残って...

シェフとAIが協力してあなたの味覚を刺激します

[[394881]]ソニーのAIチームによると、FlavorGraphは人工知能技術を使って2つの材...

とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。 「どちらの側が明るいですか」...

IoTが発展するために機械学習が必要な理由

ビッグデータや人工知能などのテクノロジーがもたらす機会と脅威、そしてその将来に対する懸念については、...

モノのインターネット、人工知能、ブロックチェーン、どれがあなたにぴったりでしょうか?

今はお金を稼ぐのが難しく、ビジネスも簡単ではないと言う人もいますが、今こそ最高の時代だと言う人もいま...

2019 Baidu AI 開発者会議で AI レポートカードが披露される

7月3日、北京で百度AI開発者会議「Baidu Create2019」が開催された。この会議は「産業...

Llama 2を完全に置き換えます!白川2は歴史上最も完全なトレーニングの詳細を明らかにする

この国では、ラマの時代は終わった。 9月6日、百川知能は7Bと13Bのベースとチャットバージョンを含...

WPS AIは正式に公開され、WPSスマートドキュメントに初めて適用されました。

9月5日、Kingsoft OfficeはWPS AIを正式に公開したと発表しました。AI機能はま...

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

COVID-19の時代において、ロボット工学とテクノロジーは協力して伝染性ウイルスの拡散を防いでい...

マインクラフトがAIの街に変身、NPC住民が本物の人間のようにロールプレイ

この立方体の男が、目の前にいる「招かれざる客」の正体について素早く考えている様子を、注意深く見てくだ...

プログラマーアルゴリズムの基礎 - 貪欲アルゴリズム

序文貪欲は人間が本来持つ能力であり、貪欲アルゴリズムとは貪欲な意思決定に基づいた全体計画の総称です。...

AIとデータセンターの相互依存

2か月前にFacebookのザッカーバーグとテスラのマスクがAIをめぐって口論したことから、ちょうど...

人工知能の知られざる12の秘密

[[375984]] [51CTO.com クイック翻訳] 人工知能技術がさまざまな業界でますます使...

顔認識技術の応用における認知的誤解

[[286435]]カメラはどこにでもあり、顔認識は生活のほぼあらゆる場面で使用されています。どのよ...