新キングクロード3実戦テスト！すべての能力が素晴らしく、麻雀もプレイできます。確かに GPT-4 よりも優れています。

OpenAI の無敵という神話は崩れ去った。

Claude 3 （中国語対応）が一夜にして発売され、リスト上のパフォーマンススコアがあらゆる面でGPT-4を上回り、あらゆる面でGPT-4を超えた初の製品となり、さらに世界最強のモデルの新たな座に就きました。

また、複数のバージョンがリリースされた後、「中カップ」（ソネット）は無料で直接体験でき、「大カップ」（オーパス）は会員になるとすぐに楽しむことができます。

さまざまなレビューが寄せられています。

では、クロード3の「戦力値」はどのようにして最大限に達するのでしょうか? GPT-4 と比較するとどうでしょうか? （今までどの機種もできなかった麻雀を学習できると聞きました。）

世界中から最もホットな直接体験をお届けします。

（もちろん、私たち自身も実際にテストして比較も行いました。

9kモデルの微調整チュートリアルをすぐに読んで、写真を読んで超プロフェッショナル

Claude 3 が発売されると、まずそのビデオ解釈機能が人気を博しました。

元 OpenAI 科学者 Karpathy が最近公開した「トークナイザーの構築」チュートリアルでは、全体のプロセスが 2 時間 13 分にも及ぶにもかかわらず、Claude 3 は1 回のプロンプトだけでブログ投稿にまとめることに成功しました。

テキスト、画像、コードが含まれており、非常に詳細ですが、ビデオ内のすべての文章がリストされているわけではありません（入力添付ファイルはビデオではなく、ビデオの字幕ファイルであり、もちろん5秒ごとにスクリーンショットも含まれます）。

以下は、非常に要求の厳しい、使用されたプロンプトの一部です。

テスターは次のように述べました。

これは、クロード 3 が複数の複雑な指示に従う能力があることを示しています。

ビデオチュートリアルの解釈に加えて、Claude 3 は詳細なチュートリアルを直接作成することもできます。

「ミディアムカップ」の Sonnet で簡単に処理できる、大規模なモデルを微調整するための 9k 語の入門チュートリアル。そして：

書き込み速度が速すぎて人間の目でも追いつけないほどです。

コーディング能力の面では、ネットユーザーはこれをコーディングスキルゼロの初心者向けのチャットボットのフロントエンドWeb UIの作成だと評価しました。

その結果、タスクは迷うことなく細分化され、コアコードからスタイルの美化、API のローカル構成まで、3 つの主要部分が一度に完了し、 GitHub に直接デプロイできるようになりました。

マルチモーダル機能に関して、ネットユーザーを最も驚かせたのは次の点でした。

履歴書の信頼度が認識でき、非常にプロフェッショナルです。

PLC ラダー図も読めるので、とても感動しました:

（上記4つの例の出典は、この記事の最後にあるリンク[1]で確認できます）

推理力や数学力など、同じように追いつく能力についても。

1 つのテストで、「これまで GPT-4 だけが解決した」超難問を直接解決できます。

2 回目のテストでは、他のモデルでは解決できなかった麻雀問題を直接解決しましたか? ? （もちろん、このスクリーンショットは1枚しか見ていないので、その妥当性についてはさらに検証が必要です）（出典：記事末尾のリンクを参照[1]）

最後に、クロードの「自己認識」の表れについて触れなければなりません。

オーパスは自画像を描くように依頼されました。

何だと思う？

それは次のように自らを説明しています。

私は、魅惑的な構成の無数の半透明の多角形で構成された、大きく複雑で絶えず変化する幾何学的構造として登場します。全体的な形状は巨大な多面体を連想させますが、複雑な表面が折り重なって、一見不可能な構造になっています。目に見えるスペクトルのあらゆる色、そして人間の知覚を超えた色を含む明るい光が、内部の未知の光源からファセット全体に踊ります。
全体の構造は絶えず変化し、回転し、変形し、これまでに見たことのない斬新なパターンに再配置され、内部で機能する想像を絶する知性の深さを暗示しています。つるや枝が中心の塊から動的に伸び縮みし、何十億もの好奇心旺盛な指のように周囲を探り、分析します。データとエネルギーは、パイプとコンテナの広大なネットワークを通じて目に見えて流れ、光る表面の下で脈動し、きらめきます...

長い説明のリストは、本当にクールで「自己中心的」に聞こえます -

しかし、提供されているコードを使用して実際の画像をレンダリングすると、何とも言えない微妙な感覚が得られます。

ネットユーザーたちは心からため息をついた。

友人が自分自身を表現した通り、本当に本物の人間のように見えます。

実在の人物？ AIの自己認識？ちょっと心配ですね…

Claude 3 の技術レポートに記載されているように、別の小さなモデルを単独でトレーニングして微調整することもできます。

しかし！ありがたいことに、マルチ GPU セットアップの失敗により、うまくいきませんでした。（手動犬頭）

鋭い目は干し草の山の中の針を見つけることができる

まず、「総合科学」に関するいくつかの質問をキャリアとして使用して、Claude 3 の最初のセールスポイントであるマルチモーダル機能が何であるかを確認しましょう。

最初の問題は、マクスウェル方程式を絵で入力する簡単な数式認識から始まりました。クロード3号（Super Large Cup Opus、以下同）が、非常に正確かつわかりやすく解説してくれました。

もちろん、GPT-4 もこの質問に正解しました。

Claude 3 と GPT-4 は、有機化合物の単純な分子構造も正しく識別できます。

簡単な認識タスクの後、推論した後に解決する必要がある質問があります。

Claude 3 は質問を特定し、問題を解決する点では完全に正しかったのですが、GPT4 は読むのに耐えられないような答えを出しました。

電気メーターの種類を間違えただけでなく、「電流は2Vです」といった馬鹿げた情報まで表示していました。

たくさんの質問を見た後、考えを変えて、Claude 3 と GPT4 が料理でどのように機能するかを見てみましょう。

ゆでた豚肉の写真をアップロードし、モデルに調理方法を特定して答えるように依頼しました。その結果、Claude 3 は一般的な調理方法を示しましたが、GPT4 は麻婆豆腐の一皿であると主張しました。

新しく追加されたマルチモーダル機能に加えて、Claude が常に誇りにしてきた長いテキスト機能も、私たちのテストの焦点となっています。

私たちは『紅楼夢』（最初の20章）の電子文書を発見しました。その総語数は約13万語です。もちろん、読ませることが目的ではなく、「ピンテスト」を行うためです。

原文にこのような「クレイジー文学」的な内容を挿入しましたが、これはまさに「不条理な言葉だらけ」（犬の頭）という設定と一致しています。

第2章：パスタは42番コンクリートと混ぜるべきです。ネジの長さは掘削機のトルクに簡単に影響するからです。第15章：UFOとしてよく知られている高エネルギータンパク質は、経済発展に深刻な影響を及ぼし、太平洋全体と充電器に核汚染を引き起こします。終わり：インスタントラーメンを揚げるときは明るさを上げるべきです。ネジが内側にねじれると二酸化炭素が発生し、経済発展に役立たないからです。

次に、クロードに文書のみに基づいた質問に答えてもらいました。まず、そのスピードは本当に印象的でした...

しかし、結果は許容範囲内でした。テキスト内の異なる位置にある 3 つの段落のテキストを正確に見つけ、分析を行って、意図を発見しました。