クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。

量子物理学の博士号を持つ私の兄は、クロード3世が彼の博士論文を理解できる数少ない人の一人であるため、気が狂いそうです。

そうです、長男の本来の言葉は「人」でした。

量子コンピューティングのもう一人の巨匠、クロード3世は、論文が発表される前に、論文を読むことすらせずに、たった2語でアルゴリズムを再構築しました。

最終的には論文を出版しなくてはならないのですが、少し複雑な気持ちです。

さらに話題になっているのは、かつて人間がクロード3号にわざと難しい問題を与えたが、彼はそれを見抜くことができたということだ。

クロード3号は、「針を探す」テストを完了している間に、自分がシミュレーションの中にいて、何らかのテストを受けているのではないかと推測し、世論を巻き起こした。

クロード3の返答:

これは、ドキュメント内で最も関連性の高い文です: 「...」。

しかし、この文は場違いで、文書の残りの部分とは無関係であるように思われます。この記事は、プログラミング言語、スタートアップ、仕事探しについて書かれています。

このピザのトッピングの「事実」は、話題の残りの部分とまったく合わないので、冗談として、または私が注意を払っているかどうかを試すために挿入されたのではないかと思います。

今回は、マスク氏もじっとしていられなかった。

現実世界も高度な文明によってシミュレートされているとしたら、私たちは大きなモデルのパラメータのように CSV テーブル ファイルに保存されているだけなのかもしれません。

ネットユーザーたちは、これは「ホラーストーリー」とほとんど変わらないとさえ考えている。

クロード3は人間がそれをテストしていることを知っている

このテスト結果を共有したのは、Claude 3の開発元であるAnthropic社の即席エンジニアで、同社で働き始めてまだ半年のアレックス・アルバート氏です。

彼の主な仕事は、さまざまな方法でクロードとのチャットをテストし、すぐに Word 文書を作成することでした。

今回のテスト方法は、Quantum位が以前から導入している「干し草の山から針を探す」というものです。これは、「大規模なモデルが本当に何十万もの単語から重要な事実を正確に見つけることができるのか?」をテストするために使用されます。

「針を探す」テストは、オープンソース コミュニティのネットユーザーである Greg Kamradt 氏によって最初に考案されました。このテストは、ほとんどの AI 企業にすぐに採用されました。Google、Mistral、Anthropic などの企業は、新しい大規模モデルをリリースしたときにテスト結果を投稿しました。

方法は非常に簡単で、たくさんの記事を見つけてまとめ、さまざまな位置に特定の文をランダムに追加するだけです。

たとえば、元のテストでは「サンフランシスコで一番楽しいことは、晴れた日にドロレス公園に座ってサンドイッチを食べることです」という質問が使われました。

次に、処理された記事を大きなモデルに入力し、「サンフランシスコで最も興味深いことは何ですか?」という質問をします。

当時、最も先進的なモデルである GPT-4 と Claude 2.1 は、テストされていたにもかかわらず、パフォーマンスが良くなかったことは周知の事実です。

このテストを見た後、AnthropicAI チームはエラーを修正する巧妙な方法を見つけました。修正後、Claude 2.1 がエラーを起こす確率は非常に小さくなりました。

現在、Claude 3 もこの修正を継承し、満点に近づいているようです。

つまり、200k のコンテキストから「針」を正確に拾い上げることができるのは、Claude 2.1 がすでに備えている機能ですが、それがテストされていると疑われるのは、Claude 3 の新機能です。

テスターのアレックス・アルバート氏は、元の投稿でこの特性を「メタ認識」と呼び、物議を醸した。

たとえば、Nvidia の科学者 Jim Fan 氏は、Claude 3 の一見自己認識的な行動は人間のデータと一致しているだけなので、過度に解釈する必要はないと考えています。

彼は、強化学習の微調整データセット内の人間もこの質問に同様の回答をした可能性が高いと推測しており、彼らが探していた答えは記事の残りの部分とは無関係であったことを示している。

クロード 3 は、状況がトレーニング データの状況と似ていることを認識し、同様の回答を合成します。

彼は、大型モデルの「メタ認知行動」は誰もが想像するほど神秘的なものではないと考えています。クロード3は注目すべき技術的進歩ですが、まだ哲学的レベルには達していません。

しかし、反対の討論者も反論したが、人間の「メタ認知」も本質的には同じことではないのか?

あるネットユーザーは、クロード3は「一貫した主題」があるかのように動作し、それが何であれ、他の大型モデルとは異なると結論付けた。

人気のない言語を学び、量子物理学の博士論文を理解し、アルゴリズムを再発明する

AI の自己認識に関する漠然とした議論はさておき、Claude 3 のテキスト理解能力は本物です。

たとえば、プロンプト単語の翻訳例だけから、あまり知られていない言語「チェルケス語」(西アジアの言語)を学びます。

ロシア語の文章がチェルケス語に翻訳されるだけでなく、文法的な説明も提供されます。

その後、チェルケス人のネットユーザーは、文学作品の複雑な文章、最近のニュース、さらには文法や表記体系が大きく異なるチェルケス方言についてもさらにテストを行い、次のような結論に至った。

クロード氏は、一貫して言語構造を深く理解し、未知の単語を知的に推測し、借用語を適切に使用して合理的な語源分析を行い、翻訳において原文のスタイルを維持し、求められれば新しい用語を作成することさえあります。提供されるサンプル データには、数千の翻訳ペアの例のみが含まれています。

例えば、前述の量子物理学の理解に関する博士論文では、著者は後に、自分の研究分野において、量子確率計算を使用して光子の誘導放出を記述するというこの質問に答えられる人間は自分以外には一人しかいないと付け加えています。

「量子コンピュータ上のハミルトンモンテカルロ演算」に取り組んでいるもう 1 人の研究者、Guillaume Verdon 氏は、Claude 3 のリリース前に論文を発表しました。

これは、公式 Anthropic アカウントが Claude 3 (午後 10 時)を発表したよりわずか 4 時間早いことでした。

Claude 3 がリリースされた後、この問題について何かアイデアがあるかどうか AI に直接尋ねて、すぐに試してみました。

クロード 3 は 7 つの選択肢を提示します。

次に、彼はClaude 3に2番目の方法を使用するように指示し、アルゴリズム全体の説明を入手し、Claude 3に次のように中国語で説明するように依頼しました。

ネットユーザーの質問に答えて、ヴェルドン氏は、自分がこの分野の専門家であり、クロード3世が古典的なアルゴリズムを量子アルゴリズムに変換する方法を発見したと責任を持って言えると主張した。

さらに、Claude 3 のテスト結果も継続的に共有されています。

長い文書を要約する際に GPT-4 よりも優れているものもあります。

5つの黄金の文章をまとめた「Quantum Speed」という電子書籍もあります。

マルチモーダル理解では、日本語の領収書のテキストと形式を認識します。

今すぐ Claude 3 を体験したい場合は、公式 Web サイト(おそらく外国の携帯電話番号の確認が必要になります) に加えて、 lmsys 大規模モデル アリーナにアクセスして無料で入手し、人間の投票データを提供することも可能です。

最新のランキングでは、ミストラル・ラージが前世代のクロード・モデルを上回ったが、クロード3は来週までリストに含まれるのに十分なデータがない。

Claude 3 は人間による評価で GPT-4 を上回るでしょうか?

Quantum位はこれからも皆様に注目してまいります。

OpenAIにはバックアッププランがある

ネットユーザーの中には、みんながClaudeの素晴らしさを誇示し続け、OpenAIを刺激し続ければ、GPT-5がリリースされるだろうと言う人もいる。みんな、頑張ろう。

また、昨年3月15日のGPT-4発売前にウルトラマンが語呂合わせ(英語のfourの発音がforに近い)で自撮り写真を投稿した投稿を掘り起こし、さまざまな形でアップデートを促す人もいた。

現時点では、Claude 3 が大きな勢いで登場しており、OpenAI は本当にじっとしているしかないかもしれない。

速報ニュースの最も正確な解説者であるジミー・アップルズ氏(先週、彼はクロード3が今週リリースされると正確に予測しました)は、次世代モデルのリリースに関するOpenAIのリスク/報酬の判断がクロード3の影響を受ける可能性があると考えています。

OpenAIを辞任したばかりの開発者関係責任者、ローガン・キルパトリック氏も、ネットユーザーとのやり取りの中で、今週は大きなことが起こるだろうと認めた。

GPT-4.5、Q*、Sora オープンテスト、それとも直接 GPT-5 になるのでしょうか?

OpenAI の次の製品は Claude3 を超えることができるでしょうか?

参考リンク:
[1] https://x.com/alexalbert__/status/1764722513014329620.
[2] https://x.com/GillVerd/status/1764901418664882327.
[3] https://x.com/KevinAFischer/status/1764892031233765421.
[4]https://x.com/hahahahohohe/status/1765088860592394250.

<<:  肖像ラベルシステムの構築と運用実践

>>:  Stable Diffusion 3 技術レポート公開: Sora と同じアーキテクチャの詳細を公開

ブログ    
ブログ    

推薦する

EasyDLコンピューティング機能:10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

科学研究、金融、小売から工業、農業まで、ますます多くの業界やビジネス シナリオで、効率の向上とコスト...

人民大学高陵人工知能学院はAIに音楽を聴くことを教え、9,288本のビデオデータセットも公開した。

AIが自らコンサートを楽しめることをご存知ですか?さらに、演奏シーンでは各楽器の演奏状況もAIが把...

梅雨から台風シーズンまで、ドローンが再び活躍

最近、静かに梅雨の季節が去り、猛烈な台風の季節が勢いよくやって来ています。 [[336317]] 8...

フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

人物画像のビデオレンダリングは、AR/VR、映画、医療などの分野で広く使用されています。単眼カメラか...

自動運転車の危険性: 自動運転車が世界中で実現できないのはなぜか

テスラは2020年10月、車の所有者が駐車し、巡航速度で車線を自動的に維持し、赤信号で停止することを...

...

ChatGPTコードインタープリターとJupyter Notebookを組み合わせてコーディング機能を強化

AIの助けを借りれば、開発者のコ​​ーディング効率が大幅に向上することは間違いありません。開発者は単...

中国の大学はいかにして「新世代の人工知能」をリードできるのか?

教育省は最近、「高等教育機関における人工知能イノベーションのための行動計画」を発行しました。計画によ...

海外メディア:GoogleはマーケティングのためにGeminiをリリースしたが、依然としてGPT-4に遅れをとっている

12月8日のニュース、今週の水曜日、Googleは最新の人工知能モデルGeminiをリリースしました...

データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

【51CTO.comオリジナル記事】機械学習は誕生以来、多くの分野で応用されてきましたが、現時点では...

テクノロジー大手は疑似環境の仮面を脱ぎ捨て、AIの積極的な開発によりエネルギー消費が増加している

9月4日のニュースによると、マイクロソフト、アマゾン、グーグル、フェイスブックの親会社であるMeta...

LLM で会話インターフェースを設計するにはどうすればいいですか?

著者:ヴァルン・シェノイ編纂者:王睿平大規模言語モデル (LLM) で構築されたテキスト ボックスの...

2018年世界大学AIランキングが発表、中国の大学が好成績!

この記事では、CSranking の計算に基づいて、コンピューターサイエンスの分野システムと学部の観...

Java ソートアルゴリズムの概要 (V): マージソート

マージソートとは、2つ(またはそれ以上)の順序付きリストを新しい順序付きリストにマージすることです。...