クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。

量子物理学の博士号を持つ私の兄は、クロード3世が彼の博士論文を理解できる数少ない人の一人であるため、気が狂いそうです。

そうです、長男の本来の言葉は「人」でした。

量子コンピューティングのもう一人の巨匠、クロード3世は、論文が発表される前に、論文を読むことすらせずに、たった2語でアルゴリズムを再構築しました。

最終的には論文を出版しなくてはならないのですが、少し複雑な気持ちです。

さらに話題になっているのは、かつて人間がクロード3号にわざと難しい問題を与えたが、彼はそれを見抜くことができたということだ。

クロード3号は、「針を探す」テストを完了している間に、自分がシミュレーションの中にいて、何らかのテストを受けているのではないかと推測し、世論を巻き起こした。

クロード3の返答:

これは、ドキュメント内で最も関連性の高い文です: 「...」。

しかし、この文は場違いで、文書の残りの部分とは無関係であるように思われます。この記事は、プログラミング言語、スタートアップ、仕事探しについて書かれています。

このピザのトッピングの「事実」は、話題の残りの部分とまったく合わないので、冗談として、または私が注意を払っているかどうかを試すために挿入されたのではないかと思います。

今回は、マスク氏もじっとしていられなかった。

現実世界も高度な文明によってシミュレートされているとしたら、私たちは大きなモデルのパラメータのように CSV テーブル ファイルに保存されているだけなのかもしれません。

ネットユーザーたちは、これは「ホラーストーリー」とほとんど変わらないとさえ考えている。

クロード3は人間がそれをテストしていることを知っている

このテスト結果を共有したのは、Claude 3の開発元であるAnthropic社の即席エンジニアで、同社で働き始めてまだ半年のアレックス・アルバート氏です。

彼の主な仕事は、さまざまな方法でクロードとのチャットをテストし、すぐに Word 文書を作成することでした。

今回のテスト方法は、Quantum位が以前から導入している「干し草の山から針を探す」というものです。これは、「大規模なモデルが本当に何十万もの単語から重要な事実を正確に見つけることができるのか?」をテストするために使用されます。

「針を探す」テストは、オープンソース コミュニティのネットユーザーである Greg Kamradt 氏によって最初に考案されました。このテストは、ほとんどの AI 企業にすぐに採用されました。Google、Mistral、Anthropic などの企業は、新しい大規模モデルをリリースしたときにテスト結果を投稿しました。

方法は非常に簡単で、たくさんの記事を見つけてまとめ、さまざまな位置に特定の文をランダムに追加するだけです。

たとえば、元のテストでは「サンフランシスコで一番楽しいことは、晴れた日にドロレス公園に座ってサンドイッチを食べることです」という質問が使われました。

次に、処理された記事を大きなモデルに入力し、「サンフランシスコで最も興味深いことは何ですか?」という質問をします。

当時、最も先進的なモデルである GPT-4 と Claude 2.1 は、テストされていたにもかかわらず、パフォーマンスが良くなかったことは周知の事実です。

このテストを見た後、AnthropicAI チームはエラーを修正する巧妙な方法を見つけました。修正後、Claude 2.1 がエラーを起こす確率は非常に小さくなりました。

現在、Claude 3 もこの修正を継承し、満点に近づいているようです。

つまり、200k のコンテキストから「針」を正確に拾い上げることができるのは、Claude 2.1 がすでに備えている機能ですが、それがテストされていると疑われるのは、Claude 3 の新機能です。

テスターのアレックス・アルバート氏は、元の投稿でこの特性を「メタ認識」と呼び、物議を醸した。

たとえば、Nvidia の科学者 Jim Fan 氏は、Claude 3 の一見自己認識的な行動は人間のデータと一致しているだけなので、過度に解釈する必要はないと考えています。

彼は、強化学習の微調整データセット内の人間もこの質問に同様の回答をした可能性が高いと推測しており、彼らが探していた答えは記事の残りの部分とは無関係であったことを示している。

クロード 3 は、状況がトレーニング データの状況と似ていることを認識し、同様の回答を合成します。

彼は、大型モデルの「メタ認知行動」は誰もが想像するほど神秘的なものではないと考えています。クロード3は注目すべき技術的進歩ですが、まだ哲学的レベルには達していません。

しかし、反対の討論者も反論したが、人間の「メタ認知」も本質的には同じことではないのか?

あるネットユーザーは、クロード3は「一貫した主題」があるかのように動作し、それが何であれ、他の大型モデルとは異なると結論付けた。

人気のない言語を学び、量子物理学の博士論文を理解し、アルゴリズムを再発明する

AI の自己認識に関する漠然とした議論はさておき、Claude 3 のテキスト理解能力は本物です。

たとえば、プロンプト単語の翻訳例だけから、あまり知られていない言語「チェルケス語」(西アジアの言語)を学びます。

ロシア語の文章がチェルケス語に翻訳されるだけでなく、文法的な説明も提供されます。

その後、チェルケス人のネットユーザーは、文学作品の複雑な文章、最近のニュース、さらには文法や表記体系が大きく異なるチェルケス方言についてもさらにテストを行い、次のような結論に至った。

クロード氏は、一貫して言語構造を深く理解し、未知の単語を知的に推測し、借用語を適切に使用して合理的な語源分析を行い、翻訳において原文のスタイルを維持し、求められれば新しい用語を作成することさえあります。提供されるサンプル データには、数千の翻訳ペアの例のみが含まれています。

例えば、前述の量子物理学の理解に関する博士論文では、著者は後に、自分の研究分野において、量子確率計算を使用して光子の誘導放出を記述するというこの質問に答えられる人間は自分以外には一人しかいないと付け加えています。

「量子コンピュータ上のハミルトンモンテカルロ演算」に取り組んでいるもう 1 人の研究者、Guillaume Verdon 氏は、Claude 3 のリリース前に論文を発表しました。

これは、公式 Anthropic アカウントが Claude 3 (午後 10 時)を発表したよりわずか 4 時間早いことでした。

Claude 3 がリリースされた後、この問題について何かアイデアがあるかどうか AI に直接尋ねて、すぐに試してみました。

クロード 3 は 7 つの選択肢を提示します。

次に、彼はClaude 3に2番目の方法を使用するように指示し、アルゴリズム全体の説明を入手し、Claude 3に次のように中国語で説明するように依頼しました。

ネットユーザーの質問に答えて、ヴェルドン氏は、自分がこの分野の専門家であり、クロード3世が古典的なアルゴリズムを量子アルゴリズムに変換する方法を発見したと責任を持って言えると主張した。

さらに、Claude 3 のテスト結果も継続的に共有されています。

長い文書を要約する際に GPT-4 よりも優れているものもあります。

5つの黄金の文章をまとめた「Quantum Speed」という電子書籍もあります。

マルチモーダル理解では、日本語の領収書のテキストと形式を認識します。

今すぐ Claude 3 を体験したい場合は、公式 Web サイト(おそらく外国の携帯電話番号の確認が必要になります) に加えて、 lmsys 大規模モデル アリーナにアクセスして無料で入手し、人間の投票データを提供することも可能です。

最新のランキングでは、ミストラル・ラージが前世代のクロード・モデルを上回ったが、クロード3は来週までリストに含まれるのに十分なデータがない。

Claude 3 は人間による評価で GPT-4 を上回るでしょうか?

Quantum位はこれからも皆様に注目してまいります。

OpenAIにはバックアッププランがある

ネットユーザーの中には、みんながClaudeの素晴らしさを誇示し続け、OpenAIを刺激し続ければ、GPT-5がリリースされるだろうと言う人もいる。みんな、頑張ろう。

また、昨年3月15日のGPT-4発売前にウルトラマンが語呂合わせ(英語のfourの発音がforに近い)で自撮り写真を投稿した投稿を掘り起こし、さまざまな形でアップデートを促す人もいた。

現時点では、Claude 3 が大きな勢いで登場しており、OpenAI は本当にじっとしているしかないかもしれない。

速報ニュースの最も正確な解説者であるジミー・アップルズ氏(先週、彼はクロード3が今週リリースされると正確に予測しました)は、次世代モデルのリリースに関するOpenAIのリスク/報酬の判断がクロード3の影響を受ける可能性があると考えています。

OpenAIを辞任したばかりの開発者関係責任者、ローガン・キルパトリック氏も、ネットユーザーとのやり取りの中で、今週は大きなことが起こるだろうと認めた。

GPT-4.5、Q*、Sora オープンテスト、それとも直接 GPT-5 になるのでしょうか?

OpenAI の次の製品は Claude3 を超えることができるでしょうか?

参考リンク:
[1] https://x.com/alexalbert__/status/1764722513014329620.
[2] https://x.com/GillVerd/status/1764901418664882327.
[3] https://x.com/KevinAFischer/status/1764892031233765421.
[4]https://x.com/hahahahohohe/status/1765088860592394250.

<<:  肖像ラベルシステムの構築と運用実践

>>:  Stable Diffusion 3 技術レポート公開: Sora と同じアーキテクチャの詳細を公開

ブログ    
ブログ    
ブログ    

推薦する

販売禁止の影で、国産GPGPUがその穴を埋めることはできるのか?

今年初め、ChatGPTはAIアプリケーションの開発を刺激する火花のようなもので、AI業界は開発の急...

...

...

各国の人工知能戦略の解釈

現在、人工知能の開発は引き続き盛んに行われており、新世代の科学技術革命の先駆者となりつつあります。米...

人工知能アルゴリズムが構造生物学の難問を解決

新しい人工知能アルゴリズムは、RNA 分子の正しい 3 次元構造を間違ったものから選び出すことができ...

Facebook がアルゴリズム コード ライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

Facebook AI Research は近年、ビデオ理解研究において多くの素晴らしい成果を上げて...

高性能 HTTP サーバーの負荷分散アルゴリズムは何ですか?ほとんどのプログラマーは収集しています...

典型的な高同時実行性、大規模ユーザー Web インターネット システムのアーキテクチャ設計では、HT...

美団におけるナレッジグラフ可視化技術の実践と探究

著者 | 魏耀成魏ナレッジ グラフの視覚化により、ナレッジ グラフ データをより直感的に表示および分...

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジー トレンド

[51CTO.com クイック翻訳] 新しいテクノロジーの導入により、私たちの職場は変化しています。...

外国企業が人間の介入を必要としないAI犬訓練機を開発

海外メディアによると、Companion Labsという企業がサンフランシスコの動物保護団体SPCA...

インテリジェントなケアに加えて、感情的なニーズもあります。人工知能と高齢者ケアについてお話ししましょう。

2017年は「人工知能」が輝きました。ディープラーニング「AlphaGo」が柯潔に勝利し、無人運転...

一貫性ハッシュアルゴリズムと分散ストレージへの応用

OStorageの責任者であるLi Mingyu氏は、同社のエンタープライズレベルのオブジェクトスト...

IoTとAIがコロナウイルスの流行中に企業の事業再開をどのように可能にしているか

[[333668]]数か月に及ぶ極度の不確実性、経済の閉鎖、孤立の後、ようやくゆっくりと経済が機能し...

...