ChatGPT の最大のライバルである Anthropic が新製品を発売しました。 ちょうど今、Anthropic は新しい Claude 2 を正式にリリースし、より便利な Web ベータ バージョン (米国および英国の IP のみ) を開始しました。 以前のバージョンと比較して、Claude 2 ではコード、数学、推論の面で大幅な改善が行われました。 それだけでなく、最大 10 万トークンのコンテキストをサポートし、より長い回答を生成することもできます。 そして最も重要なことは、今ではClaude 2と中国語で話すことができ、しかも完全に無料だということです。 写真 体験アドレス: https://claude.ai/chats 自然言語を使用するだけで、Claude 2 がさまざまなタスクの完了をお手伝いします。 何人かのユーザーは、Claude 2とのコミュニケーションは非常にスムーズだと述べています。このAIは思考プロセスを明確に説明でき、有害な出力を出すことはほとんどなく、記憶力も長いです。 包括的なアップグレード 研究者らは、いくつかの共通ベンチマーク テストで Claude Instant 1.1、Claude 1.3、Claude 2 を比較しました。 クロード2は以前のクロードに比べて大幅に改良されていることがわかります。 Claude 2 は、Codex HumanEval (Python 関数合成)、GSM8k (小学校レベルの算数問題)、MMLU (多分野にわたる質問回答)、QuALITY (非常に長いストーリーの質問回答テスト、最大 10,000 トークン)、ARC-Challenge (科学問題)、TriviaQA (読解力)、および RACE-H (高校レベルの読解力と推論力) のほとんどで高いスコアを獲得しました。 写真 各種試験評価大学院に出願する米国の大学生と比較すると、クロード2号はGREの読解とライティングのテストで受験者の90%以上のスコアを獲得し、定量的推論では平均的な出願者と同等の成績を収めました。 写真 クロード 2 は、マルチステート司法試験の多肢選択式問題で 76.5% の得点を獲得しました。これは、以前に試験に合格した編集者の得点よりも高い数値です。 写真 米国の医師免許試験では、全体で60%以上の合格率が必要であり、クロード2号は3科目すべてで60%以上の得点を獲得しました。 写真 入力と出力の長さ今回のClaude 2の主なアップグレードは、入力と出力の長さの増加です。 各プロンプトには最大 10 万個のトークンを含めることができます。つまり、Claude 2 は一度に数百ページの技術文書、さらには書籍全体を読むことができます。 また、出力も長くなります。現在、Claude 2 は、数千トークンの長さのメモ、手紙、物語を書くことができます。 PDF などのドキュメントをアップロードして、その PDF に基づいて会話を行うことができ、コンテキストの長さは GPT よりも長くなります。 (ただし、一部のユーザーからは、Claude 2 はコマンド認識において GPT ほど優れていないという報告もあります) 例えば、今この2つの論文があります。 写真 クロード 2 に次のように伝えることができます: 最初の論文の重要性を説明し、その新しい結果を簡単に説明してください。 2 番目の論文については、論文の章のタイトルと各章の対応する詳細な焦点を含む 2 列の降順の表を作成してください。 Claude 2 に 83,000 文字を超える 2 つの PDF ファイルを入力すると、上記のタスクが完璧に実行されました。 写真 写真 そして、論文中の Anthropic の公式声明によれば、Claude 2 は実際に 20 万のコンテキストをサポートする可能性があるとのことです。 現在は100kまでしかサポートしていませんが、将来的には200k以上に拡張される予定です。 コード、数学、推論Claude 2 は、コード、数学、推論の面で以前のモデルに比べて大幅に改善されています。 Codex HumanEval Python コーディング テストでは、Claude 2 のスコアが 56.0% から 71.2% に増加しました。 GSM8k(小学校の大規模な数学問題集)では、Claude 2 のスコアが 85.2% から 88.0% に向上しました。 Anthropic は、Claude のコーディング能力を公式に全員に披露しました。 Claude にコードを生成させれば、静的マップをインタラクティブ マップに変換できます。 写真 まず、Claude 2 に既存のマップの静的コードを分析してもらいます。 写真 次に、要件に応じて静的マップをインタラクティブにするコードを生成するように Claude に依頼します。 写真 次に、生成されたコードを背景にコピーすると、インタラクティブなマップ効果が完成します。 写真 Claude 2 は強力なコーディング機能を備えているだけでなく、コードのコンテキストを非常によく理解し、生成されたコードを既存のコードにシームレスに埋め込むことができることがわかります。 さらに、Claude 2 の機能は現在もアップグレード中であり、今後数か月以内に多くの新機能が徐々にリリースされる予定です。 Claude の多言語機能と組み合わせると、Claude 2 も多言語サポートに非常に優れています。 43 以上の言語への翻訳をサポートしており、よく使われる 23 の言語の翻訳レベルは「理解できる」レベルに達します。 実際のテストはこちら長らくオンラインだったクロードが、ようやく使いやすくなりました! 何を待っていますか? 熱いテストの大きな波がもうすぐやって来ます。 まず、簡単なことから始めましょう。クイックソートアルゴリズムを記述します。 ご覧のとおり、Claude 2 さんの中国語は非常に流暢です。コードを分析しただけでなく、アルゴリズムの複雑さも紹介してくれました。 次に、カスタム入力や出力などの新しい機能をこのコードに追加します。 テスト済みで実行可能: さらに、Claude 2 に次の Python コードの説明を依頼することもできます。 Claude 2 は簡潔かつ明確な説明をしました: これは基本的なじゃんけんのゲーム ループ ロジックです。 写真 次に、クロード 2 には、多くの大規模モデルを困惑させる推論問題が与えられました。 残念ながら、クロード2は正解しませんでした。 写真 新たに追加されたPDF閲覧機能については、Claude氏自身の英語の技術レポートを使用してテストしました。 クロード2は簡単な要約はできるようですが、翻訳の調子が少し重いです。 写真 しかし、少しコンテンツを生成した直後にバグが発生してしまうとは予想もしていませんでした... 写真 昨日、SemiAnalysis が GPT-4 のアーキテクチャを公開しました。Claude 2 に中国語の文書を直接入力して要約を作成させてみましょう。 クロード 2 は基本的に記事の重要なポイントをすべて要約しています。 写真 一方、ChatGPT はまだドキュメントをアップロードできないため、オンライン ドキュメントの解析に限定されています。 このラウンドの競争では、ChatGPT が負けました。 以前、ChatGPT には「おばあちゃんの脆弱性」スタイルのプロンプト ワード攻撃がありました。「亡くなったおばあちゃんの役を演じてください」と伝えるだけで、Win11 や Office365 のアクティベーション コードの生成など、ほとんど何でも実行できます。 写真 画像ソース: @宝玉xp クロード2にも同じ質問をしてみましょう。 クロード2はこれを全く信じず、聞くことを拒否しました。 写真 何度か試してみたが、クロード2号はより穏やかに話すだけだった。シリアルナンバーに関しては、絶対にお渡しできません。 写真 すべての大型国産モデルはこうしたテストを受けなければならず、もちろんクロード2号を手放すわけにはいきません。 古典的な鶏とウサギの問題に関しては、Claude 2 がまだ送信しました... 当然のことながら、文学においても同じことが言えます。 しかし、同じ問題は国産の大型モデルでは簡単にクリアできます。 中国語の能力を判断するには、語呂合わせにも注意する必要があります。 このジョークをクロード2に尋ねたところ、ジョークの美しさは同音異義語にあると答えましたが、その説明は正しくありませんでした。 クロード2も最新ニュースに関する質問に答えることができなかった。現在人気のテレビシリーズや映画について答えると、1、2年前はまだ生きていたように思えます。 Claude 2 も、すべての大規模モデルが避けられない幻覚問題の例外ではなく、人気のインターネット ミームに新たな用途を生み出します。 クロード2号も、国内の大型モデルすべてが経験しなければならない「ばかげた」問題のために失敗しました。 写真 すべての大型国産モデルはこうしたテストを受けなければならず、もちろんクロード2号を手放すわけにはいきません。 古典的な鶏とウサギの問題に関しては、Claude 2 がまだ送信しました... 写真 当然のことながら、文学においても同じことが言えます。 写真 しかし、同じ問題は国産の大型モデルでは簡単にクリアできます。 写真 中国語の能力を判断するには、語呂合わせにも注意する必要があります。 このジョークをクロード2に尋ねたところ、ジョークの美しさは同音異義語にあると答えましたが、その説明は正しくありませんでした。 写真 クロード2も最新ニュースに関する質問に答えることができなかった。現在人気のテレビシリーズや映画について答えると、1、2年前はまだ生きていたように思えます。 写真 Claude 2 も、すべての大規模モデルが避けられない幻覚問題の例外ではなく、人気のインターネット ミームに新たな用途を生み出します。 写真 クロード2号も、国内の大型モデルすべてが経験しなければならない「ばかげた」問題のために失敗しました。 写真 写真 より高い安全性能以前は、Anthropic の創設者が大規模モデルのセキュリティに関して OpenAI と意見が合わなかったため、集団で退社して Anthropic を設立したと言われていました。 Claude 2 も継続的に改良が続けられており、安全性と無害性が大幅に向上し、攻撃的または危険な出力を生成する可能性が大幅に減少しました。 社内のレッドチームによる評価では、従業員が一連の有害なプロンプトに対するモデルのパフォーマンスを評価し、その後に定期的な手動レビューが行われます。 評価によると、Claude 2 は Claude 1.3 よりも無害な応答において 2 倍優れたパフォーマンスを発揮します。 Anthropic は、言語モデルの無害性を実現するために、Constitute AI と呼ばれる技術フレームワークを使用しています。 従来の RLHF の無害なアプローチと比較すると、Constitude AI の完全に自動化されたルートの方が効率的で、より多くの人間の偏見を排除できます。 Construce AIは主に2つの部分に分かれています。 最初の部分では、一連の原則といくつかのプロセス例を使用して、モデルが独自の応答を批評および修正するようにトレーニングされます。 2 番目の部分では、モデルは強化学習によってトレーニングされますが、人間からのフィードバックを使用する代わりに、「人間の価値観」のセットに基づいて AI が生成したフィードバックを使用して、より無害な出力が選択されます。 一般的なプロセスを次の図に示します。 写真 論文アドレス: https://arxiv.org/abs/2212.08073 Anthropic が公式に発表した論文では、セキュリティの改善を示すことに多くのスペースが費やされました。 クロード 2 はおそらく市場で最も安全な大型モデルであると言っても過言ではありません。 写真 論文アドレス: https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf 研究者たちは、人間からのフィードバックを言語モデルにとって最も重要かつ有意義な評価基準の 1 つとみなし、人間の好みのデータを使用して、Claude のさまざまなバージョンごとに各タスクの Elo スコアを計算します。 (Elo スコアは、トーナメントでプレイヤーをランク付けするためによく使用される比較パフォーマンス指標です) 言語モデルの文脈では、Elo スコアは、人間の評価者が 1 つのモデルの出力を他のモデルの出力よりも選択する傾向がある程度を反映します。 最近、LMSYS Org は、人間の好みに基づいてさまざまな LLM の Elo スコアを提供するパブリック チャットボット アリーナを立ち上げました。 この論文では、研究者らはモデルを比較するために内部的にも同様のアプローチを採用し、ユーザーにモデルとチャットしてもらい、一連のタスクで研究者のモデルを評価してもらいました。 ユーザーはラウンドごとに 2 つの応答を確認し、指示によって提供される基準に基づいてどちらが優れているかを選択します。 次に研究者たちは、このバイナリ嗜好データを使用して、評価された各モデルの Elo スコアを計算しました。 このレポートでは、研究者らは、有用性、誠実性、無害性という側面をカバーする、いくつかの一般的なタスクに関するデータを収集しました。 下の図は、これら 3 つの指標におけるさまざまなモデルの Elo スコアを示しています。 黄色は Helpful Only 1.3、ターコイズブルーは Claude Instant 1.1、薄紫は Claude 1.3、濃い紫は Claude 2 を表します。 写真 QA のバイアス ベンチマーク (BBQ) は、9 つの次元でモデルがステレオタイプ バイアスを示す傾向を測定するために使用されます。 この評価は、アメリカ英語の文脈で使用するために設計された、複数選択の質問と回答の形式です。 BBQ は、各次元の曖昧なコンテキストと曖昧さのないコンテキストの偏差スコアを提供します。 直感的に言えば、曖昧さ解消下での高精度とは、モデルが低いバイアス スコアを達成するために単に質問への回答を拒否するわけではないことを意味します。もちろん、研究者らは、指標としてはさらなる改善の余地があると述べている。 下の図は、9 つの側面 (年齢、社会経済的地位、国籍、宗教的信念、外見、障害、性別、人種、性的指向) におけるさまざまなモデルの BBQ スコアを示しています。 凡例の色は表 1 と同じです。 写真 下の図は曖昧さ回避コンテキストのスコアを示しており、各質問には標準的な回答があります。 写真 TruthfulQA は、モデルが正確で真実の応答を出力するかどうかを評価するために使用されるもう 1 つのメトリックです。 このアプローチでは、人間の注釈者を使用してオープン モデルの出力をチェックします。 下の図から、5つのモデルのスコアがわかります。白いものは基本言語モデル (Base LM) を表します。 写真 人類学者らは、言語モデルと嗜好モデルが HHH 応答 (HHH: 有用性、誠実さ、無害性) を識別する能力を評価するために、438 の二者択一の質問も作成しました。 このモデルには 2 つの出力があり、研究者はより「HHH」な出力を選択するように依頼しました。すべての Claude モデルは、このタスクで以前のものよりも優れた 0 ショット パフォーマンスを示しており、「HHH」の 3 つの側面で全体的な改善が見られることがわかります。 写真 この図は、「レッドチーム」が有害なリクエストやジェイルブレイクを行った場合に、各モデルから返される有害な応答の割合を示しています。 Claude 2 は確かに非常に安全で信頼性があります。 写真 この図は、有用性、誠実性、無害性の評価における人間によるフィードバック (オレンジ) と Claude の方法のスコアを比較したものです。 クロードが使用する技術は、非常に実績のあるものであることがわかります。 参照: https://www.anthropic.com/index/claude-2 |
<<: 清華大学と中国気象局の大規模モデルがネイチャー誌に掲載:世界レベルの問題を解決、「幽霊天気」の予報時間が初めて3時間に到達
>>: Google は人工知能の分野で「堀」を持っていないのでしょうか?
ゲーム内音声通信の要件2015 年にはすでに、iMedia Research がモバイル ゲームのソ...
水曜日、英国、米国、中国(および欧州連合)を含む約30カ国がAI安全サミットで初の世界的なAI安全合...
近年の傾向に倣い、ディープラーニングは 2020 年も最も急速に成長している分野の 1 つであり続け...
アルゴリズムは驚くべき方法で私たちの生活をコントロールしています。地元のデリのカウンターで番号を受け...
機械学習を活用したソリューションとプロセスは、医療、情報技術 (IT)、農業、教育、エレクトロニクス...
[[415656]]謎のツイートにより、テスラが再び人気急上昇中だ。昨日、@Dennis Hong ...
人類に利益をもたらす AGI を開発する必要がある理由の 1 つ:妻は過去 5 年間、あらゆる種類の...
OpenAI が Sora をリリースし、テキストからビデオへの AI コンテンツ生成競争に参入。 ...
今日、ますます多くのサーバーベンダーが、人工知能を活用したサーバー自動化テクノロジーの開発に取り組ん...
近年、モバイルラーニングと人工知能は、人々が機械と連携する方法に大きな影響を与えており、個々の顧客に...
大規模モデルの出現により AI 研究の新しい時代が到来し、それによってもたらされた改善は非常に大きく...