Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

2023年杭州雲奇大会において、アリババクラウド最高技術責任者の周景仁氏は、数千億のパラメータを持つ大規模モデル「Tongyi Qianwen 2.0」を発表した。 10 件の権威ある評価において、Tongyi Qianwen 2.0 の総合的なパフォーマンスは GPT-3.5 を上回り、GPT-4 に追いつくまでに加速しています。

過去6か月間で、Tongyi Qianwen 2.0のパフォーマンスは飛躍的に向上したと報告されています。4月にリリースされたバージョン1.0と比較して、Tongyi Qianwen 2.0は、複雑な指示の理解、文学の創作、一般的な数学、知識の記憶、幻覚への耐性などの機能が大幅に向上しました。現在、Tongyi Qianwenの総合性能はGPT-3.5を超え、GPT-4に追いつくべく加速しています。

MMLU、C-Eval、GSM8K、HumanEval、MATHを含む10の主要なベンチマーク評価セットにおいて、Tongyi Qianwen 2.0の総合スコアはMetaのLlama-2-70Bを上回りました。OpenAIのChat-3.5と比較すると9勝1敗、GPT-4と比較すると4勝6敗となり、GPT-4との差がさらに縮まりました。

中国語と英語を理解する能力は、大規模言語モデルの基本スキルです。英語タスクに関しては、Tongyi Qianwen 2.0はMMLUベンチマークで82.5点を獲得し、GPT-4に次ぐ成績を収めました。パラメータ数を大幅に増やすことで、Tongyi Qianwen 2.0は複雑な言語構造と概念をよりよく理解し、処理することができます。中国語タスクに関しては、Tongyi Qianwen 2.0はC-Evalベンチマークで最高得点を獲得し、明らかな優位性を発揮しました。これは、モデルがトレーニング中により多くの中国語コーパスを学習し、中国語の理解力と表現力がさらに向上したためです。

数学的推論やコード理解などの分野では、Tongyi Qianwen 2.0 は大きな進歩を遂げました。推論ベンチマークテスト GSM8K では、Tongyi Qianwen は強力なコンピューティングおよび論理的推論能力を発揮して 2 位にランクされました。HumanEval テストでは、Tongyi Qianwen は GPT-4 および GPT-3.5 に僅差で続きました。このテストは主に、大規模モデルがコード スニペットを理解して実行する能力を測定します。これは、プログラミング支援や自動コード修復などのシナリオに大規模モデルを適用するための基礎となります。

<<: 

>>:  ロボティック・プロセス・オートメーションは大きな問題でしょうか?

推薦する

機械学習ニューラルネットワークとPython実装

ニューラル ネットワークは、機械学習のあらゆる側面に及ぶ幅広い用途に使用されます。この記事では、主に...

ドローンの出現と市場の需要の変化

ドローンの市場、入手可能性、需要が長年にわたってどのように増加してきたかを学びます。映画の架空の世界...

AIは消費者行動にどのような影響を与えるのでしょうか?

著者: ユン・チャオ[51CTO.com からのオリジナル記事]コンピュータ プログラミングを使用し...

Google Gemini は Baidu を「騙し取っている」が、その背後にいる本当の犯人は誰なのか?

ノア著制作:51CTO テクノロジースタック(WeChat ID:blog)かつて AI の王者だっ...

インテリジェントな意思決定理論: AI 主導の意思決定企業の創出

人工知能モデルを使用してより優れた意思決定を促進する方法は、現在非常に注目されている研究テーマです。...

グラフィカルな説明 | RSAアルゴリズムとは

[[339878]]この記事はWeChatパブリックアカウント「Backend Technology...

報告書は、2030年までにサイバーセキュリティの分野でAIが人間に取って代わる可能性があると予測している。

新型コロナウイルス肺炎の流行は社会全体の生産と生活に影響をもたらしています。企業は、感染拡大の影響を...

ChatGPTに加えて、知っておくべき14の大きなモデルがあります

多くの上司は人工知能を未来と見ており、多くのテクノロジーリーダーは ChatGPT を人工知能と同義...

OpenAIを批判した後、ルカン氏はこう答えた。「意識は単なる幻想だと思う」

ヤン・ルカンは演説中に、フランス革命の有名な絵画「民衆を導く自由の女神」を再生し、「革命は監視されな...

Javaコードの効率とアルゴリズム設計を最適化してパフォーマンスを向上

Java 開発では、非効率的なコードや不合理なアルゴリズムにより、プログラムのパフォーマンスが低下す...

清華大学の博士が「チップレット・アクチュアリー」サミットを提案!ムーアの法則に近づくほど、マルチチップ統合のコスト効率は向上する。

Chiplet は、製品の歩留まり、パッケージの歩留まり、さまざまなコストなどを考慮しながら、大規...

マスク氏のニューラリンクが人間の脳にインターフェースを挿入するにはどれくらいの時間がかかるのでしょうか?

マスク氏は常にその知名度の高さで知られている。彼はテスラとスペースXという2つの大企業を所有している...

自動運転の未来 - 4Dミリ波レーダー

現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...

クラウドコンピューティング、ビッグデータ、AI の関係と違いを 1 つの記事で理解する

クラウドコンピューティング、ビッグデータ、人工知能という言葉は誰もが聞いたことがあると思いますが、こ...

ロボットが自閉症児の社会スキルの発達を助ける

自閉症は、社会的、感情的、コミュニケーション的、行動的な課題を伴う発達障害です。自閉症と診断された子...