OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

今週木曜日、アメリカのAIスタートアップ企業Inflection AIが次世代の大規模言語モデルInflection-2.5を正式にリリースした。

Inflection-2.5は、強力なLLM機能とInflectionの特徴である「共感の微調整」を組み合わせ、高い感情知能と高いIQを併せ持ち、オンラインで事実情報を取得でき、そのパフォーマンスはGPT-4やGeminiなどの主要な大規模モデルに匹敵すると報告されています。

Inflection-2.5 は現在、すべての Pi ユーザーが利用でき、PC、iOS、Android アプリで無料で入手できます。 P.S. Synced も簡単なテストを行い、GPT-4 に「近い」(GPT-4 ほど良くはない) だけであることがわかりました。興味のある読者は、自分で体験することができます。

リンク: https://pi.ai/talk

Inflection-2.5 は GPT-4 に近いパフォーマンスを達成している一方で、トレーニング プロセスでは GPT-4 の計算能力の 40% しか使用していないことは注目に値します。

Inflection AIによると、新世代のビッグモデルはコーディングや数学などのIQ分野で特に進歩を遂げたという。これにより、主要な業界ベンチマークが具体的に改善され、Pi がテクノロジーの最前線に留まることが保証されます。 Pi には現在、世界クラスのリアルタイム Web 検索機能も組み込まれており、ユーザーは高品質の最新ニュースや最新情報を確実に受け取ることができます。

Inflection-2.5 と GPT-4

Inflection-1 は GPT-4 トレーニングで使用される FLOP の約 4% を使用し、さまざまな「IQ 指向」タスクでの平均パフォーマンスは GPT-4 レベルの約 72% です。現在、トレーニングに GPT-4 の FLOP の 40% しか使用していないにもかかわらず、Inflection-2.5 の平均パフォーマンスは GPT-4 の 94% 以上に達しています。下の図に示すように、Inflection-2.5 のパフォーマンスは全般的に大幅な改善を達成しており、特に STEM ドメインの知識の改善が最も顕著です。

2 つの異なる STEM 試験 (ハンガリー数学試験と物理学の大学院入学資格試験 (GRE)) における Inflection-2.5 のスコアは次のとおりです。

次の表に示すように、この調査では、Inflection-2.5 を MMLU ベンチマークと GPQA Diamond ベンチマークでも評価しました。 MMLUベンチマークはSTEM、人文科学、社会科学などの分野の57科目をカバーしており、LLMの総合的な知識能力を効果的にテストできます。一方、GPQAダイヤモンドベンチマークは、非常に難しい専門家レベルのベンチマークです。

BIG-Bench-Hard ベンチマークでは、Inflection-2.5 は Inflection-1 よりもパフォーマンスが 10% 以上向上し、GPT-4 に匹敵します。 BIG-Bench-Hard ベンチマークは主に、大規模言語モデルでは難しい問題をカバーします。

この研究は MT-Bench ベンチマークでも評価されています。しかし、研究チームは、推論、数学、コーディングのカテゴリにおけるベンチマークのサンプル例の大部分 (約 25%) に、誤った参照ソリューションや欠陥のある前提があることに気付きました。そこで本研究ではこれらの例を修正し再度評価実験を行った。結果を次の表に示す。

GSM8k および MATH ベンチマークの評価結果によると、Inflection-2.5 は数学およびコーディング機能の点で Inflection-1 よりも大幅に改善されています。

Inflection-2.5 のエンコード機能をさらにテストするために、この研究では 2 つのエンコード ベンチマーク、MBPP+ と HumanEval+ で評価実験を実施しました。結果を次の表に示します。

研究チームは、HellaSwag と ARC-C のほか、さまざまなモデルの常識と科学的ベンチマークで Inflection-2.5 を評価しました。下の図の結果から判断すると、Inflection-2.5 はこれらのベンチマークで優れたパフォーマンスを達成しています。

さらに、上記の評価はすべて、現在 Pi をサポートしているモデルを使用して実行されました。ただし、ネットワーク検索 (上記のベンチマークではネットワーク検索は使用されません)、少数ショットのプロンプトの構造、およびその他の制作面により、ユーザー エクスペリエンスが若干異なる場合があることにも注意が必要です。

全体的に、Inflection-2.5 は Pi の「心のこもった」特性と非常に高い安全基準を維持し、より包括的で有用なモデルになります。

昨今、大規模言語モデルをめぐる技術競争は白熱した段階に入っている。多くのテクノロジー企業の中で、Mistral AI( Mistral Large )とAnthropic( Claude 3 )が目立っており、彼らが提案する新技術はGPT-4やGemini Ultraに近い性能を実現している。昨日登場したInflection-2.5も第一階層に加わるようです。

シリコンバレーのスタースタートアップであるInflection AIは、素晴らしい経歴を持っています。同社は2022年に設立されました。共同創設者の3人は、元DeepMindの共同創設者であるMustafa Suleyman、LinkedInの共同創設者であるReid Hoffman、元DeepMindの主任科学者であるKaren Simonyanです。

昨年6月、Inflection AIは、Microsoft、Nvidia、リード・ホフマン、ビル・ゲイツ、元Google CEOのエリック・シュミットらが主導する13億ドルの資金調達を実施したと発表した。現在、Inflection AI は世界で 4 番目に大きな生成 AI スタートアップ企業となっています。

<<:  Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

>>:  ニューラル ネットワークの父、ヒントン氏の最新の演説: デジタル インテリジェンスは生物学的インテリジェンスに取って代わるでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能の過去と現在を1つの記事で理解する(おすすめコレクション)

はじめに:人工知能の開発プロセスは、多くの紆余曲折を伴う、3 つの上昇と 2 つの下降として説明でき...

AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている

モノのインターネット、ビッグデータ、人工知能などの最先端技術と伝統的な製造業の統合はますます深まり、...

グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習

序文と著者の個人的な理解自動運転システムの下流アプリケーションにとって重要な情報である地図は、通常、...

天猫双11:機械​​知能が上昇、ロボット1台は実在の人間70万人に相当

「機械に人間から学ばせてはいけない。機械には独自の方法と手段がなければならない。」 「機械に独自の知...

Byteチームは、認知生成リストSoTAを理解するためのマルチモーダルLLMであるLynxモデルを提案しました。

GPT4 などの現在の大規模言語モデル (LLM) は、画像が与えられた場合にオープンエンドの指示...

...

...

パスワードバスター:機械学習

コンピュータの誕生以来、ユーザー名とパスワードは最も基本的なアクセス制御および ID 認証の方法でし...

機械学習を実装するには?

機械学習の実装は、AI を活用した製品やサービスの成功にとって重要なステップです。 MLOps が企...

産業用ロボットアプリケーション業界の概要

現在の技術の進歩と産業の発展に伴い、産業用ロボットの応用分野も急速に拡大しています。企業は、労働コス...

人工知能と機械学習でよく使われるアルゴリズムの概要と、よく使われる各アルゴリズムの精度の比較

[[319322]]この記事では、一般的に使用されている機械学習アルゴリズムの概要と、一般的に使用さ...

コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド

[51CTO.com クイック翻訳]近年、人工知能技術の発展と進歩に伴い、コンピュータービジョンとデ...

人工知能はスポーツや芸術教育における革新的な発展をどのように促進できるのでしょうか?

[[407981]]著者テンセント研究所の上級研究員、周丹氏趙雲傑 テンセント研究所 研究助手20...

IDC: 生成型AIへの世界的な支出は2027年に1,430億ドルに達する

IDC は最近、世界中の企業による生成 AI サービス、ソフトウェア、インフラストラクチャへの支出が...

...