OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

今週木曜日、アメリカのAIスタートアップ企業Inflection AIが次世代の大規模言語モデルInflection-2.5を正式にリリースした。

Inflection-2.5は、強力なLLM機能とInflectionの特徴である「共感の微調整」を組み合わせ、高い感情知能と高いIQを併せ持ち、オンラインで事実情報を取得でき、そのパフォーマンスはGPT-4やGeminiなどの主要な大規模モデルに匹敵すると報告されています。

Inflection-2.5 は現在、すべての Pi ユーザーが利用でき、PC、iOS、Android アプリで無料で入手できます。 P.S. Synced も簡単なテストを行い、GPT-4 に「近い」(GPT-4 ほど良くはない) だけであることがわかりました。興味のある読者は、自分で体験することができます。

リンク: https://pi.ai/talk

Inflection-2.5 は GPT-4 に近いパフォーマンスを達成している一方で、トレーニング プロセスでは GPT-4 の計算能力の 40% しか使用していないことは注目に値します。

Inflection AIによると、新世代のビッグモデルはコーディングや数学などのIQ分野で特に進歩を遂げたという。これにより、主要な業界ベンチマークが具体的に改善され、Pi がテクノロジーの最前線に留まることが保証されます。 Pi には現在、世界クラスのリアルタイム Web 検索機能も組み込まれており、ユーザーは高品質の最新ニュースや最新情報を確実に受け取ることができます。

Inflection-2.5 と GPT-4

Inflection-1 は GPT-4 トレーニングで使用される FLOP の約 4% を使用し、さまざまな「IQ 指向」タスクでの平均パフォーマンスは GPT-4 レベルの約 72% です。現在、トレーニングに GPT-4 の FLOP の 40% しか使用していないにもかかわらず、Inflection-2.5 の平均パフォーマンスは GPT-4 の 94% 以上に達しています。下の図に示すように、Inflection-2.5 のパフォーマンスは全般的に大幅な改善を達成しており、特に STEM ドメインの知識の改善が最も顕著です。

2 つの異なる STEM 試験 (ハンガリー数学試験と物理学の大学院入学資格試験 (GRE)) における Inflection-2.5 のスコアは次のとおりです。

次の表に示すように、この調査では、Inflection-2.5 を MMLU ベンチマークと GPQA Diamond ベンチマークでも評価しました。 MMLUベンチマークはSTEM、人文科学、社会科学などの分野の57科目をカバーしており、LLMの総合的な知識能力を効果的にテストできます。一方、GPQAダイヤモンドベンチマークは、非常に難しい専門家レベルのベンチマークです。

BIG-Bench-Hard ベンチマークでは、Inflection-2.5 は Inflection-1 よりもパフォーマンスが 10% 以上向上し、GPT-4 に匹敵します。 BIG-Bench-Hard ベンチマークは主に、大規模言語モデルでは難しい問題をカバーします。

この研究は MT-Bench ベンチマークでも評価されています。しかし、研究チームは、推論、数学、コーディングのカテゴリにおけるベンチマークのサンプル例の大部分 (約 25%) に、誤った参照ソリューションや欠陥のある前提があることに気付きました。そこで本研究ではこれらの例を修正し再度評価実験を行った。結果を次の表に示す。

GSM8k および MATH ベンチマークの評価結果によると、Inflection-2.5 は数学およびコーディング機能の点で Inflection-1 よりも大幅に改善されています。

Inflection-2.5 のエンコード機能をさらにテストするために、この研究では 2 つのエンコード ベンチマーク、MBPP+ と HumanEval+ で評価実験を実施しました。結果を次の表に示します。

研究チームは、HellaSwag と ARC-C のほか、さまざまなモデルの常識と科学的ベンチマークで Inflection-2.5 を評価しました。下の図の結果から判断すると、Inflection-2.5 はこれらのベンチマークで優れたパフォーマンスを達成しています。

さらに、上記の評価はすべて、現在 Pi をサポートしているモデルを使用して実行されました。ただし、ネットワーク検索 (上記のベンチマークではネットワーク検索は使用されません)、少数ショットのプロンプトの構造、およびその他の制作面により、ユーザー エクスペリエンスが若干異なる場合があることにも注意が必要です。

全体的に、Inflection-2.5 は Pi の「心のこもった」特性と非常に高い安全基準を維持し、より包括的で有用なモデルになります。

昨今、大規模言語モデルをめぐる技術競争は白熱した段階に入っている。多くのテクノロジー企業の中で、Mistral AI( Mistral Large )とAnthropic( Claude 3 )が目立っており、彼らが提案する新技術はGPT-4やGemini Ultraに近い性能を実現している。昨日登場したInflection-2.5も第一階層に加わるようです。

シリコンバレーのスタースタートアップであるInflection AIは、素晴らしい経歴を持っています。同社は2022年に設立されました。共同創設者の3人は、元DeepMindの共同創設者であるMustafa Suleyman、LinkedInの共同創設者であるReid Hoffman、元DeepMindの主任科学者であるKaren Simonyanです。

昨年6月、Inflection AIは、Microsoft、Nvidia、リード・ホフマン、ビル・ゲイツ、元Google CEOのエリック・シュミットらが主導する13億ドルの資金調達を実施したと発表した。現在、Inflection AI は世界で 4 番目に大きな生成 AI スタートアップ企業となっています。

<<:  Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

>>:  ニューラル ネットワークの父、ヒントン氏の最新の演説: デジタル インテリジェンスは生物学的インテリジェンスに取って代わるでしょうか?

推薦する

人工知能の研究ホットスポット:自然言語処理

人工知能(AI)は、新たな科学技術革命と産業変革の重要な原動力として、世界に大きな影響を与え、変化を...

中国移動研究所のチャン・ヤオビン氏:AI時代の技術マネージャーとして、戦闘能力とは何でしょうか?

[[260907]] [[260908]] AIはさまざまな産業に大きな変化をもたらします。よりイ...

AIと新技術が商業用不動産投資に革命を起こす

商業用不動産業界は進化を遂げており、人工知能 (AI) などのテクノロジーが、このダイナミックな市場...

2020年グローバルNLP業界レポート:NLPテクノロジー予算が30%増加

2020 年は、公衆衛生、職業生活、経済、そして日常生活のほぼすべての側面にとって特別な年となりまし...

トヨタが GenAI を活用して IT サービスを変革する方法

「私の大胆な決断の1つは、2025年までに従来のヘルプデスクを廃止したいということだった」とトヨタ自...

新しい報告書が確認:慎重に扱わなければ、人工知能は現実版「ブラックミラー」になる

新しい報告によると、私たちは人工知能革命の瀬戸際に立っている。この革命において、私たちが作り出すテク...

神経スタイル転送研究の概要: 現在の研究から将来の方向性まで

スタイル転送は最近人工知能の分野で注目されている研究テーマであり、Synced でも多くの関連研究が...

レポート:中国の人工知能産業は2022年までに300億ドル近くの価値に達する

中国の新世代人工知能産業の規模は着実に拡大している。新世代の AI アプリケーション シナリオの実装...

SMIC、AIoT時代の最も価値ある製造業である14nmプロセスチップを量産

SMICは最近、研究開発への投資を増やすことで14nmプロセスチップを量産し、2021年に正式に出荷...

絵が醜すぎて見せられない?機械学習用の描画テンプレートセットを作った人がいます。ダークモードもあります

機械学習の専門家は、ニューラル ネットワーク図の描き方について心配する必要がなくなりました。論文やブ...

ストレージ自動化、予測分析、人工知能について知っておくべき6つのこと

現在、人工知能や予測分析などのテクノロジーは、多くのストレージ製品に組み込まれています。これらのテク...

自動運転車は本当に人間が運転する車よりも安全でしょうか?

自動運転車は、人工知能技術の最もエキサイティングで影響力のある応用例の 1 つです。米国だけでも、毎...

...

ユーモアを理解し、皮肉のスキルに溢れた、マスクのChatGPTのライバルがついにチャットのスクリーンショットを公開

最近、マスク氏の伝記「イーロン・マスク:伝記」が国内外でベストセラーとなった。この本には、マスク氏の...

あなたのプライベートな写真が「合法的に」閲覧される可能性があります。顔認識を使用するときは必ず服を着用してください。

本日7月3日、デジタルブロガーの@长安数码君がソーシャルプラットフォームでニュースを発表しました。顔...