今週木曜日、アメリカのAIスタートアップ企業Inflection AIが次世代の大規模言語モデルInflection-2.5を正式にリリースした。 Inflection-2.5は、強力なLLM機能とInflectionの特徴である「共感の微調整」を組み合わせ、高い感情知能と高いIQを併せ持ち、オンラインで事実情報を取得でき、そのパフォーマンスはGPT-4やGeminiなどの主要な大規模モデルに匹敵すると報告されています。 Inflection-2.5 は現在、すべての Pi ユーザーが利用でき、PC、iOS、Android アプリで無料で入手できます。 P.S. Synced も簡単なテストを行い、GPT-4 に「近い」(GPT-4 ほど良くはない) だけであることがわかりました。興味のある読者は、自分で体験することができます。 リンク: https://pi.ai/talk Inflection-2.5 は GPT-4 に近いパフォーマンスを達成している一方で、トレーニング プロセスでは GPT-4 の計算能力の 40% しか使用していないことは注目に値します。 Inflection AIによると、新世代のビッグモデルはコーディングや数学などのIQ分野で特に進歩を遂げたという。これにより、主要な業界ベンチマークが具体的に改善され、Pi がテクノロジーの最前線に留まることが保証されます。 Pi には現在、世界クラスのリアルタイム Web 検索機能も組み込まれており、ユーザーは高品質の最新ニュースや最新情報を確実に受け取ることができます。 Inflection-2.5 と GPT-4Inflection-1 は GPT-4 トレーニングで使用される FLOP の約 4% を使用し、さまざまな「IQ 指向」タスクでの平均パフォーマンスは GPT-4 レベルの約 72% です。現在、トレーニングに GPT-4 の FLOP の 40% しか使用していないにもかかわらず、Inflection-2.5 の平均パフォーマンスは GPT-4 の 94% 以上に達しています。下の図に示すように、Inflection-2.5 のパフォーマンスは全般的に大幅な改善を達成しており、特に STEM ドメインの知識の改善が最も顕著です。 2 つの異なる STEM 試験 (ハンガリー数学試験と物理学の大学院入学資格試験 (GRE)) における Inflection-2.5 のスコアは次のとおりです。 次の表に示すように、この調査では、Inflection-2.5 を MMLU ベンチマークと GPQA Diamond ベンチマークでも評価しました。 MMLUベンチマークはSTEM、人文科学、社会科学などの分野の57科目をカバーしており、LLMの総合的な知識能力を効果的にテストできます。一方、GPQAダイヤモンドベンチマークは、非常に難しい専門家レベルのベンチマークです。 BIG-Bench-Hard ベンチマークでは、Inflection-2.5 は Inflection-1 よりもパフォーマンスが 10% 以上向上し、GPT-4 に匹敵します。 BIG-Bench-Hard ベンチマークは主に、大規模言語モデルでは難しい問題をカバーします。 この研究は MT-Bench ベンチマークでも評価されています。しかし、研究チームは、推論、数学、コーディングのカテゴリにおけるベンチマークのサンプル例の大部分 (約 25%) に、誤った参照ソリューションや欠陥のある前提があることに気付きました。そこで本研究ではこれらの例を修正し再度評価実験を行った。結果を次の表に示す。 GSM8k および MATH ベンチマークの評価結果によると、Inflection-2.5 は数学およびコーディング機能の点で Inflection-1 よりも大幅に改善されています。 Inflection-2.5 のエンコード機能をさらにテストするために、この研究では 2 つのエンコード ベンチマーク、MBPP+ と HumanEval+ で評価実験を実施しました。結果を次の表に示します。 研究チームは、HellaSwag と ARC-C のほか、さまざまなモデルの常識と科学的ベンチマークで Inflection-2.5 を評価しました。下の図の結果から判断すると、Inflection-2.5 はこれらのベンチマークで優れたパフォーマンスを達成しています。 さらに、上記の評価はすべて、現在 Pi をサポートしているモデルを使用して実行されました。ただし、ネットワーク検索 (上記のベンチマークではネットワーク検索は使用されません)、少数ショットのプロンプトの構造、およびその他の制作面により、ユーザー エクスペリエンスが若干異なる場合があることにも注意が必要です。 全体的に、Inflection-2.5 は Pi の「心のこもった」特性と非常に高い安全基準を維持し、より包括的で有用なモデルになります。 昨今、大規模言語モデルをめぐる技術競争は白熱した段階に入っている。多くのテクノロジー企業の中で、Mistral AI( Mistral Large )とAnthropic( Claude 3 )が目立っており、彼らが提案する新技術はGPT-4やGemini Ultraに近い性能を実現している。昨日登場したInflection-2.5も第一階層に加わるようです。 シリコンバレーのスタースタートアップであるInflection AIは、素晴らしい経歴を持っています。同社は2022年に設立されました。共同創設者の3人は、元DeepMindの共同創設者であるMustafa Suleyman、LinkedInの共同創設者であるReid Hoffman、元DeepMindの主任科学者であるKaren Simonyanです。 昨年6月、Inflection AIは、Microsoft、Nvidia、リード・ホフマン、ビル・ゲイツ、元Google CEOのエリック・シュミットらが主導する13億ドルの資金調達を実施したと発表した。現在、Inflection AI は世界で 4 番目に大きな生成 AI スタートアップ企業となっています。 |
<<: Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に
>>: ニューラル ネットワークの父、ヒントン氏の最新の演説: デジタル インテリジェンスは生物学的インテリジェンスに取って代わるでしょうか?
人工知能(AI)は、新たな科学技術革命と産業変革の重要な原動力として、世界に大きな影響を与え、変化を...
[[260907]] [[260908]] AIはさまざまな産業に大きな変化をもたらします。よりイ...
商業用不動産業界は進化を遂げており、人工知能 (AI) などのテクノロジーが、このダイナミックな市場...
2020 年は、公衆衛生、職業生活、経済、そして日常生活のほぼすべての側面にとって特別な年となりまし...
「私の大胆な決断の1つは、2025年までに従来のヘルプデスクを廃止したいということだった」とトヨタ自...
新しい報告によると、私たちは人工知能革命の瀬戸際に立っている。この革命において、私たちが作り出すテク...
スタイル転送は最近人工知能の分野で注目されている研究テーマであり、Synced でも多くの関連研究が...
中国の新世代人工知能産業の規模は着実に拡大している。新世代の AI アプリケーション シナリオの実装...
SMICは最近、研究開発への投資を増やすことで14nmプロセスチップを量産し、2021年に正式に出荷...
機械学習の専門家は、ニューラル ネットワーク図の描き方について心配する必要がなくなりました。論文やブ...
現在、人工知能や予測分析などのテクノロジーは、多くのストレージ製品に組み込まれています。これらのテク...
自動運転車は、人工知能技術の最もエキサイティングで影響力のある応用例の 1 つです。米国だけでも、毎...
最近、マスク氏の伝記「イーロン・マスク:伝記」が国内外でベストセラーとなった。この本には、マスク氏の...
本日7月3日、デジタルブロガーの@长安数码君がソーシャルプラットフォームでニュースを発表しました。顔...