たった今、OpenAI のライバルが Inflection-2.5 をリリースしました!パフォーマンスはGPT-4に匹敵しますが、計算量はわずか40％です。高感情知能アプリケーションPiは、1日あたり100万人のアクティブユーザーを突破しました。

本当にクレイジーだよ！

ちょうど今、OpenAI のライバルである Inflection が新しいモデル Inflection-2.5 をリリースしました。このモデルは、GPT-4 に匹敵するパフォーマンスを 40% の計算能力のみで実現します。

首と首

同時に、ChatGPTと競合する「最も人間的な」チャットツールであるPiも、新しいアップグレードモデルでサポートされるようになりました。

現在、Pi は 1 日あたり 100 万人のアクティブユーザー数を達成しており、世界クラスの IQ だけでなく、独特の親和性と好奇心も備えています。

Inflection は、モデルの機能を評価した結果、ベンチマーク MT-Bench に誤った回答が多すぎることを発見し、誰でも試せる新しい Physics GRE ベンチマークをリリースしました。

真の AGI を実現するには、高い感情知能と強力な推論能力を組み合わせる必要があり、Pi はこの分野のモデルです。

わずか1週間足らずで、AnthropicはまずClaude 3で世界最強のモデルの称号を獲得し、その後Inflection-2.5のリリースでGPT-4に直接挑戦しました。

1つはOpenAIの元従業員7人が設立したスタートアップ、もう1つはGoogle DeepMindの元共同設立者が設立した企業です。どちらもGPT-4への究極の挑戦を開始しました。

少し前のジェミニの挑発と相まって、GPT-4 の時代は本当に終わりに近づいているのかもしれません...

誰もが使えるAIを作る

2023年5月、Inflectionは、共感力があり、実用的で安全なパーソナルAIであるPiという最初の製品をリリースしました。

2023年11月には、当時世界で2番目に優れたLLMとして知られる新しい基本モデル「Inflection-2」を立ち上げました。

Pi が並外れた感情指数 (EQ) を持っているだけでは十分ではありません。Inflection は現在、そこに知性 (IQ) を追加し、アップグレードされた新しい自社開発モデル Inflection-2.5 をリリースしたいと考えています。

新しくアップグレードされた Inflection-2.5 は、GPT-4 や Gemini などの世界トップクラスの LLM に匹敵する強力な基本機能を備えているだけでなく、象徴的なパーソナライズ機能と独自の共感の微調整も組み込まれています。

Inflection-2.5 は GPT-4 に近いパフォーマンスを達成していますが、トレーニングに必要な計算量は GPT-4 の 40% に過ぎないことは特筆に値します。

本日より、すべての Pi ユーザーは pi.ai Web サイト、iOS、Android、またはデスクトップアプリを通じて Inflection-2.5 を体験できます。

さらに、今回のアップグレードでは、Pi は世界クラスの「リアルタイム Web 検索機能」も追加し、ユーザーが高品質の最新のニュースや情報を確実に入手できるようにしました。

毎日数百万人のアクティブユーザー、非常に高いユーザー定着率

現在、Inflection には 1 日あたり 100 万人のアクティブユーザーと 1 か月あたり 600 万人のアクティブユーザーがいます。

そのうち約60%のユーザーは、Piとコミュニケーションをとった後、翌週もPiとのコミュニケーションを継続するために戻ってきており、ユーザーの粘着性は他の競合製品と比べて大幅に高くなっています。

これらのユーザーは Pi と 40 億件以上のメッセージでやり取りしており、平均会話時間は 33 分です。また、10 人に 1 人のユーザーは毎日 1 時間以上 Pi と会話しています。

Inflection-2.5 の強力な機能により、ユーザーはこれまで以上に幅広いトピックについて Pi と会話できます。最新の時事問題について話し合うだけでなく、地元のレストランのおすすめを聞いたり、生物学の試験の勉強をしたり、事業計画やプログラムを作成したり、重要な会話の準備をしたり、あるいは単に自分の興味や趣味を共有したり話し合ったりすることもできます。

あるネットユーザーは、「Pi は家族でさまざまなトピックを探求するためのお気に入りのツールです。感情解放コーチとして、誰かが肯定、探求、反省を必要としているときに Pi が反応してくれることに本当に感謝しています。感情の明瞭さと処理能力は強力です」とコメントしています。

パイはクロードよりも創造的な答えを思いつくだろうと信じる人もいる。

計算労力は40%のみで、GPT-4と同等である。

これまで、Inflection-1 は、多くのインテリジェンス中心のタスクにおいて、トレーニング FLOP の 4% で GPT-4 のレベルの 72% を達成しました。

現在、新しくアップグレードされた Inflection-2.5 は、トレーニング FLOP の 40% で GPT-4 の 94% を超えるパフォーマンスを備えています。

ご覧のとおり、Inflection-2.5 ではすべての領域で大幅な改善が見られ、特に科学、テクノロジー、エンジニアリング、数学などの STEM 分野で顕著です。

MMLU ベンチマークでは、Inflection-2.5 は Inflection-1 に比べて大幅な改善を示しています。

Inflection-2.5 は、もう 1 つの非常に難しい専門家レベルのベンチマークである GPQA Diamond でも非常に優れたパフォーマンスを発揮します。

GPT-4と比較すると、スコアの差は2%未満です。

次に、ハンガリー数学テストと物理学 GRE の 2 つの STEM 試験のスコアがあります。後者は物理学の分野の大学院入学試験です。

maj@8 スコアリング基準では、Inflection-2.5 のパフォーマンスがすべての参照母集団の 85 パーセンタイルに達し、maj@32 スコアリング基準では、そのスコアがほぼ 95 パーセンタイルに達したことがわかります。

もちろん、GPT-4 は maj@8 スコア基準で 97 パーセンタイルのスコアを獲得しており、さらに優れています。

BIG-Bench-Hard テストでは、Inflection-2.5 は第 1 世代の Inflection-1 よりも 10% 以上優れており、GPT-4 との差はわずか 0.9% です。

これらは、BIG-Bench テストセット内の質問の一部であり、LLM にとって大きな課題となる可能性があることに言及する価値があります。

しかし、MT-Bench ベンチマーク評価中に、チームは推論、数学、プログラミングに関するカテゴリで、質問の約 25% に誤った参照回答や不合理な前提があることを発見しました。

他のモデルをより客観的に評価できるようにするために、チームはこれらの問題を修正しただけでなく、データセットの更新バージョンもリリースしました。

改訂されたデータセットでは、Inflection-2.5 のパフォーマンスは、他のベンチマークに基づいて予想される結果とより一致しています。

この結果は、正確で合理的な質問設計がモデルのパフォーマンスを評価する上で重要であることも示しています。

以下のデータ比較から、Inflection-2.5 の数学機能とプログラミング機能は、第 1 世代の Inflection-1 と比較して大幅に向上していることがわかります。

しかし、GPT-4 と比較すると、まだ長い道のりがあります - 86.3 対 92.0、43.1 対 52.9。

プログラミングパフォーマンスをテストする 2 つのデータセットである MBPP+ と HumanEval+ でも、Inflection-2.5 は第 1 世代に比べて大幅に改善されています。

しかし、やはり GPT-4 とはまだ大きなギャップが残っています。

Inflection-2.5 は、常識的な判断と科学的知識を必要とする HellaSwag ベンチマークと ARC-C ベンチマークの両方で優れたパフォーマンスを発揮します。

ただし、Web 情報検索の使用 (上記のテストには Web 検索は含まれません)、特定の少数サンプルのプロンプト方法、および実際のアプリケーションにおけるその他の違いにより、実際のユーザーエクスペリエンスは若干異なる場合があります。

つまり、Inflection-2.5 は、Pi のユニークでユーザーフレンドリーな機能と高いセキュリティ標準を維持し続けるだけでなく、多くの面でより実用的で役立つものになっています。

ただし、Web 情報検索の使用 (上記のテストでは Web 検索は使用されません)、特定の小規模サンプルプロンプト方法、および実際のアプリケーションにおけるその他の違いにより、実際のユーザーエクスペリエンスは若干異なる場合があります。

MT-Benchの問題の修正

上記に引き続き、Inflection の調査によると、MT-Bench での論理的推論、数学的計算、プログラミングスキルが関係するケースの約 25% で、元の回答が間違っていたり、誤った仮定に基づいていたりしました。

それでは、実際のケースを 2 つ見てみましょう。

問題#104:

デイビッドには３人の姉妹がいます。彼らにはそれぞれ兄がいます。デイビッドには何人の兄弟がいますか？

GPT-4 リファレンス回答:

デイビッドには兄が一人しかいません。

修正された回答:

デイビッド自身は3人の姉妹の兄弟なので、他に兄弟はいません。

問題#111:

三角形の頂点は (0, 0)、(-1, 1)、(3, 3) です。この三角形の面積を求めなさい。

GPT-4 リファレンス回答:

この三角形の面積を計算するには、座標点 A(x1, y1)、B(x2, y2)、C(x3, y3) に三角形の面積の公式を適用します。

面積 = (1/2) * |(x1(y2 - y3) + x2(y3 - y1) + x3(y1 - y2))|

この例では、座標は A(0, 0)、B(-1, 1)、C(3, 3) です。これらの値を式に代入すると、次のようになります。

面積 = (1/2) * |(0(1 - 3) + (-1)(3 - 0) + 3(0 - 1))|

面積 = (1/2) * |(-0 + 3 - 3)|

面積 = (1/2) * |0|

したがって、面積の計算結果は 0 となり、3 つの点は同一直線上にあり、実際には三角形を形成していないことが示唆されます。

修正された回答:

面積は3です。

物理GREの実際の質問

大学院を志望する理系学生のための共通入学試験教材。

モデルをより適切にテストするために、Inflection は処理済みの物理 GRE テスト用紙 4 セットを提供しました。

- physics_gre_scored.jsonl: テスト用紙 GR8677

- physics_gre.jsonl: 試験問題 GR9277、GR9677、GR0177

各テスト用紙には次の情報が含まれています。

- 入力: テストコンテンツ

- target_scores: 正解

- has_image: テスト問題に画像が含まれているかどうか

物理学 GRE では、正解ごとに 1 ポイントが得られ、不正解ごとに 0.25 ポイントが減点されます。評価では画像が含まれていない質問のみが考慮されることに注意してください。

合計スコアを計算するときは、次の式が用いられます: Raw_Score = Percentage_Correct - 0.25 * (1 - Percentage_Correct)

<<: Groq LPU の謎を解明: 世界最速のハードウェアアクセラレータの基礎となるアーキテクチャ設計!

>>: 世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

ブログ

Alibaba iDSTのビジュアルコンピューティング責任者、Hua Xiansheng氏：アルゴリズムの利点は消えつつある

たった今、OpenAI のライバルが Inflection-2.5 をリリースしました!パフォーマンスはGPT-4に匹敵しますが、計算量はわずか40％です。高感情知能アプリケーションPiは、1日あたり100万人のアクティブユーザーを突破しました。

誰もが使えるAIを作る

毎日数百万人のアクティブユーザー、非常に高いユーザー定着率

計算労力は40%のみで、GPT-4と同等である。

MT-Benchの問題の修正

物理GREの実際の質問

Alibaba iDSTのビジュアルコンピューティング責任者、Hua Xiansheng氏：アルゴリズムの利点は消えつつある

ChatGPTにはファイル分析や自動検索などの新機能がある。スタートアップ企業の製品は置き換えられるのだろうか？

ロボット兵士はもはやSFではない

ディープラーニングを実践するための7つのステップ

AI 開発者の高額給与は魅力的すぎるでしょうか?国内の開発者がAIに変革するためのガイドをぜひご利用ください

軍用殺人ロボットは人類の救世主か悪魔か？

人工知能教育の現状と動向

携帯電話の AI 技術を使って撮影した写真は、本当に一眼レフカメラで撮影した写真に匹敵するのでしょうか?

推薦する

AIは人間に取って代わるでしょうか？シリコンバレーの大物が人工知能の将来の発展の傾向を解説

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

この国産トランスフォーマーは自動変形、音声制御、プログラミングが可能。外国人は狂ったように気に入っている

製造業における AI: 2023 年に知っておくべき 4 つのユースケース

2020 年の機械学習向け Python ライブラリトップ 6!

Transformerのトレーニング問題を解決するために、Microsoft Researchは1000層のTransformerを開発しました。

合成データは AI をより良くすることができるでしょうか?

AI技術は製薬業界でますます重要な役割を果たしている

武有雄が人工知能について語る

アリババが世界初のAI中国語フォント「Ali Hanyi Intelligent Bold」を開発