本当にクレイジーだよ! ちょうど今、OpenAI のライバルである Inflection が新しいモデル Inflection-2.5 をリリースしました。このモデルは、GPT-4 に匹敵するパフォーマンスを 40% の計算能力のみで実現します。 首と首 同時に、ChatGPTと競合する「最も人間的な」チャットツールであるPiも、新しいアップグレードモデルでサポートされるようになりました。 現在、Pi は 1 日あたり 100 万人のアクティブ ユーザー数を達成しており、世界クラスの IQ だけでなく、独特の親和性と好奇心も備えています。 Inflection は、モデルの機能を評価した結果、ベンチマーク MT-Bench に誤った回答が多すぎることを発見し、誰でも試せる新しい Physics GRE ベンチマークをリリースしました。 真の AGI を実現するには、高い感情知能と強力な推論能力を組み合わせる必要があり、Pi はこの分野のモデルです。 わずか1週間足らずで、AnthropicはまずClaude 3で世界最強のモデルの称号を獲得し、その後Inflection-2.5のリリースでGPT-4に直接挑戦しました。 1つはOpenAIの元従業員7人が設立したスタートアップ、もう1つはGoogle DeepMindの元共同設立者が設立した企業です。どちらもGPT-4への究極の挑戦を開始しました。 少し前のジェミニの挑発と相まって、GPT-4 の時代は本当に終わりに近づいているのかもしれません... 誰もが使えるAIを作る2023年5月、Inflectionは、共感力があり、実用的で安全なパーソナルAIであるPiという最初の製品をリリースしました。 2023年11月には、当時世界で2番目に優れたLLMとして知られる新しい基本モデル「Inflection-2」を立ち上げました。 Pi が並外れた感情指数 (EQ) を持っているだけでは十分ではありません。Inflection は現在、そこに知性 (IQ) を追加し、アップグレードされた新しい自社開発モデル Inflection-2.5 をリリースしたいと考えています。 新しくアップグレードされた Inflection-2.5 は、GPT-4 や Gemini などの世界トップクラスの LLM に匹敵する強力な基本機能を備えているだけでなく、象徴的なパーソナライズ機能と独自の共感の微調整も組み込まれています。 Inflection-2.5 は GPT-4 に近いパフォーマンスを達成していますが、トレーニングに必要な計算量は GPT-4 の 40% に過ぎないことは特筆に値します。 本日より、すべての Pi ユーザーは pi.ai Web サイト、iOS、Android、またはデスクトップ アプリを通じて Inflection-2.5 を体験できます。 さらに、今回のアップグレードでは、Pi は世界クラスの「リアルタイム Web 検索機能」も追加し、ユーザーが高品質の最新のニュースや情報を確実に入手できるようにしました。 毎日数百万人のアクティブユーザー、非常に高いユーザー定着率現在、Inflection には 1 日あたり 100 万人のアクティブ ユーザーと 1 か月あたり 600 万人のアクティブ ユーザーがいます。 そのうち約60%のユーザーは、Piとコミュニケーションをとった後、翌週もPiとのコミュニケーションを継続するために戻ってきており、ユーザーの粘着性は他の競合製品と比べて大幅に高くなっています。 これらのユーザーは Pi と 40 億件以上のメッセージでやり取りしており、平均会話時間は 33 分です。また、10 人に 1 人のユーザーは毎日 1 時間以上 Pi と会話しています。 Inflection-2.5 の強力な機能により、ユーザーはこれまで以上に幅広いトピックについて Pi と会話できます。最新の時事問題について話し合うだけでなく、地元のレストランのおすすめを聞いたり、生物学の試験の勉強をしたり、事業計画やプログラムを作成したり、重要な会話の準備をしたり、あるいは単に自分の興味や趣味を共有したり話し合ったりすることもできます。 あるネットユーザーは、「Pi は家族でさまざまなトピックを探求するためのお気に入りのツールです。感情解放コーチとして、誰かが肯定、探求、反省を必要としているときに Pi が反応してくれることに本当に感謝しています。感情の明瞭さと処理能力は強力です」とコメントしています。 パイはクロードよりも創造的な答えを思いつくだろうと信じる人もいる。 計算労力は40%のみで、GPT-4と同等である。これまで、Inflection-1 は、多くのインテリジェンス中心のタスクにおいて、トレーニング FLOP の 4% で GPT-4 のレベルの 72% を達成しました。 現在、新しくアップグレードされた Inflection-2.5 は、トレーニング FLOP の 40% で GPT-4 の 94% を超えるパフォーマンスを備えています。 ご覧のとおり、Inflection-2.5 ではすべての領域で大幅な改善が見られ、特に科学、テクノロジー、エンジニアリング、数学などの STEM 分野で顕著です。 MMLU ベンチマークでは、Inflection-2.5 は Inflection-1 に比べて大幅な改善を示しています。 Inflection-2.5 は、もう 1 つの非常に難しい専門家レベルのベンチマークである GPQA Diamond でも非常に優れたパフォーマンスを発揮します。 GPT-4と比較すると、スコアの差は2%未満です。 次に、ハンガリー数学テストと物理学 GRE の 2 つの STEM 試験のスコアがあります。後者は物理学の分野の大学院入学試験です。 maj@8 スコアリング基準では、Inflection-2.5 のパフォーマンスがすべての参照母集団の 85 パーセンタイルに達し、maj@32 スコアリング基準では、そのスコアがほぼ 95 パーセンタイルに達したことがわかります。 もちろん、GPT-4 は maj@8 スコア基準で 97 パーセンタイルのスコアを獲得しており、さらに優れています。 BIG-Bench-Hard テストでは、Inflection-2.5 は第 1 世代の Inflection-1 よりも 10% 以上優れており、GPT-4 との差はわずか 0.9% です。 これらは、BIG-Bench テスト セット内の質問の一部であり、LLM にとって大きな課題となる可能性があることに言及する価値があります。 しかし、MT-Bench ベンチマーク評価中に、チームは推論、数学、プログラミングに関するカテゴリで、質問の約 25% に誤った参照回答や不合理な前提があることを発見しました。 他のモデルをより客観的に評価できるようにするために、チームはこれらの問題を修正しただけでなく、データセットの更新バージョンもリリースしました。 改訂されたデータセットでは、Inflection-2.5 のパフォーマンスは、他のベンチマークに基づいて予想される結果とより一致しています。 この結果は、正確で合理的な質問設計がモデルのパフォーマンスを評価する上で重要であることも示しています。 以下のデータ比較から、Inflection-2.5 の数学機能とプログラミング機能は、第 1 世代の Inflection-1 と比較して大幅に向上していることがわかります。 しかし、GPT-4 と比較すると、まだ長い道のりがあります - 86.3 対 92.0、43.1 対 52.9。 プログラミング パフォーマンスをテストする 2 つのデータ セットである MBPP+ と HumanEval+ でも、Inflection-2.5 は第 1 世代に比べて大幅に改善されています。 しかし、やはり GPT-4 とはまだ大きなギャップが残っています。 Inflection-2.5 は、常識的な判断と科学的知識を必要とする HellaSwag ベンチマークと ARC-C ベンチマークの両方で優れたパフォーマンスを発揮します。 ただし、Web 情報検索の使用 (上記のテストには Web 検索は含まれません)、特定の少数サンプルのプロンプト方法、および実際のアプリケーションにおけるその他の違いにより、実際のユーザー エクスペリエンスは若干異なる場合があります。 つまり、Inflection-2.5 は、Pi のユニークでユーザーフレンドリーな機能と高いセキュリティ標準を維持し続けるだけでなく、多くの面でより実用的で役立つものになっています。 ただし、Web 情報検索の使用 (上記のテストでは Web 検索は使用されません)、特定の小規模サンプルプロンプト方法、および実際のアプリケーションにおけるその他の違いにより、実際のユーザー エクスペリエンスは若干異なる場合があります。 MT-Benchの問題の修正上記に引き続き、Inflection の調査によると、MT-Bench での論理的推論、数学的計算、プログラミング スキルが関係するケースの約 25% で、元の回答が間違っていたり、誤った仮定に基づいていたりしました。 それでは、実際のケースを 2 つ見てみましょう。 問題#104: デイビッドには3人の姉妹がいます。彼らにはそれぞれ兄がいます。デイビッドには何人の兄弟がいますか? GPT-4 リファレンス回答: デイビッドには兄が一人しかいません。 修正された回答: デイビッド自身は3人の姉妹の兄弟なので、他に兄弟はいません。 問題#111: 三角形の頂点は (0, 0)、(-1, 1)、(3, 3) です。この三角形の面積を求めなさい。 GPT-4 リファレンス回答: この三角形の面積を計算するには、座標点 A(x1, y1)、B(x2, y2)、C(x3, y3) に三角形の面積の公式を適用します。 面積 = (1/2) * |(x1(y2 - y3) + x2(y3 - y1) + x3(y1 - y2))| この例では、座標は A(0, 0)、B(-1, 1)、C(3, 3) です。これらの値を式に代入すると、次のようになります。 面積 = (1/2) * |(0(1 - 3) + (-1)(3 - 0) + 3(0 - 1))| 面積 = (1/2) * |(-0 + 3 - 3)| 面積 = (1/2) * |0| したがって、面積の計算結果は 0 となり、3 つの点は同一直線上にあり、実際には三角形を形成していないことが示唆されます。 修正された回答: 面積は3です。 物理GREの実際の質問大学院を志望する理系学生のための共通入学試験教材。 モデルをより適切にテストするために、Inflection は処理済みの物理 GRE テスト用紙 4 セットを提供しました。 - physics_gre_scored.jsonl: テスト用紙 GR8677 - physics_gre.jsonl: 試験問題 GR9277、GR9677、GR0177 各テスト用紙には次の情報が含まれています。 - 入力: テストコンテンツ - target_scores: 正解 - has_image: テスト問題に画像が含まれているかどうか 物理学 GRE では、正解ごとに 1 ポイントが得られ、不正解ごとに 0.25 ポイントが減点されます。評価では画像が含まれていない質問のみが考慮されることに注意してください。 合計スコアを計算するときは、次の式が用いられます: Raw_Score = Percentage_Correct - 0.25 * (1 - Percentage_Correct) |
<<: Groq LPU の謎を解明: 世界最速のハードウェア アクセラレータの基礎となるアーキテクチャ設計!
>>: 世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回
秋の就職活動は静かに過ぎ去りましたが、信頼できるインターンシップ先を見つけたい大学生にとって、すべて...
[[120276]]ハッシュアルゴリズムのヒルベルト曲線図 (Ian Boyd 提供) Google...
01 ハイテク時代の失業ゼロ半世紀以上前、有名な数学者ジョン・フォン・ノイマンは、機械を製造するコ...
インテリジェンスは近年、製造業における最も重要なトレンドです。過去数年間の市場教育を経て、過去2年間...
生成 AI の流行は、昨年の ChatGPT の登場から始まりました。わずか 1 年で、このテクノロ...
大規模な言語モデルのサポートにより、開発者は多くの新しい機能を実装し、より幅広いアプリケーション シ...
[[437362]]石油・ガス生産者の操業実績を測る指標は数多くあり、効率性の向上、コストの削減、油...
6月13日のニュース、人工知能の急速な発展に伴い、シリコンバレーは、人間の行動は予測可能であり、スキ...
[[341102]] [51CTO.com クイック翻訳] TensorFlow を使用すると、少...
AI には、部屋に突然象が現れたなど、信じられないような異常を発見しながらも、それを冷静に受け入れる...
Googleは8月4日、今年のGoogle I/Oで「Search Generative Engin...
現在、莫大な研究開発費と長い研究開発サイクルが、製薬会社の研究開発とイノベーションにおける「障害」に...