パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

最近、InflectionAI は新しい AI モデルをリリースしました。

さらに衝撃的なのは、InfectionAI によるこのモデルの評価です。そのパフォーマンスは、Google と Meta が開発した 2 つのモデルを上回り、OpenAI の GPT-4 に次ぐものです。

InflectionAI がこのような大胆な発言をできるのは、どのようなパフォーマンスによるのでしょうか?

具体的なモデル性能を紹介する前に、まずはその基本情報を見てみましょう。

Inflection-2と呼ばれるこのAIモデルは、多くの標準ベンチマークにおいてGoogleが5月にリリースしたPaLM Large 2モデルを上回り、また、さまざまなプロジェクトにおいてMetaのLLaMA-2を上回りました。

写真

この観点から見ると、InflectionAI は確かにこの自信を持つことができます。

同社関係者によると、全体的に見て、Inflection の新モデルは同種のモデルの中で最も性能が高く、OpenAI がリリースしたフラッグシップ モデル GPT-4 に次ぐ性能であると言える。GPT-4 は、周知のとおり、はるかに大規模である。

「我々は、次なる技術進歩の始まりに立ったばかりだと考えています」と、InflectionAIのCEO、ムスタファ・スレイマン氏はインタビューで語った。「AIモデルが実証したパフォーマンスと、これから登場する新機能は本当に衝撃的です。」

Pi に統合しますか?

新モデルの発売に加えて、もう一つ重要な情報があります。

同社によれば、新たにリリースされたモデルは、5月にリリースされたInflectionのチャットボット「Pi」に近々統合される予定だという。

スレイマンCEOはまた、まずモデルの統合にはまだ「調整」という追加作業が必要だと述べた。技術者はPiの口調や応答スタイルをモデルに教え、Piが新たな錯覚を起こさずに最新情報を吸収する際により良く機能するように支援する。

「人種、性別、政治、競合する OpenAI、あるいは今議論を呼んでいる問題について、少しデリケートな会話をしたい場合でも、Pi は非常にスマートかつ慎重にあなたとコミュニケーションを取り、インターネットからリアルタイムで情報を取得します。Pi はまもなく新しいモードを更新します。」

写真

長くは続かない、とスレイマンは言った。しかし、具体的な発売日は明らかにされなかった。

同時に、彼はチャットボットPiの最新のユーザー数を明らかにすることには消極的だったが、Piは非常に人気があり、ユーザーの維持率もかなり高いと語った。

ご存知のとおり、2週間前、OpenAIは、無料のChatGPTサービスの週間ユーザー数が1億人に達したことを発表した。

もちろん、その後は OpenAI の役員会でおなじみの内紛が続き、CEO のサム・アルトマン氏が突然、一時的に解任されました (もちろん、現在は復帰しています)。

しかし、Piのリリース後、InflectionAIのユーザー数も大幅に増加すると予想されます。結局のところ、Inflection がリリースした大規模言語モデルは、現在世界で 2 番目に強力な LLM だと言われています。

LLM業界と比較すると、Inflection-2のリリースにより状況は引き続き不安定な状態が続くでしょう。

さらに、CEOのスレイマン氏は、Inflection AIは今年初めに13億ドルの資金調達ラウンドを実施したばかりだが、この多額の資金調達によってInflection-2のリリースが早まることはなかったと述べた。

しかし、世論の現場ではいくつかの声が聞かれており、InflectionAIは年末に新しいモデルをリリースする予定です。しかし、スレイマン氏は、モデルのトレーニングは完了しており、まだフォローアップ作業が残っているため、リリース時期が遅れていると述べた。

パフォーマンスは他のモデルよりも優れており、GPT-4に劣るだけです。

Inflection-2 をトレーニングするために、Inflection AI は 5,000 個の Nvidia H100 グラフィック プロセッサ (GPU) を使用しました。Inflection-2 の前身モデルは、数千個の比較的古い A100 グラフィック プロセッサを使用してトレーニングされたことに注意してください。

Suleyman 氏は、新しいモデルはトレーニングがより高速かつ安価になったが、それでも依然として大量の計算 (10 の 25 乗 FLOP) を処理できると述べた。

InflectionAI は、Microsoft、Nvidia、CoreWeave とも緊密に連携して、大規模なコンピューティング クラスターを管理しています。

Inflection は、プロフェッショナルレベルのタスクの一般的なベンチマーク (MMLU) で新しいモデルのパフォーマンスをテストしました。このベンチマークでは、さまざまな種類の世界知識から問題解決や倫理に至るまで、57 のトピックに関するさまざまな質問をモデルに尋ねます。

下の図は、Inflection-1(新しいモデルの前身)、Inflection-2、Google の PaLM 2 のパフォーマンス比較を示しています。

写真

Inflection-2 が、HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K、ARC-C を含む 6 つのベンチマークでリードしていることがわかります。

スレイマン氏は、Inflection-2の性能は、LLaMA 2の最大の700億パラメータバージョン、Musk xAIのGrok-1、GoogleのPaLM 2 Large、AnthropicのClaude 2を上回り、その性能はGPT-4に次ぐものだと述べた。

報告書によると、新しいモデルは、7 つの科学的質問応答ベンチマークのうち 2 つを除くすべてで LLaMA 2 および PaLM 2 モデルに勝った。また、3 つの質問応答タスク ベンチマークのうち 2 つで最高のパフォーマンスを発揮したが、1 つのテストで PaLM 2 Large に敗れた。

また、4 つの数学およびコーディングのベンチマークでも優れたパフォーマンスを発揮しましたが、これらの領域は以前のテストほど重要ではありません。

しかし、OpenAIが結果を共有した2つのベンチマークでは、GPT-4に大きく遅れをとっています。

スレイマン氏はさらに、これらのベンチマークは AI 研究者や開発者以外の一般人にとってはそれほど重要ではないかもしれないが、小さな改善が、扱いにくいプロトタイプと、製品レベルの信頼性の高い高品質のモデルの違いを生む可能性があると述べた。

全体的に見ると、Inflection-2 はおそらく同種のものの中で最大であり、GPT-4 に非常に近いと Suleyman 氏は考えています。

これらのアクションから、InflectionAI が新しいモデルにどれほど満足しているかもわかります。同社の計画によれば、今後、Inflection はトレーニングの重点を次のモデルに移す予定だ。

関係者は、次のモデル(大胆に推測するとInflection-3)は6か月以内に先ほど説明した新しいモデルの10倍の性能になり、さらに6か月以内に前世代モデルの10倍の性能になると予測しています。

一言で言えば、InflectionAI のスタッフは、12 か月以内にモデルの規模を 100 倍に拡大できると確信しています。

パーソナルアシスタント「Pi」

よく知らない人のために、ここでInflectionAIのパーソナルアシスタント「Pi」についてお話ししましょう。

スレイマンCEOの考えでは、これらすべては非常に一貫していると言えます。

彼はかつて「The Coming Wave」という本を執筆しました。この本の核となる考えは、将来AIが人間を心理的問題から完全に遠ざけることができるというものです。

スレイマンがそのような結論を下した理由は、彼自身の経験に関係しているのかもしれない。

彼は1984年にシリア人の父親とイギリス人の母親のもとに北ロンドンで生まれた。彼は貧困の中で育ち、16歳のとき両親が離婚して二人とも移住し、彼と弟は自活することになった。

彼は後にオックスフォード大学に入学し、哲学と神学を学ぶことになったが、1年後に中退した。

この人生経験により、スレイマンは人間の精神的健康に特別な注意を払うようになりました。もちろん、この部分と新興の新技術の組み合わせは不可欠です。

彼の発言は決して空想ではありません。彼が設立したInflection AIの目標は、人生で誰もが遭遇する可能性のあるほぼすべての問題を解決できる万能のパーソナルアシスタントを開発することです。

このパーソナルアシスタントは「Pi」です。

写真

そして、これらすべてには理論的な根拠があります。

実際に心理学では、チャットボットは人間よりも感情認識力が高いという研究結果があります。

このテストは、さまざまなシナリオで人間が示す共感力を採点します。被験者には、葬儀、仕事での成功、侮辱など、20 の感情的な状況の詳細な説明が与えられ、その状況で感じるであろう感情を説明するよう求められました。

感情の説明が詳細で理解しやすいほど、感情認識レベル尺度 (LEAS) のスコアが高くなります。

研究者らは、人間の反応と同じ基準を使用して ChatGPT の反応を評価し、その結果をフランスで 17 歳から 84 歳の人々 (n = 750) を対象に実施された以前の研究と比較しました。

実施された 2 つのテストでは、ChatGPT は 85 と 98 という高いスコアを達成しましたが、人間のパフォーマンスは AI によって完全に圧倒されました。男性は56点、女性は59点だったが、これは合格点にも満たなかった。

写真

多くの研究結果では、AI チャットボットは、他のツールでは提供できない、メンタルヘルスの面で比類のない支援を人間に提供できることが指摘されています。

他の生産性アプリケーションと比較すると、大規模言語モデルは本質的に感情の理解とコミュニケーションに適していると言えます。結局のところ、言語は人間同士の感情を伝える最も重要な媒体です。

さて、スレイマン氏が設立したInflection AIが発表したパーソナルアシスタント「Pi」は、数か月前からオンラインになっており、そのパフォーマンスについては誰もが心の中で結論を出しているかもしれない。

写真

Pi のログイン インターフェースはまだ非常にシンプルであることがわかります。

写真

Pi のチャット ページにアクセスし、左下隅のグリッドをクリックすると、ユーザー向けに公式に用意されたいくつかの一般的なシナリオが表示されます。

各シナリオはカスタマイズされた指示に相当します。選択すると、チャットボットの動作環境が自動的に設定されます。

チャットボットは、各シナリオの開始プロンプトをユーザーに提供します。たとえば、「動機」を選択すると、システムはチャットの開始方法をプロンプトします。

写真

全体として、「Pi」はスレイマンの善意を運んでいます。

新モデルInflection-2が加わることで、「Pi」はもっともっと色々なことを引き起こしてくれると信じています。

もしかしたら、それは本当に心理カウンセリングの役割を果たすことができるかもしれません。

参考文献:

https://www.forbes.com/sites/alexkonrad/2023/11/22/inflection-ai-releases-2nd-model-on-gpt-4-heels/?sh=410d2f366b05

<<:  起業180日で評価額20億ドルを達成! OpenAIの欧州版は人気があり、Llamaの開発者は独自の会社を設立し、Nvidiaが投資している

>>:  量子コンピューティング OpenAI が登場?元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

ブログ    
ブログ    

推薦する

TSN タイムセンシティブネットワークテクノロジーの簡単な分析

産業インテリジェンスの継続的な発展に伴い、産業インターネットは産業インテリジェンス発展のための重要な...

...

私をプログラマーと呼ばないで、私は「AIエンジニア」です、マスク氏:自然言語プログラミングを始めましょう

ChatGPTの出現後、人々は「すべての産業がAIによって再編され、一部の職業は置き換えられ、一部の...

...

Madlib を使用して「機械学習」で KNN を学習する

序文機械学習(ML)は、教師あり学習、教師なし学習、半教師あり学習などに分けられます。 1.1 教師...

AIとMLがコネクテッドデバイスの成長を促進

COVID-19 パンデミックをきっかけに、ビジネス運営における自動化、リモート監視、制御の必要性が...

...

...

...

ニューラルスタイル転送アルゴリズムで絵を描くことを学習する人間は、芸術分野で人工知能に負けるのでしょうか?

人工知能はますます多用途になり、すでに私たちの仕事のすべてを人工知能が引き継ぐことができるようです。...

人工知能の世界を探る: インテリジェントな質問応答システムの構築 - 環境

導入前回の記事では、プロジェクトに必要な知識のポイントについて簡単に説明しました。今日は、プロジェク...

小売業界におけるRPA活用事例11選

世界各国がインダストリー4.0の時代を迎える中、多くの業界団体がプロセス自動化の重要性を認識し始め、...

人工知能の知られざる歴史: 目に見えない女性プログラマーたち

この 6 部構成のシリーズでは、AI の人類史を探り、革新者、思想家、労働者、さらには小規模なトレー...

ホワイトペーパー「マシンビジョンセキュリティカメラの画質評価手法に関する調査レポート」を公開

近年、マシンビジョンの成熟度が増すにつれ、マシンビジョン評価やイメージング能力評価が徐々に導入されて...

人工知能、機械学習、ディープラーニングをどのように区別するのでしょうか?

この記事は、LDV Partners のパートナーであるシリコンバレーの投資家レイク・ダイ氏によるも...