11人が2ヶ月間集中的にトレーニングし、マスク氏がOpenAIを徹底的に攻撃！ xAIの最初の大規模モデルGrokが爆発的に成長、330億のパラメータと月額16ドル

最近では、すべての家族が行動を起こす準備ができています。

OpenAI 開発者会議が近づく中、マスク氏が突然介入し、xAI の最初の製品である Grok を予定より早くリリースしました。

Grok のハイライトの 1 つは、Twitter からリアルタイムで情報を取得できることです。高品質なデータは世界的に希少な資源となっている。昨年、マスク氏はツイッター買収に440億ドルを投じ、半年間混乱を招いた。結局、マスク氏が待ち望んでいたのはこれだったのだ。

Grok は、マスク氏が常に主張してきた xAI の目的、つまり「最大の真実」と「宇宙の本質」を追求する AI、公正な AI を深く体現しています。

ちょうど昨日、xAIの創設メンバーであるToby PohlenがGrokのUIインターフェースをリリースしました——

Grok はマルチタスクを実行でき、複数のセッションを並行して実行し、それらを自由に切り替えることができます。

この間に、会話を分岐させて、Grok の応答をより深く探ることができます。

応答ツリーを使用すると、ブランチ間を切り替えることができます。クリック回数を減らすのに役立つ /commands もいくつかあります。

Grok の返信を Markdown エディターで開き、保存して会話を続けることができます。枝や枝木で機能します。

同時に、生成されたすべてのコードスニペットを VS Code エディターで開くこともできます。

さらに、彼のユーモラスな性格に合わせて、Grok アイコンのイースターエッグをクリックすると、Grok をユーモラスなモードに切り替えることができます。

この点に関して、もう一人の創設者であるグレッグ・ヤン氏は次のように述べています。「これは間違いなく、私がこれまで使用した中で最高のチャットユーザーインターフェイスです。」

現在、待機リストへの申請が殺到したため、Grok のサーバーがクラッシュしました。

6か月前に共同書簡に署名したばかり：スーパーAI研究を6か月間停止

興味深いことに、マスク氏は以前から「AI終末論」の強力な支持者だった。同氏はベンジオ氏、アップルの共同創業者スティーブ・ウォズニアック氏、スタビリティーAIのCEO、マーカス氏らとともに公開書簡に署名し、GPT-4よりも高度なAIの開発を6か月間停止するよう求めていた。

現在、AI大手はAI規制の必要性について白熱した議論を繰り広げているが、マスク氏はこの時点で静かにGrokを訓練し、OpenAI開発者会議の前夜には大きな動きさえも発表した。

みんな暗黙のうちに知っているようです。

もちろん、マスク氏は常に自分を正当化する方法を見つけます。xAIの公式ブログでは次のように説明しています。

私たちは、AI インテリジェンスが社会に重要な科学的価値と経済的価値をもたらす大きな可能性を秘めていると信じており、壊滅的な悪意のある使用を防ぐための信頼性の高い安全策の開発に取り組んでいきます。私たちは、AI が今後も善の力であり続けるよう全力を尽くします。

マスク氏はさらに大胆な発言をした。将来的には、テスラの計算能力のすべてが大規模モデルの推論に使用されるだろう、と。たとえロボットがタクシーを運転するようになったとしても、車が走行するのは依然として毎週の3分の1だけであり、残りの時間の計算能力はSETIなどの分散推論操作に使用されることになる。

このようにして、テスラは地球上で最も優れたモデル推論計算能力を持つことになります。

マスク氏は確かに大きなゲームをしている。

330億のパラメータ、8Kのコンテキスト、Grok-1がChatGPTを圧倒

わずか 4 か月で、多くの反復を経て Grok が誕生しました。創設チームの効率性は驚くほど高いです。

創設者の一人であるグレッグ・ヤン氏は、次のように感動的に語りました。「やる気のある世界クラスの才能ある少数のグループが同じ方向へ向かうとき、彼らが投げる拳は彼ら自身の重さをはるかに超えます。私たちの限界は空と宇宙だけです！電力の1ワットごとにコンピューティングの最適化を最大化しましょう！」

Grok は「直感的で深い理解」を意味し、アメリカの SF 作家ロバート・ハインラインが 1961 年に発表した SF 小説「異星人」の中で作った造語です。

xAI による Grok の公式紹介は次のとおりです。

Grok は『銀河ヒッチハイク・ガイド』をモデルにした AI なので、ほとんどすべての質問に答えることができ、さらに私たちが尋ねるべき質問を提案してくれます。

質問に答えるとき、Grok は時々気の利いた発言をしたり、少し反抗的になったりします。ユーモアが嫌いな人は彼に近づかないでください。

Grok のユニークな利点は、プラットフォーム X (つまり Twitter) を通じて世界で何が起こっているかをリアルタイムで把握できることです。さらに、AI が拒否するような多くのデリケートな質問を拒否することもありません。

現時点では、Grok はまだ初期のベータ製品であり、これは 2 か月のトレーニングを経て得られる最高のものです。そのため、xAI はユーザーの協力を得て毎週急速に改善していきたいと考えています。

彼の口調は皮肉っぽく、数文ごとに冗談を言います。どうやらグロクにはユーモアのセンスがあるようです。

ああ、私の愛しい人よ、あなたに良い知らせがある！私たちの友人サム・バンクマン・フリードはすべての容疑で有罪判決を受けました。信じられますか？世界で最も賢く、最も優秀なベンチャーキャピタリストが何年も解明できなかった事実を陪審員が解明するのに、わずか8時間しかかからなかった。つまり、彼はコモンロー上の詐欺を犯していたのだ。大変な旅でしたね。

2か月、Grok-1を訓練

Grok のコアエンジンは Grok-1 です。

これは開発に 4 か月かかり、複数回の反復とアップグレードを経た大規模なモデルです。

グロクのトレーニング期間はわずか2か月だったとされています。

xAIの設立を発表した後、研究チームはまず330億のパラメータを持つプロトタイプの大規模モデル、Grok-0をトレーニングしました。

初期モデル Grok-0 は、標準 LM ベンチマークで LLaMA 2 (70B) に近いパフォーマンスを実現しますが、トレーニングリソースは半分しか使用しません。

過去 2 か月間で、xAI 大規模モデルは推論とエンコードにおいて大幅な改善を遂げ、Grok-1 に反復されました。

同様に、Grok-1 は、コンテキスト長が 8192 の Grok-0 モデルに基づいて微調整された、Transformer ベースの自己回帰モデルです。

トレーニングデータはインターネット（2023年第3四半期時点）およびAIチューターから提供されるデータから取得されます。

大幅に改良された Grok-1 は、HumanEval エンコーディングタスクで 63.2%、MMLU で 73% に達し、新しい SOTA 記録を樹立しました。

以下は、数学的および推論的能力を測定する標準的な機械学習ベンチマークに基づいて、xAI 研究チームが Grok-1 に対して実施した一連の評価です。

- GSM8k: 思考連鎖プロンプトを使用した中学校の数学の文章題。

- MMLU: 5 つのコンテキスト例が提供される、複数科目の多肢選択問題。

- HumanEval: ゼロショットの pass@1 評価を使用した、タスク完了用の Python コード。

- 数学: LaTeX で書かれた中学・高校向けの数学の問題。プロンプトとして固定の 4 次例題が示されています。

これらのベンチマークでは、Grok-1 は ChatGPT-3.5 や Inflection-1 などのモデルを上回る強力な機能を発揮します。

実際、大量のトレーニングデータとコンピューティングリソースを使用してトレーニングされた GPT-4 のようなモデルだけが Grok-1 を上回ることができます。

これは、研究者が xAI プロジェクトで LLM を非常に効率的にトレーニングするという急速な進歩を遂げていることを示しています。

さらに、先ほど述べた数学的ベンチマークでは、モデルがネットワーク経由でアクセスされる可能性があるため、結果が影響を受ける可能性があります。

より公平な評価を行うために、研究者らは「2023年ハンガリー全国高校数学期末試験」データセットを手動で収集し、Grok-1、Claude-2、GPT-4の機能をテストしました。

結果によると、Grok は C (59%) で試験に合格し、Claude-2 は同じ成績の C (55%) を取得し、GPT-4 は 68% のスコアで B を取得しました。

すべてのモデルは、温度 0.1 と同じプロンプトで評価されます。研究者らがこの評価に何の調整も加えなかったことに注意することが重要です。

このようにして、実際の状況におけるモデルの能力をより適切に反映し、最適化を行わずに新しいデータに対するモデルの一般化能力を評価することができます。

以下に、研究者らは Grok-1 の重要な技術的詳細をモデルカードにまとめています。

制限事項としては、Grok-1 にはネットワークを独立して検索する機能がありません。 Grok に導入すると、検索ツールとデータベースによってモデルのパワーとリアリティが向上します。外部の情報源にアクセスできるにもかかわらず、モデルは依然として幻覚を生み出します。

xAIエンジニアリング: PythonではなくRustです

ディープラーニング研究の最前線では、データセットや学習アルゴリズムと同様に、信頼性の高いインフラストラクチャが重要です。

Grok を作成するために、xAI は Kubernetes、Rust、JAX に基づくカスタムトレーニングおよび推論スタックを構築しました。

大規模な言語モデルのトレーニングは、フルスピードで走行する貨物列車のようなものです。1 両の車両が脱線すると、列車全体が線路から外れ、方向を再び修正することが困難になります。

GPU が故障する原因は、製造上の欠陥、接続不良、構成エラー、メモリチップの劣化、偶発的なランダムビット反転など、多岐にわたります。

トレーニング中、xAI は数万の GPU 間で数か月にわたって同期計算を実行しますが、その規模が巨大であるため、このような障害が頻繁に発生します。

これらの課題を克服するために、彼らはカスタムの「分散システム」を採用し、各タイプの障害が即座に識別され、自動的に処理されるようにしました。

xAI では、研究者はワットあたりの計算効率を最大化することに重点を置いています。

過去数か月間、このインフラストラクチャにより、チームはダウンタイムを最小限に抑え、ハードウェアが信頼できないときでも高いモデルコンピューティング使用率 (MFU) を維持できるようになりました。

現在、Rust は、スケーラブルで信頼性が高く、保守可能なインフラストラクチャを構築するための理想的な選択肢であることが証明されています。高いパフォーマンス、豊富なエコシステムを提供し、分散システムにおけるほとんどのエラーを防止します。

xAI のような小規模なチームにとって、インフラストラクチャの信頼性は非常に重要です。そうでないと、メンテナンスによってイノベーションが妨げられてしまいます。

Rust を使用すると、コードの変更とリファクタリングの信頼性が向上し、作成されたプログラムは、ほとんど監視なしで数か月間安定して実行できます。

xAI チームは、「私たちはモデル機能の次の飛躍に向けて準備を進めています。そのためには、数万のアクセラレータ上でのトレーニング実行の確実な調整、インターネット規模のデータパイプラインの実行、Grok での新機能とツールの構築が必要になります」と述べています。

ここで、xAI はチーム募集の宣伝を行いました。

技術的な要件としては、プログラマーには以下の能力が求められます。

さび

すべての xAI バックエンドサービスとすべてのデータ処理は Rust で実装されているためです。チームは Rust 言語の熱心な支持者でもあり、効率的で安全かつスケーラブルなアプリケーションには Rust 言語が最適な選択肢であると考えています。また、Python との相互運用性も容易に実現します。

JAX と XLA

xAI モデルのニューラルネットワークは JAX で実装されており、xAI には効率化を図るためのカスタム XLA 操作が多数用意されています。

Triton と CUDA

コンピューティングリソースを最大限に活用するには、計算効率を最大化しながら大規模なニューラルネットワークを実行することが重要です。そのため、xAI は定期的に Triton または生の C++ CUDA でカスタムカーネルを作成します。

TypeScript、React、Angular

xAI フロントエンドコードは、React または Angular を使用して完全に TypeScript で記述されており、バックエンド通信は gRPC-web API を介して型安全です。

この採用要件に関して、業界関係者は次のように結論付けています。

MFU が高い単一の GPU は、生産性の高い人を表します。MFU が高い単一のノードは、生産性の高い小規模チームを表します。MFU が高い数千の GPU のクラスターは、生産性の高い会社を表します。

現在、1 人あたりの有用な出力を拡張する難しさは 1 人から 10 万人に増加しており、xAI は 10 倍のエンジニアを求めています...

xAIの研究の方向性

Grok は、他の LLM と同様に検索ツールやリアルタイム情報にアクセスできますが、それでも大規模モデルに共通する問題である錯覚問題から免れることはできません。

xAI は、現在のシステムの限界に対処するための最も重要な方向性は、信頼できる推論を実現することであると考えています。

xAI の見解では、最も有望な研究方向として次のものが挙げられます。

ツール支援によるスケーラブルな監視

特に長いコードや複雑な推論を扱う場合、Grok が一貫性のある正確なフィードバックを提供することは難しい場合があります。

この場合、AI は、さまざまなソースからの参照を見つけたり、外部ツールを使用して中間ステップを検証したり、人間からのフィードバックを求めたりすることで、スケーラブルな監視を支援するために使用できます。

安全性、信頼性、および接地性を確保するための統合形式検証

xAI は、より正確で検証可能な方法で AI の推論スキルを開発することを目指しています。これにより、人間からのフィードバックや現実世界でのやり取りなしにシステムを評価できるようになります。

この方法を使用する最も直接的な目的は、コードの正確性を確保すること、特に AI のセキュリティを正式に検証することです。

長い文脈の理解と検索

特定の環境において有用な知識を効果的に発見できるモデルは、真にインテリジェントなシステムを生成するための中核となります。 xAI は、AI が必要なときに情報を検出して取得できるようにする方法に取り組んでいます。

敵対的耐性

AI システムの脆弱性により、トレーニング中または使用中に重大なミスが発生する例は数多くあります。これらの脆弱性は、ディープラーニングモデルの長年の弱点です。

xAI は、LLM、報酬モデル、監視システムの堅牢性を向上させることを目指しています。

マルチモーダル機能

現在、Grok には視覚機能と聴覚機能は搭載されていません。xAI は、より幅広い用途の実現に向けて、マルチモーダル機能の開発に注力していきます。

<<: Google DeepMind が証明: GPT-4 の最終結果は人類の知恵の集大成です! Transformerモデルはトレーニングデータを超えて一般化できない

>>: 宇宙の果ては「計算」だ！ AI界の大物ウルフラム氏の最新スピーチ：LLMはコンピューティング空間を自律的に探索、シンギュラリティは今や到来

11人が2ヶ月間集中的にトレーニングし、マスク氏がOpenAIを徹底的に攻撃！ xAIの最初の大規模モデルGrokが爆発的に成長、330億のパラメータと月額16ドル

6か月前に共同書簡に署名したばかり：スーパーAI研究を6か月間停止

330億のパラメータ、8Kのコンテキスト、Grok-1がChatGPTを圧倒

2か月、Grok-1を訓練

xAIエンジニアリング: PythonではなくRustです

xAIの研究の方向性

顔認証の過去と現在の徹底分析

マイクロソフト、Windows 11、Bing、Edge などで統合された Copilot AI アシスタントをリリース

人工知能で最も人気のあるアルゴリズムトップ10をわかりやすく解説

2022年にJAXを使うべきでしょうか？ GitHubには16,000個のスターがあるが、この若いツールは完璧ではない

ジェネレーティブAIがファッション業界にもたらす変化

人工知能は石油・ガス業界で勢いを増している

2020年版ネイチャーインデックス年次リストが発表：中国の研究機関がリストを独占、中国科学院は8年連続で1位

一つの時代が終わった！ Google の「ゴッドファーザー」エリック・シュミット氏が同社を去る。彼はどのようにして Google 帝国を築き上げたのか?

人工知能業界の最新の開発動向を1つの記事で理解する

人工知能医療機器業界は前進する

推薦する

人材情報プラットフォームの変革における人工知能の役割

AI機能をエッジに拡張する方法: ストレージが基盤となる

AIが人間の職業を「置き換える」ためのロードマップ

レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

大規模言語モデルの最大のボトルネックを突破する方法

生成型AIの誇大宣伝の中、CIOは慎重に進めることを選択しているが、まだ完全にコミットしていない

AIテスト：自動運転車のテストに関するケーススタディ

生成型人工知能が経済と社会に与える影響

世界中のもう一人の自分と話すのはどんな感じでしょうか?世界初のAI人間観察者が誕生

テンセントのロボットファミリーに新しいメンバーが加わりました。「新年の挨拶をして紅包をお願いする」ことができるロボット犬を見たことがありますか？

AIファースト戦略に移行する5つの方法

マスク氏の最新チップ：脳とコンピューターの相互作用に特化し、視覚障害者が「見る」ことを可能にする

ChatGPT がデータを取得しました!プログラミング言語ランキングを作る方法はありません！