MoEの大型モデルをゼロから構築するための神レベルのチュートリアルが登場

MoEの大型モデルをゼロから構築するための神レベルのチュートリアルが登場

GPT-4の伝説の「必勝魔法兵器」- MoE(専門家の混合)アーキテクチャ、自分でも作成できます!

Hugging Face には機械学習の専門家がいて、完全な MoE システムをゼロから構築する方法を共有しています。

このプロジェクトは作者によって MakeMoE と呼ばれ、注意の構築から完全な MoE モデルの形成までのプロセスを詳細に説明しています。

作者によると、MakeMoE は OpenAI の創設メンバーである Andrej Karpathy の Makemore に触発され、それをベースに作成されたとのことです。

Makemore は、自然言語処理と機械学習の教育プロジェクトであり、学習者がいくつかの基本モデルを理解して実装できるようにすることを目的としています。

同様に、MakeMoE は、学習者が段階的に混合エキスパート モデルを構築する過程で、混合エキスパート モデルをより深く理解できるようにも支援します。

では、この「手指消毒ガイド」では具体的に何について説明しているのでしょうか?

MoEモデルをゼロから構築する

Karpathy の makemore と比較すると、MakeMoE は孤立したフィードフォワード ニューラル ネットワークを専門家のまばらな混合に置き換え、必要なゲーティング ロジックを追加します。

同時に、プロセスでは ReLU 活性化関数が必要になるため、makemore のデフォルトの初期化方法は Kaiming He メソッドに置き換えられます。

MoE モデルを作成するには、まず自己注意メカニズムを理解する必要があります。

モデルはまず、線形変換によって入力シーケンスをクエリ (Q)、キー (K)、値 (V) で表されるパラメータに変換します。

これらのパラメータは、各トークンを生成するときにモデルがシーケンス内の各位置にどの程度重点を置くべきかを決定する注目度スコアを計算するために使用されます。

テキスト生成時のモデルの自己回帰性を保証するために、つまり、すでに生成されたトークンのみに基づいて次のトークンを予測するために、著者はマルチヘッド因果自己注意メカニズムを使用しました。

このメカニズムは、未処理の位置の注目スコアをマスクを介して負の無限大に設定することで実装され、これらの位置の重みはゼロになります。

マルチヘッド因果関係により、モデルは複数の注意計算を並行して実行でき、各ヘッドはシーケンスの異なる部分に焦点を当てます。

自己注意メカニズムの構成が完了したら、エキスパート モジュールを作成できます。ここでの「エキスパート モジュール」は、多層パーセプトロンです。

各エキスパート モジュールは、埋め込みベクトルをより大きな次元にマッピングし、それを非線形アクティベーション関数 (ReLU など) に渡し、別の線形レイヤーに渡してベクトルを元の埋め込み次元にマッピングし直す線形レイヤーで構成されています。

この設計により、各エキスパートは入力シーケンスの異なる部分の処理に集中できるようになり、各トークンを生成するときにどのエキスパートをアクティブにするかを決定するためにゲーティング ネットワークが使用されます。

したがって、次のステップは、エキスパートを割り当てて管理するコンポーネント、つまりゲーティング ネットワークを構築することです。

ここでのゲーティング ネットワークも線形レイヤーによって実装されており、自己注意レイヤーの出力をエキスパート モジュールの数にマッピングします。

この線形レイヤーの出力はスコア ベクトルであり、各スコアは現在処理されているトークンに対する対応するエキスパート モジュールの重要度を表します。

ゲーティング ネットワークは、このスコア ベクトルの上位 k 個の値を計算し、そのインデックスを記録してから、上位 k 個の最大スコアを選択して、対応するエキスパート モジュールの出力に重み付けします。

トレーニング中にモデルの探索的性質を高めるために、著者らは、すべてのトークンが同じ専門家によって処理されるのを防ぐためのノイズも導入しました。

このノイズは通常、スコア ベクトルにランダムなガウス ノイズを追加することによって実装されます。

結果を取得した後、モデルは、対応するトークンの上位 k 人の専門家の出力と上位 k 人の値を選択的に乗算し、それらを合計して加重合計を形成し、これがモデルの出力を構成します。

最後に、これらのモジュールを組み合わせると、MoE モデルが得られます。

上記のプロセス全体について、著者は対応するコードを提供しており、詳細については元のテキストで確認できます。

さらに、著者は各モジュールを学習しながら直接実行できるエンドツーエンドの Jupyter ノートブックも作成しました。

興味があれば、今すぐ学習を始めましょう!

オリジナルリンク: https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch
ノートバージョン (GitHub): https://github.com/AviSoori1x/makeMoE/tree/main

<<:  AI は山ほどのコードも作成します!調査によると、GitHub Copilot のコードは保守性が低く、リファクタリングや既存コードの再利用よりも「無意識の書き換え」を好む傾向があることがわかった。

>>:  AI時代が到来。プロの写真家は淘汰されるのか?

ブログ    

推薦する

中国語からSQLへの自動変換精度92%、このKaggleマスターが世界記録を更新

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

超強力なTP-Link!北京大学と清華大学が共同で一般AI実験クラスを設立、朱松春氏が指導

史上最強の集団が力を合わせてAI開発に挑む?最近、北京大学の公式Weiboアカウントは、北京大学と清...

北京大学光華管理学院 周連:人工知能は中間所得層にどのような影響を与えるのでしょうか?

オピニオンリーダー | 北京大学光華管理学院文:周 連(北京大学光華管理学院副学長)新興技術である人...

機械学習モデルのパフォーマンスを測定する 10 の指標

大規模モデルは非常に強力ですが、実際の問題を解決するには必ずしも大規模モデルに完全に依存する必要はあ...

調査によると、AIはデータ文化に大きな影響を与えている

2023年はGenAIの年ですが、GenAI(生成型人工知能)の採用率は期待に応えていません。ほとん...

人工知能の分野では、すでに世界中で 10 個の画期的な技術が存在します。

[[238191]]人工知能はハイテクで、多岐にわたり、多次元的で、学際的な統合装置であり、ビッグ...

...

IoT機械学習とAIサービスの収益は2026年までに36億ドルに達する

COVID-19 パンデミックにより、増大するデータ量を管理し、そこから洞察を得るための IoT に...

タオ氏の新しい論文:有名な素数予想を部分的に証明、新しい方法は彼の古いモデルを使用する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能を活用してビジネスを拡大するための 5 つの戦略

現時点では、インテリジェント技術の期待とリターンはまだ不明確であり、製品の創造性と投資を強化するため...

...

ポーランドのラム酒製造会社ディクタドールが世界初のAIヒューマノイドCEOを任命

AIによって仕事が奪われるのではないかと心配する人が多い中、ある企業が世界初のAIヒューマノイドロボ...

あなたを飛び立たせる5つの迅速なフレームワークモデル

今日のデジタル化が進む世界では、人工知能は私たちの日常生活に欠かせないものとなっています。特に、プロ...

ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

「注目の式」に8年間存在していたバグが外国人によって発見された?一瞬にして、この話題はインターネット...

GNMT - Google のニューラル ネットワーク翻訳システム

1. はじめに2016年9月、Googleはニューラルネットワークベースの翻訳システム(GNMT)を...