HuaweiがTransformerアーキテクチャを改良！ Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

Huawei Pangu シリーズが建築に革新をもたらします!

Quantum位は、Huawei Noah's Ark Laboratoryと他の企業が共同で新しい大規模言語モデルアーキテクチャ「 Pangu-π」を立ち上げたことを知りました。

非線形性を強化することで従来の Transformer アーキテクチャを改善し、機能の崩壊の問題を大幅に軽減できます。

直接的な効果は、モデル出力の表現力が強くなることです。

同じデータでトレーニングした場合、Pangu-π（7B）は、複数のタスクでLLaMA 2などの同じサイズの大規模モデルよりも優れており、 10％の推論加速を達成できます。

10 億スケールでSOTAを達成します。

同時に、このフレームワークに基づいて大規模な金融法務モデル「雲山」が開発されました。

この研究はAI専門家のタオ・ダチェン氏が主導した。

具体的にどうやって達成するのでしょうか?一緒に見ましょう。

非線形性を利用して特徴の崩壊を解決する

現在、最も一般的な大規模モデルは、GPT、LLaMA などの Transformer アーキテクチャを使用しています。

そのコアコンポーネントには、マルチヘッド自己注意メカニズム (MSA) とフィードフォワードネットワーク (FFN) が含まれます。

MSA の主な機能は、入力シーケンス内の各トークンと他のすべてのトークンとの相関関係を計算することです。入力シーケンス内の依存関係を学習することで、言語を理解する能力を高めることができます。 FFN は主に入力に対して非線形変換を実行し、モデルの表現力を高めて、より複雑な関数を近似できるようにします。

しかし、Huawei Noah's Ark Laboratory は、特徴の崩壊が Transformer アーキテクチャのパフォーマンスに影響を与え、表現力を低下させ、モデルが異なる入力を区別することを困難にすることを発見しました。

LLaMA を例にとると、より深いニューラルネットワークでは、特徴レベルが大幅に削減され、すべてのトークン間の類似性が高まります。

メカニズムの観点から見ると、自己注意モジュールは完全なグラフ上の情報集約と見なすことができます。注意の複数の層を連続的に積み重ねることは、連続的な多層グラフ畳み込みのようなもので、過剰な特徴平滑化効果を生み出します。

一方、多層パーセプトロン (MLP) の活性化関数によって提供される非線形性は十分ではなく、特徴の崩壊を抑制する効果は限られています。

そこで研究チームは、モデルの非線形表現能力を向上させ、特徴の崩壊を回避したいと考え、本研究でPangu-πを提案しました。

以下は Pangu-π の構造の概略図です。

FFN に直列アクティベーション関数を追加し、MSA に拡張ショートカット接続 (Aug-S) を統合すると、Transformer アーキテクチャにさらに効果的に非線形性を導入できます。

Augmented Quick Connection (Aug-S) を使用する MSA は、各トークンの機能を異なる表現に変換できます。

研究チームはこの新しいアーキテクチャに基づいて、大規模なトレーニングと微調整を通じてPangu-π ベースモデルを開発しました。

実験結果によると、このモデルは複数のタスクにおいて同じスケールの他のモデルよりも優れていることが示されています (それぞれ 7B スケールと 1B スケールがテストされました)。

さらに、Pangu-π-7Bは約10％の推論加速を達成できます。

同時に、チームはこれを基に金融法分野の大型モデル「雲山」も開発し、これも複数のベンチマークで他のモデルを上回りました。

責任著者はタオ・ダチェンです。

この研究のチーム構成も非常に印象的であることは注目に値します。

責任著者はTao Dachengです。

彼は欧州科学アカデミーの外国人会員であり、オーストラリア科学アカデミーのフェローでもある。彼は中国科学技術大学で学部を学び、香港中文大学MMLabを卒業し、唐暁に師事したと言われています。

2007年に博士号を取得後、香港理工大学、シンガポールの南洋理工大学、シドニー工科大学、オーストラリアのシドニー大学で教鞭を執りました。彼は現在、清華大学インテリジェント産業研究所の AIR チームの著名な客員教授です。

同時に、UBTECHとJD.comにも相次いで入社。JD.comの最高レベルのAI科学者であり、JD.com探索研究所の所長を務めた。

一人は王雲和。

彼は2012年ノアの箱舟研究所の上級研究員であり、現在はアルゴリズム応用部門の部門長を務めています。

王雲和氏は、効率的な AI アルゴリズムの革新的な研究開発と、その Huawei のビジネスへの応用を担当しています。彼と彼のチームは効率的な AI アルゴリズムを開発し、その派生アプリケーションは中国の FAST 観測作業で使用され、中国科学院国立天文台の専門家が数百の新しい高速電波バーストのサンプルを発見するのに役立ちました。

論文アドレス: http://arxiv.org/abs/2312.17276

<<: 「スラムダンク」は、ヒューマノイドロボットをシミュレートし、人間のバスケットボールの動きを1対1でコピーします。特定のタスクに対する報酬を必要とせず、一度見るだけで習得できます。

>>: