HuaweiがTransformerアーキテクチャを改良! Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

HuaweiがTransformerアーキテクチャを改良! Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

Huawei Pangu シリーズが建築に革新をもたらします!

Quantum位は、Huawei Noah's Ark Laboratoryと他の企業が共同で新しい大規模言語モデルアーキテクチャ「 Pangu-π」を立ち上げたことを知りました。

非線形性を強化することで従来の Transformer アーキテクチャを改善し、機能の崩壊の問題を大幅に軽減できます。

直接的な効果は、モデル出力の表現力が強くなることです。

同じデータでトレーニングした場合、Pangu-π(7B)は、複数のタスクでLLaMA 2などの同じサイズの大規模モデルよりも優れており、 10%の推論加速を達成できます。

10 億スケールでSOTAを達成します。

同時に、このフレームワークに基づいて大規模な金融法務モデル「雲山」が開発されました。

この研究はAI専門家のタオ・ダチェン氏が主導した。

具体的にどうやって達成するのでしょうか?一緒に見ましょう。

非線形性を利用して特徴の崩壊を解決する

現在、最も一般的な大規模モデルは、GPT、LLaMA などの Transformer アーキテクチャを使用しています。

そのコアコンポーネントには、マルチヘッド自己注意メカニズム (MSA) とフィードフォワード ネットワーク (FFN) が含まれます。

MSA の主な機能は、入力シーケンス内の各トークンと他のすべてのトークンとの相関関係を計算することです。入力シーケンス内の依存関係を学習することで、言語を理解する能力を高めることができます。 FFN は主に入力に対して非線形変換を実行し、モデルの表現力を高めて、より複雑な関数を近似できるようにします。

しかし、Huawei Noah's Ark Laboratory は、特徴の崩壊が Transformer アーキテクチャのパフォーマンスに影響を与え、表現力を低下させ、モデルが異なる入力を区別することを困難にすることを発見しました。

LLaMA を例にとると、より深いニューラル ネットワークでは、特徴レベルが大幅に削減され、すべてのトークン間の類似性が高まります。

メカニズムの観点から見ると、自己注意モジュールは完全なグラフ上の情報集約と見なすことができます。注意の複数の層を連続的に積み重ねることは、連続的な多層グラフ畳み込みのようなもので、過剰な特徴平滑化効果を生み出します。

一方、多層パーセプトロン (MLP) の活性化関数によって提供される非線形性は十分ではなく、特徴の崩壊を抑制する効果は限られています。

そこで研究チームは、モデルの非線形表現能力を向上させ、特徴の崩壊を回避したいと考え、本研究でPangu-πを提案しました。

以下は Pangu-π の構造の概略図です。

FFN に直列アクティベーション関数を追加し、MSA に拡張ショートカット接続 (Aug-S) を統合すると、Transformer アーキテクチャにさらに効果的に非線形性を導入できます。

Augmented Quick Connection (Aug-S) を使用する MSA は、各トークンの機能を異なる表現に変換できます。

研究チームはこの新しいアーキテクチャに基づいて、大規模なトレーニングと微調整を通じてPangu-π ベースモデルを開発しました。

実験結果によると、このモデルは複数のタスクにおいて同じスケールの他のモデルよりも優れていることが示されています (それぞれ 7B スケールと 1B スケールがテストされました)。

さらに、Pangu-π-7Bは約10%の推論加速を達成できます。

同時に、チームはこれを基に金融法分野の大型モデル「雲山」も開発し、これも複数のベンチマークで他のモデルを上回りました。


責任著者はタオ・ダチェンです。

この研究のチーム構成も非常に印象的であることは注目に値します。

責任著者はTao Dachengです。

彼は欧州科学アカデミーの外国人会員であり、オーストラリア科学アカデミーのフェローでもある。彼は中国科学技術大学で学部を学び、香港中文大学MMLabを卒業し、唐暁に師事したと言われています。

2007年に博士号を取得後、香港理工大学、シンガポールの南洋理工大学、シドニー工科大学、オーストラリアのシドニー大学で教鞭を執りました。彼は現在、清華大学インテリジェント産業研究所の AIR チームの著名な客員教授です。

同時に、UBTECHとJD.comにも相次いで入社。JD.comの最高レベルのAI科学者であり、JD.com探索研究所の所長を務めた。

一人は王雲和。

彼は2012年ノアの箱舟研究所の上級研究員であり、現在はアルゴリズム応用部門の部門長を務めています。

王雲和氏は、効率的な AI アルゴリズムの革新的な研究開発と、その Huawei のビジネスへの応用を担当しています。彼と彼のチームは効率的な AI アルゴリズムを開発し、その派生アプリケーションは中国の FAST 観測作業で使用され、中国科学院国立天文台の専門家が数百の新しい高速電波バーストのサンプルを発見するのに役立ちました。

論文アドレス: http://arxiv.org/abs/2312.17276

<<:  「スラムダンク」は、ヒューマノイドロボットをシミュレートし、人間のバスケットボールの動きを1対1でコピーします。特定のタスクに対する報酬を必要とせず、一度見るだけで習得できます。

>>: 

ブログ    

推薦する

20以上のモバイルハードウェア、Int8超高速推論、エンドサイド推論エンジンPaddle Lite 2.0が正式にリリースされました

PaddlePaddleは今年8月、端末やエッジデバイス向けのエッジ推論エンジン「Paddle Li...

大型モデルの中に泥棒はいますか?上海交通大学は、パラメータを保護するために、大規模モデル用の「人間が読める指紋」を作成します

大規模モデルの事前トレーニングには膨大な量のコンピューティング リソースとデータが必要となるため、事...

医療における人工知能: COVID-Net プラットフォームを使用してコロナウイルスを診断する方法

COVID-NetとオープンソースのAIベースのプラットフォームは、コロナウイルスの発生によって引き...

...

DAMOアカデミーが最新の量子コンピューティングの成果を発表、新しいプラットフォームは2ビットゲート精度99.72%を達成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

私たちは人工知能によってどのように制御されているのでしょうか?

1970 年 11 月のライフ誌のインタビューで、ミンスキーは次のように警告しました。「コンピュー...

ChatGPT が個人情報を含むトレーニングデータを吐き出す: DeepMind が論争を巻き起こす大きなバグを発見

ChatGPT がおかしくなるまで 1 つのことを実行するように要求し続けると、どうなるでしょうか?...

AIがマーケティングオーディエンスの洞察をどのように変えるのか

[[429813]]人工知能は、企業のマーケティング範囲の拡大に大きく貢献することが証明されています...

中国の女性医師が効率的なNASアルゴリズムを提案:AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノー​​トルダム...

「コピー+貼り付け」に別れを告げ、ディープラーニングOCRに基づくPDFからテキストへの変換を実現

[[403226]]従来の講義には通常、PDF スライドのセットが付属します。一般的に、このような講...

純粋な MLP は下流のタスクには適していませんか? Meta AIらは、トランスフォーマーを上回るスパースMLPを提案した。

注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...

Google Gemini: CMU の総合評価では、Gemini Pro は GPT 3.5 Turbo より劣っていることが判明

少し前に、Google はOpenAI の GPT モデルの競合製品であるGemini をリリースし...

バブルソートに加えて、Python の組み込みソートアルゴリズムをご存知ですか?

プログラミング アルゴリズムに関して、多くの読者が学校で最初に学ぶのはバブル ソートかもしれませんが...

...

人工知能は学習を通じて人類を自然災害から救うことができます。

通常、人間が機械を作るのは、達成するのが難しいタスクを人間が完了するのを助けるためだけです。自然災害...