HuaweiがTransformerアーキテクチャを改良! Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

HuaweiがTransformerアーキテクチャを改良! Pangu-πは特性欠陥問題を解決し、同じスケールでLLaMAよりも優れた性能を発揮します。

Huawei Pangu シリーズが建築に革新をもたらします!

Quantum位は、Huawei Noah's Ark Laboratoryと他の企業が共同で新しい大規模言語モデルアーキテクチャ「 Pangu-π」を立ち上げたことを知りました。

非線形性を強化することで従来の Transformer アーキテクチャを改善し、機能の崩壊の問題を大幅に軽減できます。

直接的な効果は、モデル出力の表現力が強くなることです。

同じデータでトレーニングした場合、Pangu-π(7B)は、複数のタスクでLLaMA 2などの同じサイズの大規模モデルよりも優れており、 10%の推論加速を達成できます。

10 億スケールでSOTAを達成します。

同時に、このフレームワークに基づいて大規模な金融法務モデル「雲山」が開発されました。

この研究はAI専門家のタオ・ダチェン氏が主導した。

具体的にどうやって達成するのでしょうか?一緒に見ましょう。

非線形性を利用して特徴の崩壊を解決する

現在、最も一般的な大規模モデルは、GPT、LLaMA などの Transformer アーキテクチャを使用しています。

そのコアコンポーネントには、マルチヘッド自己注意メカニズム (MSA) とフィードフォワード ネットワーク (FFN) が含まれます。

MSA の主な機能は、入力シーケンス内の各トークンと他のすべてのトークンとの相関関係を計算することです。入力シーケンス内の依存関係を学習することで、言語を理解する能力を高めることができます。 FFN は主に入力に対して非線形変換を実行し、モデルの表現力を高めて、より複雑な関数を近似できるようにします。

しかし、Huawei Noah's Ark Laboratory は、特徴の崩壊が Transformer アーキテクチャのパフォーマンスに影響を与え、表現力を低下させ、モデルが異なる入力を区別することを困難にすることを発見しました。

LLaMA を例にとると、より深いニューラル ネットワークでは、特徴レベルが大幅に削減され、すべてのトークン間の類似性が高まります。

メカニズムの観点から見ると、自己注意モジュールは完全なグラフ上の情報集約と見なすことができます。注意の複数の層を連続的に積み重ねることは、連続的な多層グラフ畳み込みのようなもので、過剰な特徴平滑化効果を生み出します。

一方、多層パーセプトロン (MLP) の活性化関数によって提供される非線形性は十分ではなく、特徴の崩壊を抑制する効果は限られています。

そこで研究チームは、モデルの非線形表現能力を向上させ、特徴の崩壊を回避したいと考え、本研究でPangu-πを提案しました。

以下は Pangu-π の構造の概略図です。

FFN に直列アクティベーション関数を追加し、MSA に拡張ショートカット接続 (Aug-S) を統合すると、Transformer アーキテクチャにさらに効果的に非線形性を導入できます。

Augmented Quick Connection (Aug-S) を使用する MSA は、各トークンの機能を異なる表現に変換できます。

研究チームはこの新しいアーキテクチャに基づいて、大規模なトレーニングと微調整を通じてPangu-π ベースモデルを開発しました。

実験結果によると、このモデルは複数のタスクにおいて同じスケールの他のモデルよりも優れていることが示されています (それぞれ 7B スケールと 1B スケールがテストされました)。

さらに、Pangu-π-7Bは約10%の推論加速を達成できます。

同時に、チームはこれを基に金融法分野の大型モデル「雲山」も開発し、これも複数のベンチマークで他のモデルを上回りました。


責任著者はタオ・ダチェンです。

この研究のチーム構成も非常に印象的であることは注目に値します。

責任著者はTao Dachengです。

彼は欧州科学アカデミーの外国人会員であり、オーストラリア科学アカデミーのフェローでもある。彼は中国科学技術大学で学部を学び、香港中文大学MMLabを卒業し、唐暁に師事したと言われています。

2007年に博士号を取得後、香港理工大学、シンガポールの南洋理工大学、シドニー工科大学、オーストラリアのシドニー大学で教鞭を執りました。彼は現在、清華大学インテリジェント産業研究所の AIR チームの著名な客員教授です。

同時に、UBTECHとJD.comにも相次いで入社。JD.comの最高レベルのAI科学者であり、JD.com探索研究所の所長を務めた。

一人は王雲和。

彼は2012年ノアの箱舟研究所の上級研究員であり、現在はアルゴリズム応用部門の部門長を務めています。

王雲和氏は、効率的な AI アルゴリズムの革新的な研究開発と、その Huawei のビジネスへの応用を担当しています。彼と彼のチームは効率的な AI アルゴリズムを開発し、その派生アプリケーションは中国の FAST 観測作業で使用され、中国科学院国立天文台の専門家が数百の新しい高速電波バーストのサンプルを発見するのに役立ちました。

論文アドレス: http://arxiv.org/abs/2312.17276

<<:  「スラムダンク」は、ヒューマノイドロボットをシミュレートし、人間のバスケットボールの動きを1対1でコピーします。特定のタスクに対する報酬を必要とせず、一度見るだけで習得できます。

>>: 

ブログ    

推薦する

教科書では学べない機械学習に関する12の「民間伝承」

[[264978]]ビッグデータダイジェスト制作出典: towardml編纂者:劉嘉偉、王元元、ウ...

脳卒中の診断と治療を加速させるAIの登場

ディープラーニングは人工知能の一種です。医療分野では、CTスキャン画像を使用して脳の血液供給動脈の閉...

2020年、全国の産業用ロボット出荷台数は前年比19.1%増加した。

工業情報化部が発表したデータによると、2020年1月から12月まで、全国の産業用ロボットの生産台数は...

HellobikeがAIベースのシェアモビリティ技術を発表

Hello Mobilityの非電動車両安全管理システム持続可能な交通の専門企業Hellobikeは...

...

...

...

...

AI インテリジェント音声認識アルゴリズム パート 1

[[397592]] 1. 音源定位1. 電子走査アレイシステムが出力信号のパワーが最大となる点ま...

自己教師あり学習の概要と3つの主要分野における現状

近年、教師あり学習によるディープラーニングも大きな成功を収めています。画像分類から言語翻訳まで、その...

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

[[232119]]最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFS...

ステップバイステップガイド: FastAPI を使用して YOLO モデルをデプロイする手順

コンピューター ビジョンの分野では、You Only Look Once (YOLO) アルゴリズム...

AIがデータセンターのワークロード管理の課題を解決

データセンターのワークロードが急増するにつれ、効率性の向上と経費削減を図りながら IT チームの管理...

...

貢献度が最も高い GitHub コレクションとディープラーニング フレームワーク 16 選

ビッグデータ概要編纂者:Jingzhe、Shijintian、Jiang Baoshangディープラ...