「万能AI」GPT-3の中国版を作る方法

質問に答えたり、翻訳したり、記事を書いたり、コードを書いたり、数式を計算したり、アイコンを描いたりすることができます...2020年5月にOpenAIによってリリースされたGPT-3は、その魔法のような汎用性によりAI分野で人気を博しています。

GPT-3は自然言語入力をサポートし、数式を自動生成します。

GPT-3は英語のコーパスで事前トレーニングされており、主に英語関連のシナリオで使用されています。しかし、中国の産業界や学界では、すでにGPT-3の中国語版を期待する声が出ています。

「GPT-3はMobvoiの技術基盤と密接に関係しています。GPTモデルは現段階では完璧ではありませんが、より一般的な言語知能に向けて重要な道筋の1つです」と、中国語の音声対話を手掛けるAI企業Mobvoiの創設者兼CEOであるLi Zhifei氏はPinwanに語った。

Mobvoi は、より一般的な言語インテリジェンスに常に興味を持っています。チームは、GPT-3 関連の論文を深く理解し、関連する実験を進め、トレーニングの効率を向上させることに取り組んでいます。

GPT-3 の中国語版を作成するにはどうすればいいですか?

では、GPT-3 の中国語版を作成したい場合はどうすればよいでしょうか?

「英語版と比較すると、中国語版GPT-3の誕生はゼロから1へのプロセスを経て、英語版GPT-3技術の反復の関連経験を活用できる」と李志飛氏はPinwanに語った。 GPT-3 の技術的な反復パスは、トレーニングデータの量とモデルパラメーターのスケールを継続的に増やすプロセスです。

本質的に、GPT-3 は大規模な事前トレーニング済みの NLP (自然言語処理) モデルです。大規模な事前トレーニングとは、まず大量のラベルなしコーパスを使用して教師なし学習を行い、モデルパラメータのセットを取得し、次に少量のラベル付きコーパスで微調整し、最後にそれを特定の下流の NLP タスクに適用することを意味します。このモデルは、2018 年に Google がリリースした Bert など、多くの成功した NLP モデルを生み出してきましたが、その普遍性はまだ不十分です。 GPT-3 が発売されて初めて、このタイプの事前トレーニング済みモデルの汎用性が新たなレベルに引き上げられました。

GPTの第一世代からGPT-3まで、モデルレベルでは常にTransformer（意味的特徴抽出の代表的な手法）をベースに事前学習を行ってきました。変化はありませんが、学習データの量やモデルサイズは10倍、1000倍に増加しています。

2018 年 6 月にリリースされた第 1 世代の GPT には、事前トレーニングデータが 5 GB しかありませんでした。 GPT-2 は 40GB に増加し、GPT-3 は 45TB (45,000GB に相当) に急上昇しました。モデルのサイズに関して言えば、パラメータの数は GPT の第 1 世代の 1 億 1,700 万から 1,750 億に指数関数的に増加しました。

データ量とモデルサイズが増加するにつれて、GPT は徐々に少量の注釈付きコーパスによる微調整のステップを放棄し、事前トレーニングから取得したパラメータに完全に依存して下流のタスクを実行しますが、それでも精度はある程度保証されます。

GPT に必要な計算能力はますます誇張されています。第 1 世代の GPT は 8 つの GPU でトレーニングするのに 1 か月しかかかりませんでしたが、GPT-2 は 256 個の Google Cloud TPU v3 (1 時間あたり 256 米ドル) でトレーニングする必要があり、トレーニング時間は不明です。 GPT-3 の時点では、モデルのトレーニングにかかる推定コストは 460 万ドルを超えています。

それに応じて、GPT 論文に参加する著者の数は、第 1 世代の 4 人から第 3 世代の 31 人に増加しました。さらに、31 人の著者は明確な役割分担をしており、モデルのトレーニングを担当する者、データの収集とフィルタリングを担当する者、特定の自然言語タスクの実装を担当する者、より高速な GPU カーネルの開発を担当する者などがいます。

GPT-3論文には31人の著者がいる

Li Zhifei 氏は、GPT-3 の反復的な経験を踏まえ、中国の GPT-3 モデルのトレーニングを実施するより合理的な方法は、「小規模および中規模のモデルから始めて、研究と実験を行い、一定の結果が得られた後、検証のために大規模モデルに昇格する」ことだと考えています。

人材の配置については、GPT は学術、エンジニアリング、ビジネスなどのチーム間の大規模なコラボレーションを伴う、非常に包括的な大規模システムプロジェクトであると述べました。一般的には、科学者、エンジニア、プロジェクトマネージャーなどの役割を含む数十人からなるチームを構築する必要があります。

英語版 GPT-3 の技術的な反復に関する経験は活用できますが、中国語版 GPT-3 を作成する過程では、中国語のトレーニングデータや計算能力など、多くの固有の問題を解決する必要があります。

「一方で、高品質で多様なトレーニングテキストの入手には、より多くの時間と労力を費やす必要があります」とLi Zhifei氏は述べた。「他方、コンピューティング効率の問題も、現在、大規模なディープラーニングモデルのトレーニングが直面している共通の課題です。」

全体的な規模、データの品質、多様性の面から見ると、現在インターネット上で入手可能な高品質の中国語データは英語データよりも少なく、中国語モデルのトレーニング効果に影響を与える可能性があります。しかし、既存の研究と分析結果に基づくと、データが多いほど良いというわけではありません。

「データの最適化、データ生成、その他の方法を組み合わせることで、トレーニングコーパスの有効性を高めることができます。予備分析によると、特定のトレーニングコーパスには主に百科事典の質問と回答、ニュース情報、ブログの電子書籍データ、その他の一般的なクロールデータが含まれています。データ処理後のサイズは約 500 GB です」と Li Zhifei 氏は述べています。

GPT-3 モデルには 1,750 億のパラメータがあり、それを支えるトレーニングリソースのコストは非常に膨大です。モデルのトレーニングコストは 460 万ドルを超えると推定されています。しかし、国内外でのさまざまな研究の進歩により、事前学習済みモデルの学習効率は今後も向上し続けるでしょう。

「他の事前トレーニング済み言語モデルの最適化の経験から学び、コーパス、ネットワーク構造、モデル圧縮などのトレーニングにさらに取り組むことで、モデルの単一トレーニングコストを桁違いに削減できると期待しています」とLi Zhifei氏は述べています。

中国の GPT-3 の構築は骨の折れる作業のように思えるかもしれませんが、この作業の見返りも非常に大きいです。李志飛氏は、GPT-3が実証した一般的な機能は、GPT-3を次世代の検索エンジンやAIアシスタントにすることができるため、この技術自体の商用応用シナリオは非常に幅広い可能性があるとPinwanに語った。

第二に、GPTモデルの構築プロセスには、スーパーコンピューティングセンターとAIアルゴリズムプラットフォームの構築が含まれます。これらのコンピューティングパワーとアルゴリズムプラットフォームは、企業、科学研究機関、政府に基礎サービスを提供し、オープンプラットフォームを通じてスマートカー、スマートシティ、科学技術金融などの分野などの産業に力を与えることができます。

さらに、GPT は本質的に言語に関する時間モデルですが、経済、株式、交通における行動予測など、言語以外の他の時間的問題も潜在的な応用シナリオになる可能性があります。

GPT-4 はどのように進化するのでしょうか?

GPT-3 の現在のパフォーマンスは衝撃的ですが、まだ多くの問題があります。たとえば、テキストの意味を真に理解することはできず、単語を配置して組み合わせるだけです。さらに、研究者たちはそれがどのように機能するかを完全には理解していません。 Li Zhifei 氏は、次期バージョンの GPT-4 では、モデルのサイズ、小規模サンプルの学習、マルチモーダル性、学習フィードバックメカニズム、タスク実行との統合の点で改善されると予測しています。

GPT-4 モデルがより暴力的になることは間違いありません。 Li Zhifei氏は次のように述べた。「次世代のGPTモデルは、データ規模、モデルパラメータ、計算能力などにおいて必然的に大きな改善が見られるでしょう。さらに、次世代のGPTモデルは英語に限定されず、より多くの言語間タスクを処理できるようになるでしょう。」

現在の GPT-3 モデルは、依然として小規模サンプルの学習メカニズムに大きく依存しています。 GPT-3 では微調整は必要ありませんが、特定の NLP タスクを完了するときに、少数のタスク関連のインスタンスがモデルに提供されます。 GPT-3 は、ゼロショットタスクとシングルショットタスクでは大幅に性能が低下します。実際、後者の 2 つのタスクの方が一般的な問題です。

「次世代の GPT モデルは、ゼロサンプルおよび単一サンプルのタスクをより適切に処理できるように、理論的に一般化機能を強化する必要があります」と Li Zhifei 氏は述べています。

次世代の GPT モデルは、マルチモーダルモデルになる可能性が非常に高いです。 OpenAIは、純粋なテキストを対象とした現在の自己回帰事前トレーニングモデルの規模は限界に近づいており、テキスト、音声、画像を組み合わせて学習するマルチモーダルモデルの方向へ発展する必要があると考えています。 Li Zhifei 氏は、マルチモーダルモデルは、一方では言語を超えた情報のより多くの次元を導入でき、他方ではモデルがより一般的な表現を学習できるようにすることで、モデルの一般化能力を強化できると考えています。

もう一つの重要な進化は、学習フィードバックメカニズムの導入です。現在、GPT モデルは、完全な教師なしの条件下で学習するために、大量のインターネットテキストデータを読み取ることしかできません。ただし、人間の学習プロセスは物理世界と相互作用します。この方法でのみ、カップはテーブルの下にあるのではなく上にあるべきであるなど、物理世界でより多くの「常識」を確立できます。より一般的な状態に到達したい場合、マルチモーダル性に加えて、物理世界からのフィードバックメカニズムも学習プロセスに導入する必要があります。

「もちろん、このフィードバックもデータを通じて実現されており、GPT が人間のように物理世界を実際に探索できるわけではありません」と Li Zhifei 氏は語ります。「さらに、GPT の本来の目的は完全な教師なし学習を実現することであるため、このフィードバックは明示的かつタイムリーなものではなく、暗黙的かつ遅延的なものになります。これを実現するには、強化学習などのメカニズムを導入する必要があります。」

Li Zhifei 氏は、GPT-4 がタスク実行機能を導入する可能性があるとも考えています。今日の GPT は、タスク実行者ではなく、主に予測および生成エンジンです。

たとえば、GPT に「明日の午後 3 時頃に北京から上海までのエコノミークラスのチケットを予約してください」と依頼した場合、GPT はこの文の意味を理解できるかもしれませんが、予約 Web サイトの API (アプリケーションプログラミングインターフェイス) を自動的に呼び出してタスクを実行する機能はまだありません。この実行機能がなければ、各タスクで理解されたタスクを実行するために追加のコードが必要になるため、GPT の汎用性は制限されます。したがって、GPT はタスクを直接実行する方法を学ぶ必要があります。

全体的に、Li Zhifei 氏は GPT の将来の発展について非常に楽観的です。「将来、インターネット上の多くのコンテンツや知識は、GPT のようなモデルによって生成または処理されるでしょう。したがって、ある程度、GPT の発展は言語主権の進化を表しており、エコシステムになる可能性があります。」

<<: 科学記事：強化学習後、ロボット学習のボトルネックをどう突破するのか？

>>: HuaweiとXiaomiの携帯電話を使ったDIY自律ナビゲーションロボット：わずか300元、チュートリアルはオープンソースで誰でも始められる