中国の創作力はGPT-4を超える、「最高の文章力」を持つ中国のビッグモデルWeaverが登場

中国の創作力はGPT-4を超える、「最高の文章力」を持つ中国のビッグモデルWeaverが登場

ChatGPT などの一般的な大規模モデルは数百の機能をサポートしていますが、一般的な日常的なユーザーにとって、インテリジェントな書き込みは最も一般的であり、大規模モデルが最も役立つ使用シナリオの 1 つです。大規模なモデルでは見栄えの良いテキストを生成できる場合が多いですが、ほとんどの場合、コンテンツの創造性とスタイルは、さらに精査すると耐えられません。特にクリエイティブ分野では、ビッグモデルで一般的な「GPT スタイル」により、クリエイティブな執筆にビッグモデルを使用することは簡単に思えますが、実際には困難を伴います。

最近、Waveform Intelligence のビッグモデル チームは、AI ライティングに特化したプロフェッショナルなビッグモデル Weaver をリリースしました。 Weaverは、ライティング分野における専門的な事前トレーニングと、一連の革新的なデータ生成およびアラインメントアルゴリズムを通じて、ライティング分野のさまざまなタスク、特に生成されたコンテンツの創造性とスタイルにおいて、GPT-4や多くの一般的な中国語モデルを上回る結果を達成しました。より「人間の言語」を書くことができる大規模なモデルです。


  • 論文アドレス: https://arxiv.org/pdf/2401.17268.pdf
  • オンラインデモ: https://www.wawawriter.com/

ChatGPT などの大規模モデルは、一般的な指示に従うタスクや質問に回答するタスクでは優れたパフォーマンスを発揮しますが、専門的なライティング、特に創造性と個別のライティング スタイルを必要とするクリエイティブ ライティングに大規模モデルを適用するには、依然として多くの障害が伴います。最大の問題は、大規模モデルによって生成されたコンテンツがあまりにも味気ないものであったり、文章スタイルが「GPT」的すぎて創造性に欠けていることです。

この問題を解決し、プロの執筆により適した大規模モデルをトレーニングするために、Waveform Intelligence の研究チームは、GPT やその他の一般的な大規模モデルがクリエイティブ ライティング タスクで優れたパフォーマンスを発揮できない理由を分析しました。まず、一般的な大規模モデルの事前トレーニング プロセスでは、より多くのデータを使用してモデルが自己監督を通じて学習できるようにすることを望んでいるため、事前トレーニング データセットに低品質のコンテンツが大量に含まれることがよくあります。プロのライターやコンテンツ作成者が書いた高品質のテキスト コンテンツは、事前トレーニング データ全体の 0.1% 未満にしかならない場合があります。したがって、インターネット全体のテキスト分布をモデル化した後、事前トレーニング済みの言語モデルは、自然に、より一般的なコンテンツを出力する傾向があります。モデル調整フェーズでは、OpenAI などの企業がデータセットを微調整するために注釈指示をクラウドソーシングするプロセスにおいて、注釈者の教育/執筆レベルが限られており、注釈者の執筆/創造力のスクリーニングは行われません。さらに、採点プロセスの基準では、回答内容の独創性や言語/書き方は考慮されず、回答の無害性と有用性が主に重視されます。したがって、指示によって微調整された言語モデルは、平凡で退屈なテキストを生成する可能性が高くなります。最後に、RLHF/DPOなどのアライメントアルゴリズムでは、モデルのトレーニングデータと報酬モデルは、指示を微調整した後にモデルによって生成またはトレーニングされます。そのため、文章スタイルと創造性の観点から見ると、RLHF/DPOプロセスは「小人集団から将軍を選ぶ」ことしかできず、本当に文章が得意な大規模モデルを強化することはできません。

この観察に基づいて、Waveform Intelligence のビッグモデル チームは、クリエイティブ ライティングの分野に特に適した垂直プロフェッショナル モデル トレーニング パイプラインを提案し、このソリューションに基づいて、クリエイティブ ライティング向けの世界をリードするビッグモデルである Weaver をトレーニングしました。このソリューションは、モデルの (継続的な) 事前トレーニング、命令の調整、およびアライメント (RLHF/DPO) の各段階をカバーします。事前トレーニング段階では、チームは非常に慎重なデータのスクリーニングとフィルタリングを実施し、手動+ルール+機械学習モデルの共同アプローチを使用して、オープンソースの事前トレーニングデータセットから小説/短編小説/クリエイティブコピーライティングなどのカテゴリの高品質のテキストコンテンツを見つけ、大量の低品質コンテンツとコード/広告データを破棄し、一部の高品質のニュースデータをダウンサンプリングしました。同時に、大規模なプライベートクリエイティブフィールドデータ(小説、短編小説など)を組み合わせて、モデルがクリエイティブ機能の学習に集中できるようにする200Bを超える事前トレーニングデータを構築しました。

命令の微調整段階では、Waveform Intelligence のデータ生成チームが Meta が提案した LongForm および HumpBack ソリューションを参考にして改良し、高品質なコンテンツに基づいてさまざまなライティング関連タスクの命令とそれに対応する高品質な出力を自動的に生成できる命令バックトランスレーション パイプラインを構築しました。チームは、「コンテンツの執筆」、「アウトラインの執筆」、「拡張」、「磨き」、「合理化」、「スタイルの転送(模倣執筆)」、「校正」、「ブレーンストーミング」、「タイトルの作成」、「執筆関連の会話」という 10 のカテゴリのタスクを要約して定義しました。 「ポリッシング」などのタスクの種類の場合、注釈プロンプトは最初にタスクの定義といくつかの入力と出力の例を説明し、次に、テキストからポリッシングタスクの指示/入力/出力を自動的にマイニングする例と注釈の思考プロセスを示します。「まず、テキスト内のよく書かれた文を見つけ、この文が一度ポリッシングされていると仮定し、次にポリッシング前の文がどのようになっているかを推測し、最後にポリッシング前後の変更を分析して、ポリッシング指示がどのようになるかを推測します。」次に、注釈を付ける例を注釈プロンプトに入力し、例の注釈プロセスに従って出力するように大規模モデルに指示します。最後に、モデル出力内の注釈付きの「指示/入力/出力」部分を解析し、それらを組み合わせてライティング指示データを作成します。

OpenAIなどの企業の標準的なクラウドソーシングラベリング指示データプロセスと比較すると、Waveform Intelligenceのラベリング戦略はより効率的です(クラウドソーシングアノテーターは特定の分野の高品質コンテンツを選択するだけでよく、その後のラベリングプロセスはAIによって完了します)。クラウドソーシングラベリングや現在一般的に使用されている自己指示型の全自動ラベリングプロセスと比較すると、Waveform Intelligenceのラベリングプロセスはより高品質のデータを生成できます(出力は手動で選択された高品質コンテンツまたはその一部であるため)。この戦略に基づいて、Waveform Intelligence の大規模モデル チームは、小説執筆、クリエイティブ ライティング、プロフェッショナル ライティング、マーケティング コピーライティングの 4 つの主要分野で高品質のコンテンツを収集し、自動的に注釈を付けて、100 万を超える高品質のライティング分野指導の微調整データセットを作成しました。

図1: Weaverトレーニングデータの分布とソース

次に、調整フェーズでは、Waveform Intelligence のデータ生成チームが、モデルをプロのライター/クリエイターと効率的に調整するための新しい原則ベースのソリューションである Constitutional DPO を提案しました。これは、モデル出力 + 人間/大規模モデルの評価に基づく以前のアライメント戦略とは異なります。 Constitutional DPO は、人間の作成者が作成した高品質の出力をポジティブ サンプルとして使用し、人間のライター/編集者が分類および改良したさまざまな分野のライティングの「原則」を使用して、モデルがこれらの原則をより適切に遵守できるように教えることができるネガティブ サンプルを生成します。具体的には、プロのライター/編集者がまず、4 つの主要分野における 10 のタスクで、優れたコンテンツが従う必要のある 200 以上の原則を整理しました。それぞれの原則について、編集者は詳細な説明と原則に準拠/違反する 1 組の例を挙げて原則を要約し、原則が満たされている/違反している理由を数文で説明します。その後、各正のサンプルについて、負の例によって生成されたプロンプトは、最初にドメインタスクの原則のセットと、原則の対応する例と説明を示し、次に正のサンプルを示します。これにより、大規模なモデルは、正のサンプルがどの原則に最も適合しているかを分析し、正のサンプルがより少ない変更でこの原則に違反できるように修正する方法を推測する必要があります。これにより、出力の品質が低下します。チームは、さまざまな分野で高スコア/高閲覧量/高いいね数やコメント数の多いコンテンツをポジティブサンプルとして選択し、憲法上の DPO パイプラインを通じて数万件の嗜好データを生成し、このデータを使用して DPO を使用したモデルを調整しました。

図2 - 憲法上のDPOアプローチの概略図

図3 - 専門家の注釈の書き方の原則

さらに、Waveform Intelligence のデータ生成チームは、RAG 対応のトレーニングをサポートするデータ生成ソリューションも設計しました。出力コンテンツが明らかに他のコンテンツに基づいている一連のサンプルをフィルタリング/選択し、10 を超える一般的な RAG テンプレートを通じて 100,000 を超える RAG トレーニング データを構築することで、Weaver モデルがネイティブに RAG をサポートし、参照とモデル ペーパーを組み合わせて高品質の作成/模倣を行うことができます。さらに、チームは Weaver が関数呼び出しをサポートできるようにするためのデータ生成ソリューションも設計しました。最終的に、Weaver の微調整データの総量は 100 万を超えました。

Weaver モデル ファミリには、Weaver-mini/base/pro/ultra というサイズの異なる 4 つのモデルが含まれており、それぞれ 18 億、60 億、140 億、340 億のパラメーターが含まれています。 Weaver モデルと一般的な大規模モデルの記述能力を評価するために、Waveform Intelligence のモデル評価チームは、大規模モデルのユーザーの専門的な記述能力を評価するための新しいベンチマークを構築しました。ベンチマークは、4 つの主要なライティング領域の 30 を超えるサブフィールドをカバーする 10 のライティング タスクの代表的な指示を選択し、合計 2,000 を超える指示が含まれています。チームは、WeaverとBenchmark上の10以上の代表的なオープンソース+クローズドソースモデルの出力を収集し、手動の比較評価とGPT4に基づく自動評価を実施しました。

評価結果によると、Weaver Ultra は、生成されたコンテンツの新規性とスタイルのベンチマーク評価において、GPT-4 を含む一般的な大規模モデルを大幅に上回っています。また、生成されたコンテンツの流暢性と関連性の点では、業界をリードする GPT-4 に匹敵し、他のオープンソース/クローズドソース モデルよりも優れています。その他の小型の Weaver モデルも、2 ~ 3 倍の一般的な大型モデルと比較して、さまざまな指標で明らかな利点があります。

図4: WriteBenchにおけるWeaverの評価結果

標準ベンチマークの手動および自動評価に加えて、Wave Intelligence のモデル評価チームは、人間とコンピューターの相互作用を伴う実際のアプリケーション シナリオで Weaver Ultra と GPT-4 のユーザー エクスペリエンス評価も実施しました。 4 人の人間の作家が、同じチャット インターフェースでそれぞれ Weaver Ultra と GPT-4 を使用して、同じトピックに関する短編小説、Xiaohongshu のコピー、ビジネス プラン、コース ペーパーを作成しました。評価結果によると、Weaver を使用した人間のライターの効率は GPT-4 を使用した場合よりも約 40% 高く、プロの編集者はコンテンツの品質評価に Weaver で作成されたコピーを 9:3 のスコアで好んで使用しています。分析によると、Weaver によってもたらされる効率性の向上は、主に、生成されたコンテンツのスタイルがより適切になり、事後編集の必要性が減り、無駄なナンセンスや質問が出力されずに、作成プロセス中に Weaver がより直接的にやりとりできるようになったことに起因しています。プロの編集者からのフィードバックは、Weaver に基づいて作成された作品のスタイルは実用的な基準に沿ったものになることが多く、作成されたコンテンツはより斬新で柔軟性があるという点に主に焦点を当てています。

図5: Weaverと他の大規模モデルの人間による評価におけるELO評価

<<:  大きな出来事がやってくる: Google Bard は Gemini に改名される予定、Ultra 1.0 は強力だが有料、Android アプリも登場

>>:  MoEトレーニングの効率とパフォーマンスのボトルネックを打破し、Huawei Panguの新しいスパース大規模モデルアーキテクチャLocMoEがリリースされました

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

毎日のアルゴリズム: 二分木の最小共通祖先

この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載したもので、著者はsis...

人工知能:今優先すべき7つの役割

近年の退職者の急増は、労働力不足が現実であることを示している。セントルイス連邦準備銀行の調査によると...

...

Apache Flink トークシリーズ - PyFlink のコアテクノロジーを公開

皆さんこんにちは。本日のサミットで Apache PyFlink のコア技術を皆さんと共有できること...

クラウドサービスが舞台を整え、AIが役割を果たす、これはI/Oに劣らないGoogleテクノロジーカンファレンスです

Google をよく知っていると思っている人でも、Cloud Next カンファレンスについては聞い...

...

アルゴリズムがバグをキャッチ:ディープラーニングとコンピュータービジョンが昆虫学を変える

[[390223]]導入コンピュータ アルゴリズムは、ソフトウェア プログラムのバグを検出するのに役...

...

本物そっくりの「人工顔」は顔認識を騙せるのか?

[[360561]]過去数年間に自分の写真をオンラインに投稿したことがあれば、Clearview ...

...

デジタルヒューマンのための大規模モデル

ビッグモデルはソフトウェア業界全体を変えるでしょう。その代表的な製品の一つがデジタルヒューマンです。...

WOT2019 検索推奨アルゴリズムフォーラム: さまざまな分野における AI ベースの検索推奨の実用化

6月21日、WOT2019グローバルテクノロジーサミットとグローバル人工知能テクノロジーサミットが北...

2023 年のテクノロジー業界の最高、最悪、そして最も醜い出来事

翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年はテクノロジー業界にとってエキサイ...

人工知能プロジェクト: 注目すべき 7 つのポイント

最近、業界調査会社ガートナーは、AI プロジェクトの 85% は CIO に引き渡されないという大胆...