データの保存方法は、生物学的ニューラル ネットワークから人工ニューラル ネットワークへと変化しており、最も一般的なのは、脳を使用してデータを保存することです。今日では利用可能なデータの量がますます増加しており、人々はハードドライブやクラウド ストレージなどのさまざまな外部デバイスにデータを保存しようとしています。ディープラーニング技術の台頭により、人工ニューラルネットワークを使用してデータに情報を保存する、新たな有望なストレージ技術が登場しました。 研究者たちは、データ保存の究極の目標は人間の生活にさらに役立つことであり、データにアクセスして保存する方法も同様に重要であると考えています。ただし、データの保存方法とアクセス方法には違いがあります。歴史を通じて、人々は世界に存在する情報をより有効に活用するために、このギャップを埋めようとしてきました。図3に示すように:
カーネギーメロン大学の研究者らは、モデルパラメータの最適化を導くための事前トレーニング信号として使用できるさまざまな種類の情報を含むデータにアクセスする新しい方法を提案した。この研究では、信号を単位として構造化された方法でデータを提示します。これは、データベースを使用してデータを保存するシナリオに似ています。まず、データをテーブルまたは JSON 形式に構造化して、必要な情報を専門の言語 (SQL など) で正確に取得できるようにします。 さらに、この研究では、価値あるシグナルは、単に手動で管理された教師ありデータセットの中にあるのではなく、世界中のあらゆる種類のデータの中に豊富に存在すると考えています。研究者が行う必要があるのは、(a) データを識別する (b) 統一言語を使用してデータを再編成する (c) それらを統合して、事前トレーニング済みの言語モデルに保存することです。この研究では、この学習パラダイムを「再構築事前トレーニング (RST)」と呼んでいます。研究者たちはこのプロセスを「鉱山での宝探し」に例えた。 Wikipedia などのさまざまなデータ ソースは、宝石が豊富な鉱山に相当します。これらには、ハイパーリンクからの名前付きエンティティなどの豊富な情報が含まれており、モデルの事前トレーニングにシグナルを提供できます。優れた事前トレーニング済みモデル (PLM) は、下流のタスクのさまざまな要件に応じて正確な情報を提供できるように、データ内のさまざまな信号の構成を明確に理解している必要があります。 論文アドレス: https://arxiv.org/pdf/2206.11147.pdf 事前学習済み言語モデルの宝探し この研究では、データの役割を再強調し、モデルの事前トレーニングと下流タスクの微調整をデータの保存とアクセスのプロセスと見なす、自然言語処理タスクを学習するための新しいパラダイム、RST を提案します。これを基に、この研究では、優れたストレージ メカニズムは大量のデータをキャッシュする機能だけでなく、アクセスの利便性も考慮する必要があるという単純な原則を実装しました。 この研究では、いくつかのエンジニアリング上の課題を克服した後、再構築されたデータ(元のデータではなくさまざまな貴重な情報で構成されている)で事前トレーニングを行うことでこれを達成しました。実験では、RST モデルは、さまざまな NLP タスク (分類、情報抽出、事実検索、テキスト生成など) の 52/55 の一般的なデータセットで既存の最良システム (T0 など) を大幅に上回るだけでなく、下流のタスクでの微調整も必要ないことが示されています。彼らはまた、毎年何百万人もの学生が受験する中国で最も権威のある大学入試英語テストでも優秀な成績を収めています。 具体的には、本論文で提案された大学入試AI(Qin)は、1/16のパラメータを使用して、学生の平均スコアよりも40ポイント、GPT3よりも15ポイント高いスコアを獲得しました。特に秦さんは、2018年の英語テストで150点満点中138.5点という高得点を獲得した。 さらに、この研究では、2018年から2021年までの10の注釈付き英語テストペーパーを含む(毎年拡大予定)Gaokao Benchmarkオンライン提出プラットフォームも公開され、より多くのAIモデルが大学入試に参加できるようになりました。この研究では、人間とAIの競争のための比較的公平なテストプラットフォームも確立され、私たちがどこにいるのかをよりよく理解するのに役立ちました。さらに、数日前(2022.06.08)の2022年度大学入試英語テストでは、AIシステムが134点という好スコアを獲得したのに対し、GPT3は108点しか獲得できませんでした。 この研究の主な貢献は次のとおりです。 (1)NLP手法の進化仮説を提案する。この研究では、現代の NLP 技術の発展間の本質的なつながりを探ることで、世界的な視点から「NLP 技術進化仮説」を確立しようと試みます。要するに、この仮説の核となる考え方は、テクノロジーの反復は常に、開発者がより優れた、より汎用的なシステムを設計するために必要な作業が少なくなる方向に発展するということです。 これまで、NLP テクノロジーの進化は、図 2 に示すように、特徴エンジニアリング → アーキテクチャ エンジニアリング → ターゲット エンジニアリング → プロンプト エンジニアリングという複数の反復を経て、より実用的で効果的なデータ中心のエンジニアリングへと進んでいます。研究者たちは、将来、より多くの科学研究者がこの課題について批判的に考え、技術進歩の核心的な原動力を把握し、学術発展のための「漸進的な上昇」の道を見つけ、より科学的に有意義な研究を行うよう刺激できることを期待している。 (2)進化仮説に基づく新しいパラダイム:再構築された事前トレーニング。このパラダイムは、モデルの事前トレーニング/微調整をデータの保存/アクセス プロセスと見なし、適切な保存メカニズムによって期待されるデータに簡単にアクセスできるようになるはずだと主張しています。このような新しいパラダイムにより、この研究では、10 のデータ ソース (Wikipedia など) から世界中の 26 種類のシグナル (文中のエンティティなど) を統合することができました。この基盤に基づいてトレーニングされた一般的なモデルは、55 の NLP データセットを含むさまざまなタスクで強力な一般化能力を実現しました。 (3)大学入試のためのAI上記のパラダイムに基づいて、本研究では大学入試英語テストタスクに特化した AI システム Qin を開発しました。これは世界初のディープラーニングベースの大学入試英語向け人工知能システムです。 Qin は長年にわたり大学入試問題で優れた成績を収めており、GPT-3 のパラメータの 1/16 のみを使用して、平均的な人よりも 40 ポイント、GPT-3 よりも 15 ポイント高い成績を収めています。特に2018年の英語テストでは、QINはリスニングと読解の両方で満点を獲得し、138.5点(150点満点)という高得点を獲得しました。 (4)豊富な資源(1)既存のAI技術が人間の知能を達成するまでの進歩を追跡するために、本研究では新たなベンチマークであるGaokaoベンチマークを発表しました。現実世界のシナリオにおけるさまざまな実用的なタスクとドメインの包括的な評価を提供するだけでなく、AI システムを人間と直接比較できるように人間のパフォーマンス スコアも提供します。 (2)本研究では、ExplainaBoard(Liu et al., 2021b)を使用してGaokao Benchmarkのインタラクティブなリーダーボードを設定し、より多くのAIシステムがGaokao Benchmarkに簡単に参加し、自動的にスコアを取得できるようにしました。 (3)すべてのリソースはGitHubで見つかります。 さらに、大学入試英語テスト課題における AI の成功は、研究者に多くの新しい考えをもたらしました。AI テクノロジーは教育に力を与え、教育と指導における一連の問題の解決に役立ちます。 たとえば、(a) 教師が自動的に採点するのを支援します。(b) 生徒が課題に関する質問に答え、詳細な説明を提供するのを支援します。(c) さらに重要なことに、ほとんどの家庭が同じ質の教育サービスを受けられるように教育の公平性を促進します。この研究は、教師ありデータと教師なしデータを区別するのではなく、自然が与えてくれる情報をどれだけ活用できるか、どのように活用できるかに着目し、世界からの 26 種類の信号を統一的に統合した初めての研究です。さまざまな NLP タスクからの 50 を超えるデータセットでの優れたパフォーマンスは、データ中心の事前トレーニングの価値を実証し、将来のさらなる探求を刺激します。 事前トレーニングのリファクタリングNLP タスクを解決するためのパラダイムは急速に変化しており、現在も変化し続けています。次の表は、NLP の 5 つのパラダイムを示しています。 既存のモデル中心の設計パラダイムとは異なり、この研究では、既存のデータを最大限に活用するために、データの観点からさらに考えます。具体的には、本研究では、データの保存とアクセスの観点を採用し、事前トレーニング段階をデータ保存プロセスと見なし、事前トレーニング済みモデルに基づく下流タスク(感情分類など)を事前トレーニング済みモデルからのデータアクセスプロセスと見なし、優れたデータ保存メカニズムによって保存されたデータへのアクセスが容易になると主張しています。 この目標を達成するために、我々はデータをさまざまな信号で構成されたオブジェクトとして捉え、優れた事前トレーニング済みモデルは(1)できるだけ多くの信号タイプをカバーし、(2)下流のタスクで必要な場合にこれらの信号への正確なアクセスメカニズムを提供する必要があると主張します。一般的に言えば、この新しいパラダイムは、再構築、事前トレーニング、微調整という 3 つのステップで構成されます。 再構築、事前トレーニング、微調整という新しいパラダイムはデータの重要性を浮き彫りにしており、研究者はデータ処理にさらに多くのエンジニアリング努力を投入する必要があります。 復興プロジェクト信号の定義シグナルは、データ内に存在する、機械学習モデルの監視に使用できる有用な情報であり、n タプルとして表されます。たとえば、「モーツァルトはザルツブルクで生まれました」、「モーツァルト」および「ザルツブルク」は、固有表現認識のシグナルとして考えることができます。一般的に、信号は、下の図 6 に示すように、さまざまな観点からクラスター化できます。 データマイニング現実世界のデータには、さまざまな種類の信号が含まれています。再構築の事前トレーニングにより、これらの信号を最大限に活用できるようになります。この研究では、収集した信号(n タプル)を以下の図 10 に示すようにツリー図に整理しました。 信号抽出研究の次のステップは信号の抽出と処理であり、これにはさまざまなモダリティのデータマイニングからの生データの取得、データのクリーニング、およびデータの正規化が含まれます。既存の手法は、(1)ルールベースと(2)機械学習ベースの2種類に大別できる。この研究では、ルールベースの信号抽出戦略に焦点を当て、より高カバレッジの手法は将来の研究に残します。 信号再構成さまざまなデータマイニングからさまざまな信号を抽出した後、次の重要なステップは、それらを固定形式に統合して、事前トレーニング中にすべての情報をモデルに一貫して保存できるようにすることです。プロンプト法(Brown et al., 2020; Liu et al., 2021d)はこの目標を達成できます。原理的には、適切なプロンプト設計により、ほぼすべてのタイプのシグナルを単一の言語モデルスタイルに統合できます。 この研究では、信号を一般的な信号とタスク関連の信号という 2 つの主要なカテゴリに分類しました。前者は基本的な言語知識を含み、ある程度すべての下流タスクに役立ちますが、後者は特定の下流タスクに役立ちます。 一般的に使用される55のNLPデータセットでの実験この研究では 55 のデータセットを評価し、それぞれ GPT3 および T0pp と比較しました。 GPT3 と比較した結果を図に示します。cb データセットを除く 4 つのデータセットでは、RST-All と RST-Task の両方が、GPT3 の少数ショット学習よりも優れたゼロショット パフォーマンスを示しています。さらに、cb データセットはこれらのデータセットの中で最も小さく、検証セットには 56 個のサンプルしかないため、このデータセットでのさまざまなプロンプトのパフォーマンスは大きく変動します。 T0ppとの比較結果を表4-6に示す。たとえば、55 回の測定の平均パフォーマンスでは、RST-All は 49 のデータセットで T0pp に勝ち、47/55 の例で最大パフォーマンスで勝利しました。さらに、55 のデータセットでの平均パフォーマンス テストでは、RST-Task は 52 のデータセットで T0pp を上回り、50/55 の例で T0pp を上回りました。これは再構成学習の優位性を示しています。 最高のパフォーマンスを発揮するモデル RST-Task はどのようなタスクに優れていますか?この質問に答えるために、本研究では、ゼロショット設定で RST タスク モデルと現在の SOTA モデルのパフォーマンスを比較し、その結果を図 13 に示します。 RST タスクは、トピック分類、感情分類、自然言語推論タスクでは優れていますが、情報抽出タスクではパフォーマンスが低下します。 大学入試実験:人間レベルのAIを目指してこの研究では、2018年度全国模試I/III、2019年度全国模試I/II/III、2020年度全国模試I/II/III、2021年度全国模試A/Bを含む10回の大学入試英語試験問題を収集しました。これらの試験問題は同じ形式に従っており、すべての試験問題は表 7 に示すように次の 7 つのサブカテゴリに分類されます。 大学入試英語試験の満点は150点です。リスニング、クローズドテスト、リーディング、ライティングはそれぞれ 30%、45%、40%、35% を占めます。通常、ライティングセクションは主観的であり、人間による評価が必要ですが、他のセクションは客観的であり、自動的に採点できます。表8に示すように: 表 1 に示すリファクタリング エンジニアリング サイクルは、大学入試英語 AI システム Qin の構築に使用されます。全体のプロセスを図 14 に示します。 この研究では、表9に示すように、次のプロンプトを使用して元のシグナルタプルをプロンプトサンプルに変換します。 実験結果は表 10 ~ 11 に示されており、次のような結論を導き出すことができます。各英語テスト ペーパーでは、RST が 2 つのリスニング テストで最高の合計スコアを達成し、平均スコアは 130.6 ポイントでした。T0pp と比較すると、同じモデル サイズでは RST のパフォーマンスは T0pp よりもはるかに優れています。すべての設定において、RST は T0pp よりも平均合計スコアが 54.5 ポイント高く、最大差は 69 ポイント (合計スコアの 46%) です。GPT3 と比較すると、RST は 16 倍小さいモデル サイズで大幅に優れた結果を達成できます。検討したすべての設定において、RST で得られた合計スコアは T0pp よりも平均 14.0 ポイント高く、最大 26 ポイント (合計スコアの 17%) でした。T0pp の場合、ゴールドおよび音声テキスト変換トランスクリプトを使用して得られたリスニング スコアは大きく異なり、平均 4.2 ポイントでした。比較すると、GPT3 と RST はそれぞれ 0.6 と 0.45 であり、T0pp のパフォーマンスはテキストの品質に敏感であることがわかります。 この研究では、さまざまなモデルがさまざまな問題のサブカテゴリでどのように機能するかを理解するために、きめ細かい分析を実施しました。図15-(a)では、RSTとGPT3がすべての質問サブカテゴリでT0ppを上回っていることは明らかです。 図15-(b)は、モデルの性能と近年の全国試験における生徒の平均成績を示しています。 9/10 の試験問題における T0pp の総合スコアは学生の平均よりも低いのに対し、RST と GPT3 のパフォーマンスは学生の平均よりも高いことは明らかです。特に、この 10 個の論文のうち 5 個では、合計 RST スコアが 130 を超えました (これは、一般的に学生が目指す目標スコアと考えられています)。 2022年度大学入試英語テスト(2022.06.08)が終了しましたが、過去1年間の大学入試問題でモデルがどのように機能したかがわかっています。この研究ではGPT3とRSTを用いた実験を行った。結果によると、RST の合計スコアは 134 に達し、GPT3 が達成した 108 ポイントを大幅に上回っています。 |
<<: Tフロントライン | ZuoyebangのチーフAIアーキテクト、王燕氏との独占インタビュー:AIの包括性は革新的な思考にある
>>: AlphaFold2の最初の公開PyTorchバージョンが複製可能になりました。コロンビア大学のオープンソースで、1,000以上のスターが付いています。
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2017年、『エコノミスト』誌は、データが石油を上回り、世界で最も価値のある資源になったと宣言しまし...
第四次産業革命が急速に起こりつつあります。人工知能はこの産業革命の中核となる内容の一つです。産業革命...
2017年は「人工知能」が輝きました。ディープラーニング「AlphaGo」が柯潔に勝利し、無人運転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[201115]] 2016年3月15日、ALPHGOが韓国の囲碁プレイヤー、イ・セドルを4対1...
負荷分散アルゴリズムの種類を分析した後、動的負荷分散について紹介します。この概念は主にロードバランサ...
[[355693]]人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この...
2022年2月6日にarXivにアップロードされたレビュー論文「自動運転認識のためのマルチモーダルセ...
[[199775]]現在、人工知能はますます人気が高まっている分野となっています。普通のプログラマ...