NLP 70 年!スタンフォード大学のマニング教授が長文の記事を執筆：「基本モデルは10年でAGIになることができるか？」

過去 10 年間で、自然言語処理の分野は、単純なニューラルネットワーク計算と大規模なトレーニングデータのサポートのみに依存して、大きな進歩を遂げてきました。BERT、GPT-3 などのこの方法でトレーニングされた事前トレーニング済み言語モデルは、強力な一般言語理解、生成、推論機能を提供します。

少し前に、スタンフォード大学の教授であるクリストファー・D・マニング氏が、ダイダロス誌に「人間の言語理解と推論」に関する論文を発表しました。この論文では、主に自然言語処理の発展の歴史を整理し、基本モデルの将来の発展の見通しを分析しました。

論文リンク: https://direct.mit.edu/daed/article/151/2/127/110621/Human-Language-Understanding-amp-Reasoning

論文の著者であるクリストファー・マニング氏は、スタンフォード大学のコンピュータサイエンスと言語学の教授であり、ディープラーニングを自然言語処理に適用する分野のリーダーです。彼の研究は、機械学習の手法を使用して計算言語学の問題に対処し、コンピュータが人間の言語をインテリジェントに処理、理解、生成できるようにすることに重点が置かれています。

マニング教授は、ACM フェロー、AAAI フェロー、ACL フェローです。「統計的自然言語処理の基礎」や「情報検索入門」など、彼の著書の多くは定番の教科書となっています。彼のコースであるスタンフォード CS224n「自然言語処理のためのディープラーニング」は、数え切れないほどの NLP 研究者にとって必読のコースです。

NLP の 4 つの時代

第一時代（1950-1969）

NLP に関する最も初期の研究は、機械翻訳の研究から始まりました。当時、人々は、第二次世界大戦中の暗号解読の結果に基づいて、翻訳タスクが今後も発展し続けることができると信じていました。冷戦の両陣営も、他国の科学的成果を翻訳できるシステムを開発していました。しかし、この時期、人々は自然言語、人工知能、機械学習の構造についてほとんど何も知りませんでした。

当時は計算能力と利用可能なデータが非常に限られており、初期のシステムは大々的に宣伝されたものの、単語レベルの翻訳検索と、単語の語形変化（形態論）と語順を処理するための単純なルールベースのメカニズムしか提供していませんでした。

第2期（1970年～1992年）

この時期には、自然言語の構文や参照などの現象を扱う際の複雑さと奥深さを示した一連の NLP デモシステムが開発されました。これらには、Terry Winograd の SHRDLU、Bill Woods の LUNAR、Roger Schank の SAM、Gary Hendrix の LIFER、Danny Bobrow の GUS などがあり、いずれも手動で構築されたルールベースのシステムで、データベースクエリなどのタスクにも使用できました。

言語学と知識ベースの AI は急速に進歩しており、この時代の 20 年目には、宣言的言語知識と手続き型処理の間に明確な境界を持ち、言語理論の進歩の恩恵を受けた新世代の手作りシステムが登場しました。

第三の時代（1993-2012）

この期間中、利用可能なデジタル化されたテキストの量が大幅に増加し、NLPの開発は徐々に深い言語理解へと移行し、数千万語のテキストから場所、比喩的概念などの情報を抽出するようになりました。しかし、それはまだ単語分析に基づいていたため、ほとんどの研究者は、マークされた単語の意味、会社名、ツリーバンクなどの注釈付き言語リソースに焦点を当て、その後、教師あり機械学習技術を使用してモデルを構築しました。

第四紀（2013年～現在）

ディープラーニングや人工ニューラルネットワークの手法が開発され始めており、長距離のコンテキストをモデル化できます。単語や文章は、数百または数千次元の実数値ベクトル空間で表されます。ベクトル空間の距離は、意味や文法の類似性を表すことができますが、実行タスクは以前の教師あり学習と似ています。

2018年、超大規模自己教師ありニューラルネットワーク学習が大きな成功を収めました。大量のテキスト（数十億語）を入力するだけで知識を学習できます。基本的な考え方は、前の単語に基づいて次の単語を継続的に予測し、数十億回の予測を繰り返して間違いから学習し、質問応答やテキスト分類タスクに使用できるというものです。

事前トレーニング済みの自己教師あり学習法の影響は革命的で、人間による注釈を必要とせずに強力なモデルを生成し、簡単な微調整でさまざまな自然言語タスクに使用できます。

モデルアーキテクチャ

2018 年以降、NLP アプリケーションの主なニューラルネットワークモデルは、Transformer ニューラルネットワークに移行しました。中心となるアイデアは注目メカニズムであり、単語の表現は、他の位置からの単語の表現の重み付けされた組み合わせとして計算されます。

Transofrmer の一般的な自己教師あり学習の目標は、テキストに出現する単語をマスクし、その位置のクエリ、キー、値のベクトルを他の単語と比較し、注目度の重みと加重平均を計算し、完全接続層、正規化層、残差接続を通じて新しい単語ベクトルを生成し、これを複数回繰り返してネットワークの深さを増やすことです。

Transformer ネットワークの構造は複雑に見えず、関連する計算も単純ですが、モデルパラメータが十分に大きく、トレーニングと予測のためのデータが大量にある場合、モデルは構文構造、単語の含意、事実の知識など、自然言語の構造のほとんどを検出できます。

prompt生成

2018 年から 2020 年にかけて、研究者が大規模な事前トレーニング済み言語モデル (LPLM) を使用する主な方法は、少量のラベル付きデータを使用してモデルを微調整し、カスタムタスクに適したものにすることでした。

しかし、GPT-3（Generative Pre-training Transformer-3）のリリース後、研究者たちは、プロンプトを入力するだけで、モデルがトレーニングされていない新しいタスクでも優れたパフォーマンスを発揮できることに驚きました。

対照的に、従来の NLP モデルは、パイプライン方式で組み立てられた複数の慎重に設計されたコンポーネントで構成されており、最初にテキストの文構造と低レベルのエンティティをキャプチャし、次に高レベルの意味を識別し、それを特定のドメイン固有の実行コンポーネントに入力します。

過去数年間、企業はこの従来の NLP ソリューションを、特定のタスクを実行するように微調整された LPLM に置き換え始めました。

機械翻訳

初期の機械翻訳システムは、限られた領域の限られた言語構造しかカバーできませんでした。

2006年に開始されたGoogle翻訳は、大規模なパラレルコーパスから統計モデルを構築した最初の翻訳者でした。2016年にGoogle翻訳はニューラル機械翻訳システムに切り替え、品質が大幅に向上しました。2020年に、Transformerベースのニューラル翻訳システムに再度更新されました。このシステムでは、2つの言語のパラレルコーパスは必要なくなり、代わりに言語の種類を示す特別なトークンを使用して、事前にトレーニングされた巨大なネットワークで翻訳します。

質問と回答のタスク

質問応答システムは、テキストコレクション内の関連情報を検索し、特定の質問に対する回答を提供する必要があります。下流には、販売前および販売後の顧客サポートなど、直接的な商用アプリケーションシナリオが多数あります。

最新のニューラルネットワーク質問応答システムは、テキスト内に存在する回答の抽出が非常に正確で、回答が存在しないテキストの分類も非常に優れています。

分類タスク

テキスト内の人物や組織の名前を識別したり、テキスト内の製品に関する感情 (肯定的または否定的) を分類したりするなど、一般的な従来の NLP タスクの場合、現在の最良のシステムは依然として LPLM の微調整に基づいています。

テキスト生成

生成システムは、多くの創造的な用途に加えて、スポーツレポート、自動要約などの定型的なニュース記事を作成したり、放射線科医の検査結果に基づいてレポートを生成したりすることもできます。

しかし、結果は印象的である一方で、研究者たちは、これらのシステムが実際に何をしているのか理解しているのか、それとも単に意味のない複雑な書き換えなのかについて懐疑的だ。

意味

言語学、言語哲学、プログラミング言語はすべて、意味を記述する方法、つまり表示的意味論または参照理論を研究します。単語、句、または文の意味は、それが記述する世界内のオブジェクトまたは状況の集合（またはその数学的抽象化）です。

現代の NLP の単純な分布意味論では、単語の意味は単にその文脈の説明であるとされていますが、マニングは、意味は言語形式と他のものとの間の接続ネットワークを理解することから生じ、それが十分に密であれば、言語形式の意味をよく理解できると考えています。

言語理解タスクにおける LPLM の成功と、大規模な自己教師あり学習を他のデータモダリティ (ビジョン、ロボット工学、ナレッジグラフ、バイオインフォマティクス、マルチモーダルデータなど) に拡張できる幅広い見通しにより、AI はより汎用的になります。

基本モデル

BERT や GPT-3 などの初期の基本モデルに加えて、言語モデルは、ナレッジグラフニューラルネットワーク、構造化データ、またはその他の感覚データと接続して、マルチモーダル学習を実現することもできます。たとえば、DALL-E モデルは、ペアの画像とテキストのコーパスで自己教師学習した後、対応する画像を生成することで、新しいテキストの意味を表現できます。

現在はまだ基本モデルの開発の初期段階ですが、将来的にはほとんどの情報処理・分析タスク、さらにはロボット制御などのタスクも、比較的少数の基本モデルで処理できるようになります。

大規模な基本モデルのトレーニングにはコストと時間がかかりますが、一度トレーニングしてしまえば、さまざまなタスクに適応させることは非常に簡単で、自然言語を直接使用してモデルの出力を調整できます。

しかし、このアプローチにはリスクもあります。

1. 基礎モデルをトレーニングする能力を持つ機関は、過度の権力と影響力を享受する可能性があります。

2. 多数のエンドユーザーがモデルトレーニングプロセスにおけるバイアスの影響を受ける可能性があります。

3. モデルとそのトレーニングデータが非常に大きいため、特定の環境でモデルを使用しても安全かどうかを判断することが困難です。

これらのモデルは、結局のところ世界を漠然としか理解できず、人間の慎重な論理や因果推論能力を欠いているものの、基本モデルの幅広い有効性は、それらを適用できるシナリオが多数あることも意味しており、おそらく今後 10 年以内に真の汎用人工知能に発展する可能性があります。

<<: シリコンバレーの大手企業トップ5社のエンジニアの年収が明らかに、Googleが134万ドルでトップに！しかし、アメリカ人の37%はAIツールに対して悲観的だ

>>: GPT-5は秘密裏にトレーニング中です！ DeepMindの共同創設者は、このモデルがGPT-4の100倍大きいことを明らかにした