NLP は人工知能を刺激的な新時代へと導きます。 現在、人工知能分野で最もホットな話題は、大規模モデルの事前トレーニングです。この研究は、汎用人工知能の分野で初期の成果を示し始めたと多くの人が考えています。 自然言語処理分野の著名な学者であり、スタンフォード大学教授でもあるクリストファー・マニング氏は最近、アメリカ人文科学アカデミー(AAAS)誌のAI&Society特別号に「人間の言語理解と推論」と題する論文を発表し、意味論と言語理解の本質を探り、ビッグモデルの将来に期待を寄せている。 マニング氏は、NLP 分野における技術革新により、私たちは汎用人工知能 (AGI) に向けて確固たる一歩を踏み出した可能性があると考えています。 まとめ過去 10 年間、単純なニューラル ネットワーク計算によって自然言語処理に大きな驚くべき進歩がもたらされ、その成功は極めて大規模に再現され、膨大な量のデータでトレーニングされました。結果として得られる BERT や GPT-3 などの事前トレーニング済みの言語モデルは、多くの理解、書き込み、推論のタスクに簡単に適応できる一般的な言語の理解と生成のための強力な基盤を提供します。 これらのモデルは、より一般的な形態の人工知能の最初の兆候を示しており、言語だけでなく知覚経験の領域全体にわたる強力な基礎モデルにつながる可能性があります。 NLP の 4 つの時代科学者が人工知能について考えるとき、ほとんどの人はまず、単一の人間の脳をモデル化または再現する能力について考えます。しかし、現代人の知能は単一の脳の知能をはるかに超えています。 人間の言語は強力であり、人々の集団が脳をネットワーク化する方法を提供するため、人類に大きな影響を与えてきました。人間は、おそらく私たちに最も近い親戚であるチンパンジーやボノボよりもそれほど賢くはない。これらの類人猿は、道具の使用や計画など、人間の知能の特徴的なスキルの多くを備えていることがわかっています。さらに、彼らの短期記憶は私たちよりもさらに優れています。 人間がいつ言語を発明したかは永遠に謎のままかもしれないが、地球上の生命の長い進化の歴史の中で、人間が言語を発達させたのはごく最近のことであることは比較的確実である。原猿、サル、類人猿の共通の祖先は約 6,500 万年前に遡ります。人類は約600万年前にチンパンジーから分岐し、人間の言語の歴史は数十万年程度と一般的に考えられています。 人類が言語を発達させると、コミュニケーションの力によって、ホモ・サピエンスはゾウほど強くなく、チーターほど速くもないにもかかわらず、すぐに他の生物を追い抜くことができました。人類が文字を発明したのはごく最近(おそらく約 5,000 年前)で、これによって時間と空間の境界を越えて知識を伝達することが可能になりました。わずか数千年の間に、この情報共有の仕組みは青銅器時代から今日のスマートフォンにまで進化しました。人間同士の合理的な議論と情報配信を可能にする高忠実度のコードは、複雑な社会の文化的進化を可能にし、現代のテクノロジーの背後にある知識を生み出します。言語の力は人間の社会的知能の基礎であり、AI ツールが人間の能力を強化する将来の世界でも重要な役割を果たし続けるでしょう。 これらの理由から、自然言語処理 (NLP) の分野は AI の初期の発展と並行して登場しました。実際、機械翻訳における NLP 問題に関する予備研究は、歴史上初の機械翻訳を実現した 1954 年の有名なジョージタウン大学と IBM の実験を含め、1956 年に「人工知能」という用語が作られる前から行われていました。本稿では、自然言語の歴史的処理について簡単に概説しました。次に、大量のデータでトレーニングされた大規模な人工ニューラル ネットワーク モデルの使用によってもたらされた NLP の最近の劇的な進歩について説明しました。私は、これらの手法を使用して効果的な NLP システムを構築する上で達成された驚異的な進歩をたどり、これらのモデルが達成したことと、今後どこに向かう可能性があるかについての考察をまとめます。 現在までに、自然言語処理の歴史は、大きく 4 つの時代に分けることができます。 最初の時代は1950年から1969年まで続きました。 NLP 研究は機械翻訳研究から始まりました。第二次世界大戦中の暗号解読におけるコンピューターの大きな成功を基盤として、翻訳が急速に発展していくことは想像に難くない。冷戦の両陣営の研究者は、他国の科学的研究の成果を翻訳できるシステムの開発を目指しました。しかし、この時代が始まった当初は、人間の言語、人工知能、機械学習の構造についてはほとんど何もわかっていませんでした。振り返ってみると、利用可能なコンピューティングとデータの量は悲惨なほど少なかった。初期のシステムを取り巻く誇大宣伝にもかかわらず、これらのシステムは単語レベルの翻訳検索と、単語の語形変化(形態変化)と語順を処理するための単純であまり原則的ではないルールベースのメカニズムしか提供していませんでした。 1970 年から 1992 年までの第 2 の時代には、人間の言語における構文や参照などの現象の処理における複雑さと奥深さを示す一連の NLP デモンストレーション システムが開発されました。これらのシステムには、テリー・ウィノグラッドの SHRDLU、ビル・ウッズの LUNAR、ロジャー・シャンクの SAM などのシステム、ゲイリー・ヘンドリックスの LIFER、ダニー・ボブロウの GUS などが含まれていました。これらは人間が手作業で構築したルールベースのシステムですが、人間の言語理解の複雑さの一部をモデル化して使用し始めています。一部のシステムは、データベースクエリなどのタスク用に導入されることもあります。言語学と知識ベースの AI は急速に進歩しており、この時代の 10 年間では、言語知識の宣言的および手続き的な処理とは一線を画し、言語理論のより現代的なさまざまな発展の恩恵を受ける、新しい世代の手作りシステムが登場しています。 しかし、1993年から2012年までの第3期には、私たちの仕事の方向性が大きく変わりました。この時期にはデジタルテキストが豊富になり、最も適切な方向性は、大量の自然言語コンテンツに対してある程度の言語理解を達成できるアルゴリズムを開発し、この能力を獲得するためにテキストの存在を活用することでした。これにより、NLP の経験的機械学習モデルを中心とした分野の根本的な方向転換が起こり、この方向性は現在でも主流となっています。 この期間の初めに私たちが主に取り組んだのは、適度な量のオンライン テキスト (当時のテキスト コレクションは一般に数千万語未満でした) を収集し、主に特定の事実を計算することによって、そこから何らかのモデル データを抽出するというものでした。たとえば、人々が識別するものの種類は、人間の場所 (都市、町、要塞など) と比喩的な概念 (想像力、注意、本質など) の間でほぼ均等にバランスが取れていることに気付くかもしれません。しかし、単語を数えることは言語理解手段としては限界があり、テキストコレクションから言語構造を学習するという初期の経験的試みはほとんど成功しませんでした。このため、この分野の多くは、単語のラベル付け、テキスト内の人名や会社名のインスタンス、ツリーバンク内の文の文法構造などの注釈付き言語リソースの構築に重点を置くようになり、その後、教師あり機械学習技術を使用して、実行時に新しいテキストスニペットに同様のラベルを生成できるモデルを構築しています。 2013年以降、第三期の実証的方向性を広げてきましたが、ディープラーニング/人工ニューラルネットワーク手法の導入により、作業は劇的に変化しました。 新しいアプローチでは、単語や文は(数十または数千次元の)実数値ベクトル空間内の位置によって表され、意味や構文の類似性はこの空間内の近接性によって表されます。 2013 年から 2018 年にかけて、ディープラーニングは、より離れたコンテキストをより簡単にモデル化できる高性能モデルを構築するより強力な方法を提供しました。また、モデルは、記号の同一性 (単語の形や品詞など) に依存するのではなく、ベクトル空間での近接性を活用できるため、同様の意味を持つ単語やフレーズに対してより適切に一般化できます。ただし、特定の分析タスクを実行するための教師あり機械学習モデルの構築という点では、アプローチは変わっていません。 2018 年、NLP における非常に大規模な自己教師ありニューラル ネットワーク学習が初めて大きな成功を収め、すべてが変わりました。このアプローチでは、システムは大量のテキスト(現在では数十億語に及ぶことも珍しくありません)にさらされることで、膨大な量の言語と世界の知識を学習することができます。これを実現するための自己教師型アプローチは、AI システムにテキストから独自に予測課題を作成させることです。たとえば、前の単語が与えられたテキスト内の「次の単語」を順に識別したり、テキスト内の不明瞭な単語やフレーズを埋めたりします。このような予測タスクを何十億回も繰り返し、その間違いから学習することで、モデルは次に同様のテキストコンテキストが与えられたときにより良い結果を出すようになり、言語と世界についての一般的な知識を蓄積します。その後、その知識を質問への回答やテキスト分類などのより興味深いタスクに展開できます。 ビッグモデルが画期的な理由振り返ってみると、大規模な自己教師あり学習法の開発は革命とみなされる可能性があり、第 3 の時代は 2017 年まで続く可能性があります。事前トレーニング済みの自己教師あり学習法の影響は画期的です。大量のラベルなしの人間の言語資料をトレーニングできるようになり、微調整やプロンプトで簡単に調整できる大規模な事前トレーニング済みモデルを生成して、さまざまな自然言語の理解と生成のタスクで強力な結果を提供できるようになりました。現在、NLP の進歩と関心が爆発的に高まっています。ある程度の汎用的な知能を備えた知識を注入したシステムの出現が見られ始めているという楽観的な見方があります。 ここでは、人間の言語の現在主流となっているニューラル ネットワーク モデルを完全に説明することはできません。本質的に、これらのモデルはすべてを実数のベクトルとして表現し、何らかの予測タスクからのエラーを単語表現に逆伝播することで(つまり微積分を行うことで)、大量のデータにさらされた後でテキストを非常にうまく表現することを学習できます。 2018 年以降、NLP アプリケーションの主なニューラル ネットワーク モデルは、Transformer アーキテクチャ ニューラル ネットワークとなっています。 Transformer は、数十年前に単語シーケンス用に研究された単純なニューラル ネットワークよりも複雑なモデルです。主要なアイデアの 1 つは注目メカニズムです。注目メカニズムによって、1 つの位置の表現が他の位置の表現の重み付けされた組み合わせとして計算されます。 Transformer モデルにおける一般的な自己教師付き目標は、テキスト内の不定期の単語をマスクすることです。この場合、モデルはギャップにあった単語をカウントします。これは、各単語の位置 (マスクされた位置を含む) から、その位置のクエリ、キー、および値を表すベクトルを計算することによって行われます。特定の位置のクエリは各位置の値と比較され、アルゴリズムは各位置の注目度を計算します。これに基づいて、すべての場所の値の加重平均が計算されます。 この操作は、Transformer ニューラル ネットワークの各レイヤーで複数回繰り返され、結果の値は、完全に接続されたニューラル ネットワーク レイヤーを通じてさらに操作され、正規化レイヤーと残差接続を使用して各単語の新しいベクトルが生成されます。このプロセス全体が複数回繰り返され、Transformer ニューラル ネットワークにさらに深いレイヤーが提供されます。最後に、マスクされた位置の上の表示は、元のテキスト内の単語をキャプチャする必要があります。たとえば、図 1 に示すように、committee です。 Transformer ニューラル ネットワークの単純な計算によって何が達成または学習できるかは明らかではなく、一見すると、ある種の複雑な統計的関連学習器のように見えます。しかし、Transformer のような非常に強力で柔軟なハイパーパラメータ モデルと大量のデータを使用して予測を実行することで、モデルは人間の言語の構造の多くを発見し、表現しました。研究では、これらのモデルが文の構文構造を学習して表現し、自然言語でマスクされた単語をモデルがうまく予測するのに役立つ多くの事実を記憶することを学習することが示されました。 さらに、マスクされた単語を予測することは、最初はかなり単純で低レベルのタスクのように見えますが、このタスクの結果は強力で一般的な効果をもたらします。これらのモデルは、言語と、彼らが触れる幅広い現実世界の知識を結び付けます。 さらに指示を与えることで、このような大規模な事前トレーニング済みモデル (LPLM) を多くの特定の NLP タスクに展開できます。 2018 年から 2020 年にかけて、この分野での標準的なアプローチは、少しの追加的な監督によってモデルを微調整し、関心のあるタスクに正確にトレーニングするというものでした。しかし最近、研究者たちは、GPT-3 (Generative Pretrained Transformer) などの最大のモデルが、プロンプトだけで新しいタスクを非常にうまく実行できることを発見し、驚きました。人間の言語による説明や、モデルに実行させたいことの例をいくつか与えると、モデルはこれまでトレーニングされたことのない多くのタスクを実行できます。 大規模モデルがもたらす新しいNLPパラダイム従来の自然言語処理モデルは、通常、独立して開発された複数のコンポーネントで構成され、通常はパイプラインに組み込まれ、最初に文の構造とテキストの低レベルのエンティティをキャプチャし、次に語彙の高レベルの意味をキャプチャして、ドメイン固有の実行コンポーネントに送り込みます。過去数年間にわたり、業界ではこの従来の NLP ソリューションを、通常は特定のタスクを実行するために微調整された LPLM に置き換えてきました。 2020 年代に LPLM が何を達成できるか楽しみです。 初期の機械翻訳システムは、限られた領域の限られた言語構造をカバーしていました。翻訳されたテキストの広範な並列コーパスから大規模な統計モデルを構築するというアプローチは、以前から存在しており、2006 年に初めてリリースされた Google 翻訳を可能にしました。 10年後の2016年後半、Google はニューラル機械翻訳に切り替え、機械翻訳のパフォーマンスを大幅に向上させました。しかし、新しいシステムの更新と置き換えはますます急速に進んでいます。2020 年には、Transformer ベースのニューラル翻訳システムが、さまざまなニューラル アーキテクチャとメソッドを使用して改良されました。 新しいシステムでは、2 つの言語間で翻訳する大規模なシステムの代わりに、Google 翻訳でカバーされているすべての言語を一度にトレーニングした巨大なニューラル ネットワークを使用し、異なる言語をマークする単純なトークンのみを使用します。システムはまだ間違いを犯しますが、機械翻訳は進歩し続けており、今日の自動翻訳の品質はすでに優れています。 たとえば、フランス語を英語に翻訳するには、次のようにします。 1930年に描かれたこの絵画も、芸術家ジョニー・ヘスの作品です。 ダイナミックなシーン、彫刻と絵画の両方で描かれた俊敏なシルエット、傷ついた背中、補間とテキスト批評によって明らかにされた。 1933年にピアニストのジョニー・ヘスとのデュエットで成功を収めた後、ソロアーティストとしてデビューした1930年代半ば、彼は「歌う狂人」というあだ名をつけられた。 舞台上の躍動感、機敏な姿勢、大きく笑った目、乱れた髪、そして特に、彼の解釈やテキストの書き方において言葉に与えたリズムに対して。 質問応答システムでは、システムは一連のテキストから関連情報を見つけ、特定の質問に対する回答を提供します (初期の Web 検索のように、関連情報を提案するページを返すだけではありません)。質問応答システムには、販売前および販売後の顧客相談など、直接的なビジネスアプリケーションが数多くあります。最新のニューラル ネットワーク質問応答システムは、テキスト内に存在する回答の抽出精度が高く、存在しない回答を見つけ出すことも得意です。 たとえば、次の英語のテキストから質問の答えを見つけます。 Samsung は、Galaxy S20 Ultra (お勧めしません) よりも洗練されたデザインなど、最高の機能を Galaxy Note 20 Ultra に残しました。並外れた 6.9 インチの画面、鮮明な 5 倍光学ズーム カメラ、スクリーンショットに注釈を付けたりメモを取ったりするためのより高速なスタイラスペンが備わっています。 Note 20 Ultra は、特にカメラの分野で、Note 10 Plus に比べて小さいながらも重要な機能強化も施しています。これらの機能は Note 20 Ultra の価格に見合うものなのでしょうか? 128GB バージョンの価格は 1,300 ドルから始まります。 深刻な世界的不況と失業率の上昇という状況を考えると、小売価格は高すぎる。 Samsung Galaxy Note 20 Ultraの価格はいくらですか?
Galaxy Note 20 Ultraには20倍光学ズームがありますか?
Galaxy Note 20 Ultraの光学ズームとは何ですか?
Galaxy Note 20 Ultraの画面の大きさはどれくらいですか?
テキスト内の人物や組織の名前にタグを付けたり、テキストの感情 (肯定的または否定的) を分類したりするなど、一般的な従来の NLP タスクの場合、現在の最良のシステムは依然として LPLM に基づいており、これは、望ましい方法でラベル付けされた一連の例を提供することで、特定のタスクに合わせて微調整されます。これらのタスクは大規模言語モデルが登場する前から十分に達成されていましたが、大規模モデルにおける言語と世界の知識の広さにより、これらのタスクのパフォーマンスがさらに向上します。 最後に、LPLM は流暢で連続的なテキストを生成する能力に革命をもたらしました。このようなシステムには、多くの創造的な用途に加えて、定型的なニュース記事の作成や要約の自動生成などの実用的な用途もあります。さらに、このようなシステムは、放射線科医の所見に基づいて重要なポイントを提案(または要約)することで、放射線科医による病状の診断を支援することができます。 これらの NLP システムは、多くのタスクで非常に優れたパフォーマンスを発揮します。実際、特定のタスクを与えられれば、ロボットは人間のようにそのタスクを実行するように訓練されることがよくあります。それでも、これらのシステムが実際に何をしているのか理解しているのか、それとも単に意味のない操作を繰り返しているだけなのかを疑う理由があります。 プログラミング言語のより複雑な理解を例にとると、プログラミング言語の単語の意味は主に参照意味論の助けを借りて記述されます。単語、句、または文の意味は、このように世界またはその数学的抽象を記述するオブジェクトまたは状況のセットです。これは、単語の意味がもはや単なる文脈の説明ではなくなった、NLP の最新の実験で研究されている単純な分布意味論 (または意味の使用理論) とはまったく対照的です。 大規模モデルは本当に人間の言語を理解するのでしょうか?言語の意味は、言語形式と他のものとの間のつながりのネットワークを理解することから生まれると私は考えています。密な協会ネットワークがあれば、言語形式の意味をかなり正確に把握することができます。たとえば、「shehnai」がインドの言葉だと知っていれば、インドの suona であるこの言葉の意味について合理的な概念を持つことができます。また、この楽器の演奏音を聞くことができれば、shehnai という言葉の意味をより深く理解することができます。 逆に、私がシェーナイの音を見たことも聞いたこともないのに、誰かがそれが伝統的なインドのオーボエのようなものだと言ったら、その言葉は私にとっても何か意味があることになります。シェーナイはインドや管楽器に関連しており、音楽を演奏するために使用されるのです。 誰かが、シェナイには穴があり、複数のリードがあり、オーボエのように端が広がっていると付け加えれば、オブジェクト シェナイに接続されたプロパティのネットワークはより大きくなります。逆に、私にはそのような情報がまったくなく、その単語が使用されている文脈が数段落だけある場合もあります。たとえば、
ある意味では、私は「シェナイ」という言葉の意味をあまり理解していませんが、追加の文化的連想に基づいて、それが管状の楽器であることは知っています。 したがって、言語の意味を理解するには、言語形式の連想ネットワークを理解する必要があり、事前にトレーニングされた言語モデルは言語の意味を学習することができます。単語自体の意味に加えて、事前トレーニング済みの言語モデルには多くの実用的な知識も含まれています。多くのモデルは百科事典で訓練されており、エイブラハム・リンカーンが1809年にケンタッキー州で生まれたことや、ビヨンセがデスティニーズ・チャイルドを歌ったことを知っています。 人間と同様に、機械も人間の知識リポジトリから大きな恩恵を受けることができます。しかし、単語の意味や世界に関する知識に対するモデルの理解は多くの場合非常に不完全であり、他の感覚データや知識で強化する必要があります。大量のテキスト データは、そもそもこれらのモデルを探索および構築するための非常にアクセスしやすい方法を提供しますが、他の種類のデータへの拡張も必要です。 言語理解タスクにおける LPLM の成功と、大規模な自己教師あり学習を他のデータ モダリティ (ビジョン、ロボット工学、ナレッジ グラフ、バイオインフォマティクス、マルチモーダル データなど) に拡張するという刺激的な展望は、より一般的な方向性への期待を示しています。私たちは、自己監督によって大量のデータでトレーニングされた数百万のパラメータを持つ汎用クラスモデル用の用語ベースモデルを提案します。このモデルは、幅広い下流タスクを実行するために簡単に適応できます。 BERT (Bidirectional Encoder Representations from Transformers) と GPT-3 はこの種の基本モデルの初期の例ですが、現在、より広範な作業が進行中です。 1 つの方向性は、言語モデルを、実行時に参照される知識グラフ、ニューラル ネットワーク、または大量のテキストとして表される、より構造化された知識ストアに接続することです。しかし、最もエキサイティングで有望な方向性は、世界からの他の感覚データも吸収して統合されたマルチモーダル学習を実現できる基礎モデルを構築することです。 その一例が最近の DALL-E モデルです。このモデルは、画像とテキストのペアのコーパスで自己教師学習を行った後、対応する画像を生成することで新しいテキストの意味を表現できます。 まだ基礎モデルの時代は始まったばかりですが、起こりうる未来を概観してみましょう。ほとんどの情報処理および分析タスク、さらにはロボット制御なども、数少ない基礎モデルの 1 つの特化バージョンによって引き継がれるようになるでしょう。これらのモデルはトレーニングに費用と時間がかかりますが、さまざまなタスクに適応するのは非常に簡単です。実際、自然言語の指示を使用するだけでこれを行うことができるかもしれません。 少数のモデルへの収束には、いくつかのリスクがあります。これらのモデルを構築できる機関が過大な権力と影響力を持つ可能性があり、多くのエンドユーザーがこれらのモデルに内在するバイアスの影響を受け、モデルが正しいかどうかを判断するのが困難になる可能性があります。さらに、モデルとそのトレーニング データが非常に大きいため、特定の環境での使用の安全性が疑問視されています。 いずれにせよ、大量のトレーニング データから得た知識をさまざまなタスクに適用できるこれらのモデルの能力は、モデルを非常に強力なものにし、また、人間からの指示のみで多くの特定のタスクを実行できる初の AI となるでしょう。これらのモデルは、最終的には漠然とした知識しか獲得できないかもしれませんが、人間の洗練された論理や因果推論能力が欠けているため、その可能性は依然として限られている可能性があります。しかし、基礎となるモデルの一般的な有効性は、それらが非常に広く導入されることを意味しており、今後 10 年間で AI のより一般的な形態を初めて垣間見ることができるようになります。 |
<<: 人工知能は工場のメンテナンスに大きな役割を果たすだろう
>>: テンセントの「Hunyuan」AIモデルがCLUE分類リストの歴史的記録を更新
[[415590]]ボストン・ダイナミクス社が開発したヒューマノイドロボット「アトラス」、ロボット...
最近、ますます多くの企業が人工知能に投資しています。しかし、成功するには、推論の解釈可能性、データ密...
[[351784]]ビッグデータダイジェスト制作著者: miggyようやく気に入った家が見つかり、...
6月6日、2021年世界人工知能技術大会の「発展と課題」特別フォーラムが杭州で開催された。快手テク...
[[426679]]序文データ構造とアルゴリズムのグラフ理論において、最小全域木アルゴリズムは、比...
[51CTO.comからのオリジナル記事]最近、UiPathとSF Supply Chainは共同オ...
著作権法実施条例第2条によると、「著作権法でいう著作物とは、文学、芸術、科学の分野における知的成果で...
科学研究、金融、小売から工業、農業まで、ますます多くの業界やビジネス シナリオで、効率の向上とコスト...
焼き菓子は、世界中のさまざまな料理の中で常に重要な位置を占めてきました。柔らかいパン、繊細なケーキ、...
海外メディア(VentureBeat)によると、1980年代後半には、多くのスタートアップ企業、政府...
まとめこの記事では主に、プロンプトを最適化することで ChatGPT の使用を改善する方法について説...
3nmプロセス、H100をはるかに超える性能!つい最近、海外メディアのDigiTimesが、コードネ...
[[277303]] [51CTO.com クイック翻訳] 開発者は人気のある仕事の 1 つであり、...