表現学習: 自然言語のための高度なディープラーニング

表現学習: 自然言語のための高度なディープラーニング

表現学習では、半教師あり学習と自己教師あり学習の特定の機能を通じて、モデルのトレーニングに必要なデータの量が大幅に削減され、さらに重要なことに、従来の教師あり学習の妨げとなる注釈付きトレーニング データに重点​​が置かれます。

また、マルチタスク学習、ゼロショット学習、マニフォールドレイアウト技術、データ多重概念などの技術の開発を促進し、これらの技術を結びつける基礎となります。上記のテクノロジーは、自然言語テクノロジーにおけるディープラーニングの応用に大きな価値と大きな影響を生み出しました。

表現学習のおかげで、自然言語処理は組織にとってより高速かつ簡単に使用できるだけでなく、表現学習の登場以前には不可能だった幅広いユースケースにも適用できるようになりました。

「これらはインディコで使用しているのと同じ技術であり、グーグルやフェイスブックなどの他の組織でも使用されていることは明らかだ」とインディコ・データの最高技術責任者、スレーター・ビクトールフ氏は語った。 「しかし、表現学習はこれらの組織で小規模にしか使用されておらず、その結果は理想からは程遠いものです。また、特定のアプリケーションでは多くの困難があり、機械学習の主流を代表するものではありません。」

しかし、開発の観点から問題を見ると、長期的な利益を得るためには今すぐ行動を起こさなければなりません。

バイトペアエンコーダ

大まかに言えば、表現学習の仕組みは、キーと値のペアの概念とそれほど変わりません。これはキーに似たバイトペアエンコーディングを使用しており、Victoroff 氏は各キーには「辞書やルックアップテーブルのように」それを表す数値があると述べています。バイトペア エンコーディングは表現学習の中核であり、バイトペア エンコーディングは言語内の「意味のあるチャンク」に対して生成されます。たとえば、「'ing [ing] space' はブロックである可能性があり、または 'space um [um]' もブロックである可能性があります」と Victoroff 氏はバイト ペアのエンコードについて次のように述べています。「各ブロックの長さは約 1 文字から 10 文字です...ほとんどの場合は 1 文字から 3 文字です。」

この学習モデルには注目すべき点が 2 つあります。 1 つ目は言語的価値です。単語の場合、表現によって次のことを識別できます。これらは同義語ですか? これらは意味的に関連していますか? これらは構文的に関連していますか?第二に、この表現は、ユーザーのニーズだけでなく、単語、文、さらには段落に対しても、より多くのアプリケーション シナリオを提供できます。

ゼロショット学習

表現学習はさまざまな点でディープラーニングに大きな影響を与えますが、最も注目すべきはトレーニング データ (ラベル) の量を削減することです。これはまさに、高度な機械学習モデルの精度を向上させるための前提条件です。 「表現が十分に優れている場合は、それを使用してモデルを作成できます。これをゼロショット学習と呼びます」とビクトールフ氏は指摘します。この手法を使用すると、データ サイエンティストはラベルをモデルをトレーニングするための唯一の例として利用できます。

たとえば、飛行機の予測モデルを構築する場合、統計 AI アプローチでは「飛行機を 1 つの例として」というラベルを使用し、「数発のショット、1 発のショット」という推論を導き出します。結果は大きく異なります。 この原則により、自然言語アプリケーションにおけるエンタープライズ適用性が向上します。これは、高度な機械学習のユースケースのほとんどで、多くの場合困難な高品質のトレーニング データが必要になるためです。

マルチタスク学習

トレーニング データの削減が、ディープラーニング アプリケーション モデルと比較した表現学習における画期的な進歩であるならば、もう 1 つの画期的な進歩は、マルチタスク トレーニング モデルです。より広く使用されている教師あり学習および教師なし学習の手法では、特定のモデルを使用した機械学習タスク(販売ユースケース向けにトレーニングした後、マーケティング データに対してインテリジェントな処理と自動エンティティ抽出を実行するなど)の場合でも、モデラーは次に関連タスクに使用するときに、新しいモデルをゼロから作成する必要があります。表現学習とマルチタスク学習により、このアプローチは過去のものになるかもしれません。

「[感情分析]用のモデルタスクと[テキスト分析]用の2つ目のモデルタスクを作成したとします。2つのモデルの関係を知りたい場合は、1つのモデルに2つのタスクを作成し、トレーニングすることができます。2つのタスクは1つのモデルを共有します。関連するタスクは情報を共有し、互いのパフォーマンスを向上させることで、互いに補完し合います」とビクトロフ氏は指摘しました。

モデルの効率性と自然言語分析を改善する上でのこのアプローチの価値は明らかです。マルチタスクを実行するモデリングの能力は、ベクトルベースの NLP (自然言語処理) の分野ではよく認識されています。いくつかのコンテストでは、モデルに 10 種類の異なる NLP 問題を解くことを要求しており、モデルが実際に 1 つの NLP タスク (外国語の理解など) から学んだことを、英語の理解など別の NLP タスクに適用できるという証拠があります。「このように作成された [モデル] は、言語間学習でより多くの情報を活用していることを示すことができます」と Victoroff 氏はコメントしています。 「この現象はテレスコーピング効果と呼ばれています。たとえば、機械に英語を学習させるトレーニングをさせた後に中国語を学習させるトレーニングは、最初から中国語を直接学習させるトレーニングよりもずっと簡単です。」

データ倍数

「より良い」という言葉は相対的なものであり、NLP で何を達成しようとしているかによって、人によって意味が異なります。現実には、ディープラーニングの計算能力とスケーラビリティの観点から見ると、データの量が十分に大きい限り、質の悪いディープニューラルネットワークでも良い結果を達成できます。ただし、データ多重原理は、データ量が多くない場合の正確な位置決めに重点を置いており、評価モデルのパフォーマンスが向上し、ディープニューラルネットワークが良好な結果を達成できるようになります。 Victoroff 氏が述べたように、特定のモデルについては、「100 個のデータ ポイントでどれだけうまく機能するか、1,000 個のデータ ポイントでどれだけうまく機能するか、10,000 個のデータ ポイントでどれだけうまく機能するか」が非常に明確です。

Victoroff 氏は、高度な機械学習モデルのパフォーマンスはデータ倍数に依存しており、前述の表現学習技術 (データ倍数) では、通常「少なくともデータ倍数の 2 ~ 4 倍」を達成できると指摘しました。 Victoroff 氏は、「モデルのデータ乗数が 4 倍になると、モデルの開発に必要なトレーニング データが 4 分の 1 に減ります」と指摘しています。データ量が不十分な場合でも、データ倍数を使用してモデル化すると、比較的満足のいく結果を得ることができます。 Victoroff 氏の言葉を借りれば、「すでに持っているデータを使用することで、精度をほぼ 2 倍にすることができます。」

マニホールドレイアウト技術

自然言語技術の場合、表現は数字のリストであり、データ サイエンティストはさまざまな数学的概念を適用して、機械に単語の意味を理解させることができます。自然言語処理では、ワンホットメソッドを使用して、単語を数値のリストの形式で表現できます。この数値のリストは辞書として考えることができます。処理する必要がある自然言語コンテンツが多いほど、リストが大きくなります。各単語の表現は、多数の数字のリストを通じて完了する必要があるため、生成されるベクトルは高次元かつスパースになり、計算効率が大幅に低下します。したがって、多様体レイアウト技術を使用して、デジタルリストの意味作成部分を埋め込みに転送、つまり高次元空間のデータを低次元空間に変換することができます。

埋め込みは、離散変数を連続ベクトルに変換する方法です。離散変数の空間次元を削減するだけでなく、変数を意味のある形で表現します。ビクトロフは、埋め込みは表現を明示的な構造に配置し、その過程でこれらの表現に意味を与える方法であると明らかにしました。多様体は、自然言語技術における埋め込みの最も人気のあるタイプの 1 つです。「他の構造にはない、距離の概念を持っているからです」と Victoroff 氏は言います。

距離は、きめ細かい言語理解の分野における高度な機械学習モデルにとって非常に重要です。ビクトロフ氏によると、「文章を読むとき、同義語と反意語、そして構文木という概念があります。単語間の関係は距離として考えることができるので、距離の概念は 2 つのオブジェクトです。」多様体は次元削減を行うもので、表現を高次元空間から低次元空間に簡単に転送できるようにします。

編集者: ここで、多様体が何をするのかについて少し説明が必要です。 2 次元空間を追加することで、2 点間の距離は 2 点の x 座標と y 座標を通じて計算できます。地球儀などの多次元空間上に 2 つの点があり、その 2 つの点間の距離を知る必要がある場合は、巻尺を使用して 2 つの点を結び、距離を測定する必要があります。間違った計算方法は、地球の表面を横切る線を使用して 2 つの点を結ぶことです。

マニホールド レイアウトによって測定される距離は、この巻尺のようなもので、地球の表面に沿った 2 点間の距離を測定します。この技術は、ニューラル ネットワークの多次元空間内の 2 点間の距離を測定するときに必要です。2 点を 2 つの単語として考えることができ、距離は 2 つの単語間の関係です。近いということは、下の図に示すように、単語の意味が似ていることを意味します。同時に、埋め込みは次元削減も行い、高次元ベクトルを低次元ベクトルに変換して、分析と表示を容易にします。

成長と発展

ディープラーニングの分野は急速に成長し続けています。表現学習により、自然言語技術アプリケーションのトレーニング データの量を削減し、トレーニングの効率を向上させることができます。同時に、マルチタスク学習の基礎となるモデルの有用性も多様化します。その結果、組織はこれらのモデルを使用してより多くの成果を達成し、モデルの構築に必要な時間と労力を削減し、NLP やその他のアプリケーションの精度を向上させることができます。

著者について

51CTO コミュニティ エディター兼シニア アーキテクトの Cui Hao 氏は、ソフトウェア開発とアーキテクチャで 18 年の経験があり、分散アーキテクチャでは 10 年の経験があります。元HPの技術専門家。彼は情報を共有することに積極的で、60 万回以上読まれている人気の高い技術記事を多数執筆しています。 『分散アーキテクチャの原則と実践』の著者。

参照する

https://insidebigdata.com/2022/02/04/elite-deep-learning-for-natural-language-technologies-representation-learning/

https://www.jiqizhixin.com/articles/2019-03-27-7

https://www.zhihu.com/question/32275069

https://zhuanlan.zhihu.com/p/46016518


<<:  人工知能業界における「人材獲得競争」をどう打破するか?

>>:  通信会社は AI と機械学習をどのように活用して利益率を向上させることができるでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

ちょっとした会話の後に心を開いてみませんか?この世代の人工知能はあなたのプライバシーを会話の話題に変えました

あまりに多くのことを知ると、誰かがあなたを困らせたくなるでしょう。ドラマに出演するときも、会社を立ち...

...

炭素系生物は排除されます! AIがクロスワードパズルで初勝利

先週のバーチャルクロスワードパズル「アメリカンクロスワードパズルトーナメント」には1,000人を超え...

RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

たとえば、ボットに請求書を分析してもらい、それを社内の適切な連絡先に送信させたいとします。十分簡単そ...

機械学習: Python による分類

子供にリンゴとオレンジの区別を教えたいとします。これを行うには複数の方法があります。お子様にこの 2...

AIは教育の問題を解決できないが、メンターツールにはなり得る

今、これまで以上に、教師たちは助けを必要としています。数週間のうちにすべての授業をオンラインに移行す...

マイクロソフト、NvidiaとIntelに対抗する2つのカスタムAIチップをリリース

マイクロソフトは最近、シアトルで開催されたIgniteカンファレンスで2つのAIチップをリリースした...

2022 年のヘルスケアと医薬品における AI の予測

市場の一流専門家によると、AI は病院の運営、新薬の発見、超音波検査を改善する可能性を秘めています。...

企業における機械学習: 次の 1 兆ドル規模の成長はどこから来るのでしょうか?

ハリー・ポッターの世界では、組分け帽子は生徒の行動履歴、好み、性格に関するデータを取得し、そのデータ...

...

...

説明可能なAI: 4つの主要産業

[[267801]] AI システムがどのように意思決定を行うかを人々が理解できるようにする説明可能...

OpenAI は GPT-4 をすべての有料 API ユーザーに公開します

OpenAIは7月7日、今年3月にGPT-4をリリースしたが、テストへの参加を申請した一部の開発者の...

プログラマーは「自殺」している。人工知能が進化し続ける中、人間は何をすべきか?

中国、日本、韓国の囲碁名人数十人がこのゲームに挑み、アルファ碁は1敗もせずに60連勝した。その後、世...