表現学習: 自然言語のための高度なディープラーニング

表現学習では、半教師あり学習と自己教師あり学習の特定の機能を通じて、モデルのトレーニングに必要なデータの量が大幅に削減され、さらに重要なことに、従来の教師あり学習の妨げとなる注釈付きトレーニングデータに重点が置かれます。

また、マルチタスク学習、ゼロショット学習、マニフォールドレイアウト技術、データ多重概念などの技術の開発を促進し、これらの技術を結びつける基礎となります。上記のテクノロジーは、自然言語テクノロジーにおけるディープラーニングの応用に大きな価値と大きな影響を生み出しました。

表現学習のおかげで、自然言語処理は組織にとってより高速かつ簡単に使用できるだけでなく、表現学習の登場以前には不可能だった幅広いユースケースにも適用できるようになりました。

「これらはインディコで使用しているのと同じ技術であり、グーグルやフェイスブックなどの他の組織でも使用されていることは明らかだ」とインディコ・データの最高技術責任者、スレーター・ビクトールフ氏は語った。「しかし、表現学習はこれらの組織で小規模にしか使用されておらず、その結果は理想からは程遠いものです。また、特定のアプリケーションでは多くの困難があり、機械学習の主流を代表するものではありません。」

しかし、開発の観点から問題を見ると、長期的な利益を得るためには今すぐ行動を起こさなければなりません。

バイトペアエンコーダ

大まかに言えば、表現学習の仕組みは、キーと値のペアの概念とそれほど変わりません。これはキーに似たバイトペアエンコーディングを使用しており、Victoroff 氏は各キーには「辞書やルックアップテーブルのように」それを表す数値があると述べています。バイトペアエンコーディングは表現学習の中核であり、バイトペアエンコーディングは言語内の「意味のあるチャンク」に対して生成されます。たとえば、「'ing [ing] space' はブロックである可能性があり、または 'space um [um]' もブロックである可能性があります」と Victoroff 氏はバイトペアのエンコードについて次のように述べています。「各ブロックの長さは約 1 文字から 10 文字です...ほとんどの場合は 1 文字から 3 文字です。」

この学習モデルには注目すべき点が 2 つあります。 1 つ目は言語的価値です。単語の場合、表現によって次のことを識別できます。これらは同義語ですか? これらは意味的に関連していますか? これらは構文的に関連していますか?第二に、この表現は、ユーザーのニーズだけでなく、単語、文、さらには段落に対しても、より多くのアプリケーションシナリオを提供できます。

ゼロショット学習

表現学習はさまざまな点でディープラーニングに大きな影響を与えますが、最も注目すべきはトレーニングデータ (ラベル) の量を削減することです。これはまさに、高度な機械学習モデルの精度を向上させるための前提条件です。「表現が十分に優れている場合は、それを使用してモデルを作成できます。これをゼロショット学習と呼びます」とビクトールフ氏は指摘します。この手法を使用すると、データサイエンティストはラベルをモデルをトレーニングするための唯一の例として利用できます。

たとえば、飛行機の予測モデルを構築する場合、統計 AI アプローチでは「飛行機を 1 つの例として」というラベルを使用し、「数発のショット、1 発のショット」という推論を導き出します。結果は大きく異なります。この原則により、自然言語アプリケーションにおけるエンタープライズ適用性が向上します。これは、高度な機械学習のユースケースのほとんどで、多くの場合困難な高品質のトレーニングデータが必要になるためです。

マルチタスク学習

トレーニングデータの削減が、ディープラーニングアプリケーションモデルと比較した表現学習における画期的な進歩であるならば、もう 1 つの画期的な進歩は、マルチタスクトレーニングモデルです。より広く使用されている教師あり学習および教師なし学習の手法では、特定のモデルを使用した機械学習タスク（販売ユースケース向けにトレーニングした後、マーケティングデータに対してインテリジェントな処理と自動エンティティ抽出を実行するなど）の場合でも、モデラーは次に関連タスクに使用するときに、新しいモデルをゼロから作成する必要があります。表現学習とマルチタスク学習により、このアプローチは過去のものになるかもしれません。

「[感情分析]用のモデルタスクと[テキスト分析]用の2つ目のモデルタスクを作成したとします。2つのモデルの関係を知りたい場合は、1つのモデルに2つのタスクを作成し、トレーニングすることができます。2つのタスクは1つのモデルを共有します。関連するタスクは情報を共有し、互いのパフォーマンスを向上させることで、互いに補完し合います」とビクトロフ氏は指摘しました。

モデルの効率性と自然言語分析を改善する上でのこのアプローチの価値は明らかです。マルチタスクを実行するモデリングの能力は、ベクトルベースの NLP (自然言語処理) の分野ではよく認識されています。いくつかのコンテストでは、モデルに 10 種類の異なる NLP 問題を解くことを要求しており、モデルが実際に 1 つの NLP タスク (外国語の理解など) から学んだことを、英語の理解など別の NLP タスクに適用できるという証拠があります。「このように作成された [モデル] は、言語間学習でより多くの情報を活用していることを示すことができます」と Victoroff 氏はコメントしています。「この現象はテレスコーピング効果と呼ばれています。たとえば、機械に英語を学習させるトレーニングをさせた後に中国語を学習させるトレーニングは、最初から中国語を直接学習させるトレーニングよりもずっと簡単です。」

データ倍数

「より良い」という言葉は相対的なものであり、NLP で何を達成しようとしているかによって、人によって意味が異なります。現実には、ディープラーニングの計算能力とスケーラビリティの観点から見ると、データの量が十分に大きい限り、質の悪いディープニューラルネットワークでも良い結果を達成できます。ただし、データ多重原理は、データ量が多くない場合の正確な位置決めに重点を置いており、評価モデルのパフォーマンスが向上し、ディープニューラルネットワークが良好な結果を達成できるようになります。 Victoroff 氏が述べたように、特定のモデルについては、「100 個のデータポイントでどれだけうまく機能するか、1,000 個のデータポイントでどれだけうまく機能するか、10,000 個のデータポイントでどれだけうまく機能するか」が非常に明確です。

Victoroff 氏は、高度な機械学習モデルのパフォーマンスはデータ倍数に依存しており、前述の表現学習技術 (データ倍数) では、通常「少なくともデータ倍数の 2 ～ 4 倍」を達成できると指摘しました。 Victoroff 氏は、「モデルのデータ乗数が 4 倍になると、モデルの開発に必要なトレーニングデータが 4 分の 1 に減ります」と指摘しています。データ量が不十分な場合でも、データ倍数を使用してモデル化すると、比較的満足のいく結果を得ることができます。 Victoroff 氏の言葉を借りれば、「すでに持っているデータを使用することで、精度をほぼ 2 倍にすることができます。」

マニホールドレイアウト技術

自然言語技術の場合、表現は数字のリストであり、データサイエンティストはさまざまな数学的概念を適用して、機械に単語の意味を理解させることができます。自然言語処理では、ワンホットメソッドを使用して、単語を数値のリストの形式で表現できます。この数値のリストは辞書として考えることができます。処理する必要がある自然言語コンテンツが多いほど、リストが大きくなります。各単語の表現は、多数の数字のリストを通じて完了する必要があるため、生成されるベクトルは高次元かつスパースになり、計算効率が大幅に低下します。したがって、多様体レイアウト技術を使用して、デジタルリストの意味作成部分を埋め込みに転送、つまり高次元空間のデータを低次元空間に変換することができます。

埋め込みは、離散変数を連続ベクトルに変換する方法です。離散変数の空間次元を削減するだけでなく、変数を意味のある形で表現します。ビクトロフは、埋め込みは表現を明示的な構造に配置し、その過程でこれらの表現に意味を与える方法であると明らかにしました。多様体は、自然言語技術における埋め込みの最も人気のあるタイプの 1 つです。「他の構造にはない、距離の概念を持っているからです」と Victoroff 氏は言います。

距離は、きめ細かい言語理解の分野における高度な機械学習モデルにとって非常に重要です。ビクトロフ氏によると、「文章を読むとき、同義語と反意語、そして構文木という概念があります。単語間の関係は距離として考えることができるので、距離の概念は 2 つのオブジェクトです。」多様体は次元削減を行うもので、表現を高次元空間から低次元空間に簡単に転送できるようにします。

編集者: ここで、多様体が何をするのかについて少し説明が必要です。 2 次元空間を追加することで、2 点間の距離は 2 点の x 座標と y 座標を通じて計算できます。地球儀などの多次元空間上に 2 つの点があり、その 2 つの点間の距離を知る必要がある場合は、巻尺を使用して 2 つの点を結び、距離を測定する必要があります。間違った計算方法は、地球の表面を横切る線を使用して 2 つの点を結ぶことです。

マニホールドレイアウトによって測定される距離は、この巻尺のようなもので、地球の表面に沿った 2 点間の距離を測定します。この技術は、ニューラルネットワークの多次元空間内の 2 点間の距離を測定するときに必要です。2 点を 2 つの単語として考えることができ、距離は 2 つの単語間の関係です。近いということは、下の図に示すように、単語の意味が似ていることを意味します。同時に、埋め込みは次元削減も行い、高次元ベクトルを低次元ベクトルに変換して、分析と表示を容易にします。

成長と発展

ディープラーニングの分野は急速に成長し続けています。表現学習により、自然言語技術アプリケーションのトレーニングデータの量を削減し、トレーニングの効率を向上させることができます。同時に、マルチタスク学習の基礎となるモデルの有用性も多様化します。その結果、組織はこれらのモデルを使用してより多くの成果を達成し、モデルの構築に必要な時間と労力を削減し、NLP やその他のアプリケーションの精度を向上させることができます。

著者について

51CTO コミュニティエディター兼シニアアーキテクトの Cui Hao 氏は、ソフトウェア開発とアーキテクチャで 18 年の経験があり、分散アーキテクチャでは 10 年の経験があります。元HPの技術専門家。彼は情報を共有することに積極的で、60 万回以上読まれている人気の高い技術記事を多数執筆しています。『分散アーキテクチャの原則と実践』の著者。