モデルは、人々の言葉をいくつか聞くことで、よりよく学習できるでしょうか?スタンフォード大学は学習を支援するために言語説明を使うことを提案している

モデルは、人々の言葉をいくつか聞くことで、よりよく学習できるでしょうか?スタンフォード大学は学習を支援するために言語説明を使うことを提案している

言語は人々の間で最も自然なコミュニケーションの方法であり、多くの重要な情報を伝達するのに役立ちます。スタンフォード大学人工知能研究所 (SAIL) は最近、ACL 2020 の 2 つの論文を紹介するブログを公開しました。これら 2 つの研究は、BERT などのニューラル言語モデルにおける最近の進歩に基づいており、言語解釈を使用して NLP やコンピューター ビジョンの分野での学習タスクを支援するという、大きな可能性を秘めた新しい方向性を示しています。

[[355187]]

次のような状況を想像してください。あなたは機械学習の専門家であり、色付きの四角形のグループを 1 または 0 に分類するなどの分類問題を解決したいと考えています。通常、これを実行するには、多数の例を含むデータセットを収集し、データにラベルを付けて、分類器をトレーニングします。

しかし、人間はそうやって学ぶのではありません。人間には、世界に関する情報を伝達するための非常に強力で直感的なメカニズム、つまり言語があります。

「少なくとも 2 つの赤い四角」という 1 つのフレーズだけで、上記のデータセット全体をより効率的に要約できます。

言語は人間の学習にとって重要な媒体です。私たちは言語を使って、世界についての信念を伝えたり、他の人を教育したり、直接体験することが難しい物事を説明したりします。したがって、言語は教師あり機械学習モデルにとってシンプルで効果的な方法であるはずです。しかし、これまでの言語ベースの学習方法では、使用される言語が自由形式であることが多い現代のディープラーニングシステムが解決するように設計された一般的なタスクに拡張することが困難でした。

今年、スタンフォード AI 研究所 (SAIL) の 2 つの ACL 2020 論文がこの研究方向で一定の進歩を遂げました。自然言語処理 (NLP) とコンピューター ビジョンの分野におけるさまざまな困難なタスクについて、まずこれらのタスクを言語で説明し、次にディープ ニューラル ネットワーク モデルを使用してこれらの言語の説明を学習し、これらのタスクの解決に役立てました。

ExpBERT: 自然言語による説明による表現エンジニアリング

少数ショット分類のための言語による視覚表現の形成

難しいところは何ですか?

言語は人間が他人に教えるための直感的な媒体ですが、言語を使用して機械学習を実行するのはなぜそれほど難しいのでしょうか?

主な課題は、最も基本的な課題でもあります。つまり、他の入力のコンテキストで言語の解釈を理解することです。豊かで曖昧な言語を理解できるモデルを構築するのは十分に困難ですが、言語を周囲の世界に関連付けることができるモデルを構築するのはさらに困難です。たとえば、「少なくとも 2 つの赤い四角」という説明が与えられた場合、モデルは「赤」と「四角」が何であるかを理解するだけでなく、それらが入力の特定の部分 (通常は複雑) をどのように参照するかも理解する必要があります。

過去の研究では、セマンティック パーサーを使用して、自然言語のステートメント (少なくとも 2 つの赤い四角など) を正式な論理表現 (Count(Square AND Red) > 2) など) に変換してきました。これらの論理式を実行することで説明が入力に当てはまるかどうかを簡単に確認できる場合は、説明を特徴として使用してモデルをトレーニングできます。ただし、セマンティック パーサーは単純なドメインに対してのみ有効です。これは、単純であることにより、言語解釈が可能な論理文法を手動で設計できるためです。より豊かで曖昧な言語を処理するのは難しく、画像などのより複雑な入力に拡張するのも困難です。

幸いなことに、BERT などの最新のディープニューラル言語モデルは、多くの言語理解タスクを解決する可能性を示しています。そのため、SAIL はこれら 2 つの論文で、ニューラル言語モデルを使用してこれらの基本的な問題を軽減することを提案しました。これらのニューラル言語モデルは、関連ドメイン内で言語解釈を決定することを目的としているか、言語解釈を解読できる一般的な「知識」を使用して事前にトレーニングされています。以下では、これらのニューラル言語モデルを詳しく紹介し、より困難なタスク設定で、より豊かで多様な言語を学習する方法を見ていきます。

ExpBERT: 自然言語解釈を使用した表現の設計と作成

論文アドレス: https://arxiv.org/abs/2005.01932

最初の論文では、言語的説明を使用してテキスト分類子を構築する方法を研究しています。まず、関係抽出タスクを見てみましょう。モデルは、短いテキストに基づいて、そのテキストに記載されている 2 人の人物が結婚しているかどうかを識別する必要があります。現在の最高の NLP モデルは、おそらくデータのみに基づいてこのタスクを解決できますが、人間は、新婚旅行中の人は通常結婚しているなど、言語的説明を通じて 2 人が結婚しているかどうかを推測することもできます。このような言語説明は、より優れた分類器を訓練するために使用できますか?

言語タスクの場合、入力 x の特徴 (特定の単語が出現するかどうかなど) を抽出してモデルをトレーニングすることができ、説明によって追加の機能を提供できます。上記のタスクを例に挙げると、「ハネムーン」は関連する言語の説明であることがわかります。ハネムーン機能を作成し、段落で 2 人がハネムーンに行くと説明されているときにそれをアクティブ化できれば、この信号を使用してより優れたモデルをトレーニングできるはずです。

しかし、そのような機能を作成するには、モデルが入力の説明が正しいかどうかを判断できるように、何らかの説明解釈メカニズムが必要です。セマンティック パーサーはそのようなツールです。「A と B は新婚旅行中です」という説明を論理形式に解析できます。つまり、入力を分析するときに、A と B が言及されているときに「新婚旅行」が言及されている場合は、1 が返されます。しかし、説明がもっと曖昧だったらどうなるでしょうか?たとえば、「A と B はとても愛情深いです。」どうやって解析するのでしょうか?

セマンティック解析はドメインが小さい場合には効率的かつ正確ですが、固定された一連の文法規則と定義済み関数 (contains や extract_text など) に従った解釈しかできないため、拡張性が低くなります。これらの問題を解決するために、SAIL の研究者はニューラル言語モデル BERT のソフト推論機能に注目しました。 BERT は、ある文が別の文を暗示するか矛盾するかを判断するテキスト含意タスクに特に効果的です。たとえば、「彼女はピザを食べた」は「彼女は食べ物を食べた」という意味になります。

SAIL が提案した ExpBERT モデルは、テキスト含意タスク用にトレーニングされた BERT モデルを使用しますが、研究者が設定したトレーニング目標は、タスクの段落に説明が暗示されているかどうかを識別することです。このプロセスで BERT によって出力される特徴は、上記のセマンティック パーサーによって提供される指示的特徴を置き換えることができます。

BERT のソフト推論機能はセマンティック解析を改善できますか?上記の結婚認識タスクでは、研究者は、ExpBERT が入力特徴のみ (説明なし) を使用してトレーニングされた分類器と比較して大幅な改善をもたらすことができることを発見しました。ここで重要な点は、一般的な説明 (愛) を論理形式に変換するのが難しいため、説明を解析するためにセマンティック パーサーを使用することはあまり役に立たないということです。

この論文では、より多くのベースライン手法との比較、より大規模な関係抽出タスク (TACRED など) の調査、制御変数の研究、データの追加と比較した説明の使用の有効性の研究も行っています。ここでは詳細には触れません。

言語を使用して、少数ショット分類タスクの視覚表現を形成する

論文アドレス: https://arxiv.org/abs/1911.02683

上記の研究では、自然言語解釈を利用して、婚姻状況の特定などの単一のタスクを解決しています。しかし、認知科学の研究によれば、言語によって、将来の課題を解決するのに役立つ適切な特徴や抽象的な概念を習得することもできるそうです。たとえば、A と B が結婚していることを説明する言語的説明は、人間関係にとって非常に重要な他の概念、つまり子供、娘、新婚旅行なども説明できます。これらの追加の概念を知ることは、結婚したカップルを識別するのに役立つだけでなく、兄弟、両親などの他の関係を識別するのにも役立ちます。

機械学習では、次のような疑問が生じるかもしれません。最終的に解決したい新しいタスクに言語仕様がない場合、言語はどのようにして困難で未指定のドメインに適切な機能を提供するのでしょうか。 2 番目の SAIL 論文では、より難しいこのタスク設定について検討しています。言語はクロスモーダル (この場合は視覚) 表現学習を改善できるでしょうか?

具体的には、この研究は、ShapeWorld データセットからの次の例のような、少数ショットの視覚的推論タスクに焦点を当てています。

タスクの目標は、視覚概念のトレーニング例の小さなセットが与えられた場合、保持されたセット内のテスト画像が同じ概念を表現しているかどうかを判断することです。さて、関連する視覚概念の言語的説明がトレーニング時に得られると仮定するとどうなるでしょうか?テスト時に言語が利用できない場合でも、それらを使用してより良いモデルを学習できますか?

SAIL の研究者たちは、このタスクをメタ学習タスク フレームワークに組み込みました。つまり、単一のタスクでモデルをトレーニングしてテストするのではなく、それぞれに小さなトレーニング セットとそれに伴う言語の説明 (メタ トレーニング セット) がある一連のタスクでモデルをトレーニングすることを選択しました。次に、言語による説明が利用できない未知のタスクのメタテストセットでモデルの一般化能力をテストしました。

まず、言語の説明なしでこのタスクをどのように解決するのでしょうか?典型的なアプローチはプロトタイプ ネットワークです。この戦略では、トレーニング画像を埋め込み、平均化し、テスト画像の埋め込みと比較するモデル f_θ (この場合は深層畳み込みニューラル ネットワーク) を学習します。

これを基に、言語を使用するために、SAIL は Language Shaped Learning (LSL) と呼ばれる方法を提案しました。トレーニング中に言語の説明を使用できる場合、モデルは分類に役立つだけでなく、言語の説明を予測するためにも使用できる表現を学習するように促すことができます。 SAIL が採用した具体的なアプローチは、補助的なトレーニング目標 (つまり、最終的なターゲット タスクとは無関係のもの) を導入し、同時にリカレント ニューラル ネットワーク (RNN) デコーダーをトレーニングして、入力画像表現の言語解釈を予測することです。重要なのは、このデコーダーのトレーニングは画像モデル f_θ のパラメータに依存するため、f_θ が言語に存在する特徴と抽象化をより適切にエンコードできるようになることです。

実際には、これは、トレーニング中に概念を表現するようにモデルをトレーニングするときに「声に出して考える」ことであると言えます。テスト中は、RNN デコーダーを破棄し、この「言語形状」の画像埋め込みを使用して通常の方法で分類を実行できます。

研究者たちは実際の画像と人間の言語を使用して、上記の ShapeWorld データセットとより現実的な Birds データセットでテストを行いました。

どちらの場合も、この補助的なトレーニング目標は、言語解釈のないベースライン モデル (Meta) や暗黙の言語による学習を使用する方法 (L3) に比べてパフォーマンスが向上します。

この論文では、言語のどの部分が最も重要であるか(ほぼすべて)、および言語のないモデルよりも優れたパフォーマンスを発揮するために LSL がどの程度の言語を必要とするか(ほんの少しだけ)についても検討しています。詳細については原論文を参照してください。

将来に向けて

NLP システムの言語理解および生成能力が向上しているのと同様に、言語学習に基づいて他の困難なタスクを解決する機械学習システムの可能性も向上しています。これら 2 つの SAIL 論文は、ディープ ニューラル言語モデルが言語解釈を学習することで、視覚と NLP の分野におけるさまざまな種類のタスクの一般化機能を効果的に向上できることを示しています。

研究者らは、これは機械学習モデルのトレーニングに対する刺激的な新しいアプローチであり、同様のアイデアが強化学習などの分野でも研究されてきたと指摘している。彼らのビジョンでは、将来、機械学習のタスクを解決する際に、大量のラベル付きデータセットを収集する必要はなくなります。代わりに、何千年もの間人々が互いにやり取りしてきた方法、つまり「言語」を通じて、モデルと自然かつ表現豊かにやり取りできるようになります。

<<:  家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

>>:  外国人大学生がAIモデルを発明:人間の目では真偽の判別が難しい中国の山水画を素早く生成できる

ブログ    

推薦する

2018年末のAI分野におけるオープンソースフレームワークのまとめ

[[253605]] [やや活発な***四半期] 2018.3.04——OpenAIはオープンソース...

世界的EDA大手のシノプシスは米国から情報漏洩の疑いで捜査を受けており、ファーウェイとSMICもその渦中に巻き込まれている。

再度調査中! 世界最大の半導体設計ソフトウェア(EDA)サプライヤーであるシノプシスは、中国に重要な...

適切な人工知能を選択するにはどうすればよいでしょうか?

採用プロセスで人工知能テクノロジーに切り替えるのは難しいかもしれませんが、これらのヒントに従って、会...

小さなモデル、大きなトレンド! Googleは2つのモデルを提案した。音量は7倍に減少し、速度は10倍に増加する。

[[426899]]ニューラル ネットワーク モデルとトレーニング データのサイズが大きくなるにつ...

自動運転の体験はクールで、将来的には多くの交通アルゴリズムが登場するだろう

[[229949]]若い観客が自動運転車「ファントム」を体験[[229950]] [[229951]...

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...

ワイヤレス ネットワークと人工知能が出会うと何が起こるでしょうか?

人工知能(AI)は未来の技術ではなく、すでに存在している技術です。機械学習のイノベーションにより A...

...

...

Googleがこれまでで最も強力なAIモデル「Gemini」を発表

グーグルは水曜日、AIを収益化する方法に対する回答を求める圧力が高まる中、同社がこれまでで最も強力だ...

人工知能によって作られた、素晴らしい美しさと能力を持つ美しいロボット

我が国初の自主開発人工知能美容ロボットも誕生しました。その皮膚は先進的なシリコンで作られており、まる...

企業はどのように AI を活用してビジネスの成長を促進できるのでしょうか?

人工知能 (AI) の導入によって得られる潜在的な利益を考えると、企業は傍観者でいるわけにはいきませ...

...

すぐに理解できます: 電流制限におけるリーキーバケットとトークンバケットアルゴリズム

[[346652]]この記事は、陳建宇氏が執筆したWeChatパブリックアカウント「私の脳は揚げ魚で...