ソフトマックスボトルネックを超えて: 高ランク RNN 言語モデル

因数分解に基づいて、リカレントニューラルネットワーク (RNN) に基づく言語モデルは、複数のベンチマークで現在の最先端技術に到達しています。汎用近似器としての RNN の優れた表現力にもかかわらず、ドット積とソフトマックスの組み合わせがコンテキストによって劇的に変化する条件付き確率をモデル化できるかどうかという疑問には、明確な答えがありませんでした。本研究では、前述の Softmax ベースの再帰型言語モデルの表現力を行列分解の観点から研究します。標準的な定式化を使用してソフトマックスベースの再帰言語モデルを学習することは、行列分解問題を解決することと同等であることを示します。さらに重要なのは、自然言語はコンテキストに大きく依存するため、因数分解された行列は高ランクになる可能性があることです。これはさらに、分散（出力）単語埋め込みを備えた標準的な Softmax ベースの言語モデルは、自然言語をモデル化するには十分に強力ではないことを示唆しています。これをソフトマックスボトルネックと呼びます。 Softmax ボトルネックを解決するためのシンプルで効果的な方法を提案します。具体的には、再帰型言語モデルに離散潜在変数を導入し、次のトークンの確率分布をソフトマックスの混合 (MoS) として形式化します。 Softmax の混合は、Softmax や以前の研究で検討された他の代替手段よりも優れた表現力を持っています。さらに、MoS は正規化された特異値が大きい行列を学習でき、実際のデータセットで Softmax や他のベースラインよりもはるかに高いランクを実現できることを示します。私たちには2つの大きな貢献があります。まず、言語モデリングを行列分解問題として形式化することで、ソフトマックスボトルネックの存在を特定します。次に、最先端の結果を大幅に改善するシンプルでありながら効果的な方法を提案します。
論文アドレス: https://arxiv.org/pdf/1711.03953.pdf 概要: 言語モデリングのための行列分解問題を形式化し、Softmax ベースのモデル (ほとんどのニューラル言語モデルを含む) の表現力が Softmax ボトルネックによって制限されることを示します。自然言語はコンテキストに大きく依存することを考えると、分散単語埋め込みを使用する Softmax は実際には自然言語をモデル化するのに十分なほど強力ではないことがさらに示唆されます。私たちはこの問題に対するシンプルでありながら効果的なアプローチを提案し、最先端の難解度レベルを Penn Treebank では 47.69、WikiText-2 では 40.68 に改善しました。 PTBとWT2の言語モデリングの結果をそれぞれ表1と表2に示します。同様の数のパラメータで、MoS は動的評価の有無にかかわらずすべてのベースラインを上回り、現在の最先端技術に比べて大幅な改善を実現します (最大 3.6 の困惑度の改善)。

表 1: Penn Treebank の検証セットとテストセットにおける個々のモデルの困惑度。ベンチマーク結果は、Merity et al. (2017) および Krause et al. (2017) から取得されています。 † 動的評価が使用されたことを示します。

表 2: WikiText-2 における個々のモデルの困惑度。ベンチマーク結果は、Merity et al. (2017) および Krause et al. (2017) から取得されています。 † 動的評価が使用されたことを示します。上記の改善が、追加の隠れ層の追加や特定のハイパーパラメータセットの発見ではなく、実際に MoS 構造によるものであることをさらに検証するために、PTB と WT2 のアブレーション研究を実施しました。

表3: Switchboardの評価スコア。表 4: 微調整や動的評価を行わない Penn Treebank と WikiText-2 のアブレーション研究。正規化された特異値の累積パーセンテージ、つまり、特定のしきい値を下回る正規化された特異値の割合をプロットします。

図1: [0,1]の値を与えられた正規化された特異値の累積パーセンテージ。

<<: ビッグデータと人工知能の分野で初心者から専門家になるためのガイド

>>: AI の専門家に転身した男性の感動的なストーリー。素人から Alibaba Cloud で最優秀賞を獲得するまで、彼が経験した落とし穴は 100 日間で学ぶには十分です。

ブログ

2020 年の人工知能におけるトップ 10 の技術進歩

ブログ

LLaMA、BERT などの導入課題を解決: 初の 4 ビット浮動小数点量子化 LLM が登場

ブログ

過剰に防御的？モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

ソフトマックスボトルネックを超えて: 高ランク RNN 言語モデル

2020 年の人工知能におけるトップ 10 の技術進歩

LLaMA、BERT などの導入課題を解決: 初の 4 ビット浮動小数点量子化 LLM が登場

過剰に防御的？モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

盗難防止は自分自身に対する保護にもなりますか?セキュリティの高いスマートドアロックを購入するのは正しいことでしょうか?

世界を創ろう！ Appleの株主総会から史上最強のAIシグナル！ CEOクックがついにGenAIに正式に宣戦布告。2024年に未来を再定義する大作製品とは？

IoT セキュリティ: RSA 暗号化および復号化アルゴリズム

推薦する

動的グラフのディープラーニング - 時系列グラフネットワークモデリング

サイバーセキュリティにおける人工知能の役割と6つの製品オプション

エンドツーエンドの自動運転における軌道予測の今後の方向性とは？最新レビューを最前線でお届け！

スタンフォード大学の最新LLMランキングが発表されました！自社のアルパカが最下位、中国チームのウィザードLMオープンソースが1位、GPT-4とクロードが1位と2位となった。

ICML 2023 優秀論文賞発表！北京大学の卒業生が作品で賞を受賞、3人の中国人作家が作品に参加、DeepMindとAppleも選出

プログラマのための基本アルゴリズム: 再帰の説明

人工知能教育とは何ですか?将来の教育の顕著な特徴は何でしょうか?

機械学習エンジニアとデータサイエンティストの違い

ChatGPTへの対処方法

マイクロソフトは小売業界で新たなスキルを解き放つために人工知能を推進

目標を達成するために、Google AI は自身の体をこのように変形させました...