アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

最近、大規模なニューラルネットワークが生成モデルに革命をもたらし、高解像度画像内のすべてのピクセルの結合モデルを構築するなど、多くの変数間の複雑な関係を捉える前例のない能力を与えました。

ほとんどのニューラルネットワーク (自己回帰モデル、フローベースモデル、ディープ VAE、拡散モデルなど) の表現力の鍵は、エンコードされる結合分布が一連のステップに分解され、「次元の呪い」を回避できることです。つまり、難しい問題を複数のより単純な問題に分解して解決するのです。

自己回帰ネットワークは現在、言語モデリングにおける最先端のアプローチであり、一般的に自然に順序付けられた離散データに対して良好なパフォーマンスを発揮します。しかし、自己回帰ネットワークは、データが連続しており、変数間に自然な順序がない画像生成などの分野では効果が低いことが証明されています。自己回帰モデルのもう 1 つの欠点は、サンプルを生成するには、データ内の変数と同じ数のネットワーク更新が必要になることです。拡散モデルは画像生成のための効果的な代替フレームワークですが、転送プロセスはより複雑になります。

ただし、データが離散的である場合、拡散モデルのパフォーマンスは依然として自己回帰モデルのパフォーマンスよりも劣ります。最近、機械学習の分野で著名な研究者であり、ニューラルチューリングマシン (NTM) の提案者であり、微分可能ニューラルコンピュータの開発者の一人であるアレックス・グレイブス氏が、第一著者として新しいタイプの生成モデルであるベイジアンフローネットワーク (BFN) を提案する新しい論文を発表しました。拡散モデルとは異なり、BFN はデータ自体のノイズバージョンではなく、データ分布のパラメータに基づいて動作します。これにより、データが離散的であっても、生成プロセスが完全に連続的かつ微分可能であることが保証されます。

論文アドレス: https://arxiv.org/abs/2308.07037

論文の第一著者は、チューリング賞受賞者のジェフリー・ヒントンの教え子であるアレックス・グレイブス氏です。

BFN アプローチでは、ベイズ推定を使用して、ノイズの多いデータのサンプルに基づいて一連の独立した分布のパラメータを変更します。その後、これらのパラメータはニューラルネットワークに入力として渡され、相互に依存する分布が出力されます。単純な事前分布から開始し、2 つの分布を繰り返し更新することで、結果として得られる生成プロセスは拡散モデルの逆モデルに似ていますが、BFN はフォワードパスが不要なため概念的に単純です。

BFN の全体概要を以下の図 1 に示します。各ステップで、メッセージ送信者 (Sender) の Alice は、データに関する情報を含むメッセージをメッセージ受信者 (Receiver) の Bob に送信します。

この中で、ボブはメッセージが何であるかを推測しようとします。推測が正確であればあるほど、メッセージを送信するために必要なビット数が少なくなります。メッセージを受け取った後、ボブは得た情報を活用して次のメッセージについての推測精度を高めます。

このプロセスは繰り返され、各ステップで予測が改善されます。転送コストの合計は完全なテキストシーケンスの負の対数確率であり、損失関数は最大尤度トレーニングによって最小化されます。これは、アリスが算術符号化を使用してボブにフラグメントを送信するために必要な最小ビット数でもあります。したがって、最大尤度を使用して自己回帰モデルを適合することと、トレーニングデータを圧縮することの間には直接的な対応関係があります。

上記の転送プロセスは n ステップの損失関数を定義し、n を ∞ に拡張することで連続時間に一般化できます。連続時間損失関数は離散時間損失関数よりも数学的に単純で計算が容易です。連続時間損失でトレーニングされた BFN は、推論とサンプリング中に任意の数の離散ステップで実行でき、ステップ数に応じてパフォーマンスが向上します。

一般的に、BFN はベイズ推論とディープラーニングの利点を組み合わせたものです。前者は単一の変数に対して優れた数学的手法を提供し、後者は複数の関連する変数からの情報を統合するのに優れています。

LSTM の提案者であり創設者でもある Sepp Hochreiter 氏は、次のように述べています。「拡散モデルの代替として、ベイジアンフローネットワーク (BFN) によって更新される 2 つの分布プロセスは、フォワードパスのない拡散モデルと同様に、生成プロセスと見なすことができます。実験では、text8 の文字レベルの言語モデリングにおいて、離散拡散よりも優れていることが示されています。」

論文の著者の一人である Rupesh Kumar Srivastava 氏は、「この研究により、適切な分布を選択することで BFN フレームワークを連続データと離散データに簡単に適応させることができ、MNIST、CIFAR-10、text8 タスクで良好な結果が得られます」と述べています。

ベイジアンストリームネットワーク

次に、ベイジアンフローネットワーク (BFN) の基本的な数学的形式を紹介します。このセクションでは、式の導出について説明します。詳細については、元の論文を参照してください。

入力分布と送信者分布: D次元データ（因子分解された入力分布のパラメータ）が与えられた場合、入力分布の式は次のようになります。

一連の変換の後、送信者分布式が得られます。

出力分布のデータ伝送プロセス中に、入力パラメータθと処理時間tがニューラルネットワークΨへの入力として渡され、ネットワークは出力分布を取得するためのベクトルを出力します。

入力分布とは異なり、出力分布では、画像内の周囲のピクセルやテキスト内の関連する単語などのコンテキスト情報を利用できます。

受信者分布送信者分布と出力分布が与えられると、受信者分布は次のように表すことができます。

上記の式から、受信者分布には送信者分布と出力分布という 2 つの不確実性の原因があることがわかります。

ベイズ更新

与えられたパラメータ θ に対して、パラメータ更新方法は次のとおりです。ここで、y は送信者のサンプル、α は精度です。

ベイズ更新分布を取得します。

この論文では、ある意味では、精度 α を加算して、全体のベイズ更新分布式を得ることができると主張しています。

ベイズ更新手順は、無限の数の送信ステップを実行することによって連続時間に一般化できます。 t ∈ [0, 1] が処理時間、α(t) > 0 が時刻 t における精度であると仮定し、精度のタイムテーブルを取得します。

ベイズフロー分布

事前パラメータθ_0、ベイズ更新分布、および精度タイムテーブルβ(t)が与えられると、ベイズフロー分布は次のように表される。

損失関数

損失関数は次のように定義されます。

で、

L(x) は変分オートエンコーダ (VAE) の損失関数として導出できます。一連の変更の後、損失関数は次のように表されます。

損失関数（16）に基づいて、この研究ではさらに離散損失を導出した。

そして、継続的な時間損失:

実験

この研究では、CIFAR-10 (32×32 8 ビットカラー画像)、動的二値化 MNIST (手書き数字の 28×28 二値化画像)、text8 (27 文字サイズの 256 文字シーケンス) などの次世代ベンチマークで BFN ネットワークを評価しました。

動的二値化 MNIST

表 1 からわかるように、BFN はデータ拡張なしでこのタスクで最高のパフォーマンスを達成します。

次の図は、MNIST 損失曲線を示しています。バイナリデータの場合、精度のタイムテーブルが最適ではないことがわかります。

CIFAR-10

この研究では、CIFAR-10 で 2 セットの生成モデリング実験を実施しました。1 セットはビット深度 8 で、カラーチャネルの 256 個の離散ビンに対応し、もう 1 セットはビット深度 4 で、カラーチャネルの 16 個のビンに対応します。

表 3 は、16 ビンの場合、離散損失の方が連続損失よりも優れたパフォーマンスを提供し、トレーニング時間が大幅に短縮されることを示しています。この結果は、ビンが比較的低い場合に離散損失によるトレーニングが最も効果的であるという仮説と一致しています。さらに、16 および 256 ビンの場合、ステップ数 n が少ない場合 (たとえば、10 または 25)、離散トレーニングの方が優れた結果が得られます。ただし、256 ビンでは、連続損失の方が離散損失よりもパフォーマンスが優れています。

図 15 は、16 ビンを使用した離散トレーニングの方が 256 ビンを使用した離散トレーニングよりもサンプル品質が向上することを示しています。

テキスト8

表 4 は、BFN が text8 テストセットで 1.41 BPC を生成することを示しています。これは、文献に記載されている他のすべての離散拡散モデルよりも優れており、最良モデル MAC (1.40 BPC) に近い値です。

表 5 は、BFN のパフォーマンスがステップ数 n の減少に対して非常に堅牢であり、わずか 100 ステップで 1.43 BPC に到達できることを示しています。離散時間損失を使用したトレーニングにより、この結果が改善される可能性があります。

<<: Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

>>: Microsoft、SAP、Oracle などの世界的なソフトウェア大手は、生成 AI をどのように取り入れているのでしょうか?

2021 年のファッションラグジュアリーの美的パラダイムとは何でしょうか?答え: テクノロジー

アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

ベイジアンストリームネットワーク

実験

2021 年のファッションラグジュアリーの美的パラダイムとは何でしょうか?答え: テクノロジー

百度が「AI+X」を実践、AI教育が未来に向けて加速

MIT スタンフォードトランスフォーマーの最新研究: 過剰トレーニングにより、中程度のモデルが構造一般化能力を「発現」できるようになる

テスラは最初にこの問題の矢面に立たされ、自動運転の安全性の問題が再び話題となっている。

SFが現実になる？偉大な劉慈欣がAI企業に入社

機械学習エンジニアが知っておくべきアルゴリズムトップ10

RLHF の欠陥が完全に明らかに！ MIT、ハーバード大学、その他32名の学者が共同で発表

エッジAIの台頭

推薦する

Logreduce: Python と機械学習でログノイズを除去する

OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

貧弱なメモ帳でもマイクロソフトのAIの影響を受けないわけではない

AIとクラウドコンピューティングが相互に利益をもたらし、ビジネス効率を向上させる方法

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

エージェントは初めて人間のような感覚を持ち、ハンバーガーを触って熱いか冷たいかを判断します。 UCLAなどが3Dマルチモーダルインタラクティブ具現化知能モデルをリリース

韓国はLK-99の室温超伝導は証明できないと信じており、国内チームは拡張された材料が魔法のような特性を持っていると信じている

ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

大学では人工知能を専攻できるコースはありますか?まだ道のりは長い

テキストの説明に基づいてビデオから画像を切り取る、Transformer：このクロスモーダルタスクは私が最も得意とすることです

写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

Googleの人工知能研究所DeepMindがカナダで研究者を募集