アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

最近、大規模なニューラル ネットワークが生成モデルに革命をもたらし、高解像度画像内のすべてのピクセルの結合モデルを構築するなど、多くの変数間の複雑な関係を捉える前例のない能力を与えました。

ほとんどのニューラル ネットワーク (自己回帰モデル、フローベース モデル、ディープ VAE、拡散モデルなど) の表現力の鍵は、エンコードされる結合分布が一連のステップに分解され、「次元の呪い」を回避できることです。つまり、難しい問題を複数のより単純な問題に分解して解決するのです。

自己回帰ネットワークは現在、言語モデリングにおける最先端のアプローチであり、一般的に自然に順序付けられた離散データに対して良好なパフォーマンスを発揮します。しかし、自己回帰ネットワークは、データが連続しており、変数間に自然な順序がない画像生成などの分野では効果が低いことが証明されています。自己回帰モデルのもう 1 つの欠点は、サンプルを生成するには、データ内の変数と同じ数のネットワーク更新が必要になることです。拡散モデルは画像生成のための効果的な代替フレームワークですが、転送プロセスはより複雑になります。

ただし、データが離散的である場合、拡散モデルのパフォーマンスは依然として自己回帰モデルのパフォーマンスよりも劣ります。最近、機械学習の分野で著名な研究者であり、ニューラルチューリングマシン (NTM) の提案者であり、微分可能ニューラルコンピュータの開発者の一人であるアレックス・グレイブス氏が、第一著者として新しいタイプの生成モデルであるベイジアンフローネットワーク (BFN) を提案する新しい論文を発表しました。拡散モデルとは異なり、BFN はデータ自体のノイズバージョンではなく、データ分布のパラメータに基づいて動作します。これにより、データが離散的であっても、生成プロセスが完全に連続的かつ微分可能であることが保証されます。

論文アドレス: https://arxiv.org/abs/2308.07037

論文の第一著者は、チューリング賞受賞者のジェフリー・ヒントンの教え子であるアレックス・グレイブス氏です。

BFN アプローチでは、ベイズ推定を使用して、ノイズの多いデータのサンプルに基づいて一連の独立した分布のパラメータを変更します。その後、これらのパラメータはニューラル ネットワークに入力として渡され、相互に依存する分布が出力されます。単純な事前分布から開始し、2 つの分布を繰り返し更新することで、結果として得られる生成プロセスは拡散モデルの逆モデルに似ていますが、BFN はフォワード パスが不要なため概念的に単純です。

BFN の全体概要を以下の図 1 に示します。各ステップで、メッセージ送信者 (Sender) の Alice は、データに関する情報を含むメッセージをメッセージ受信者 (Receiver) の Bob に送信します。

この中で、ボブはメッセージが何であるかを推測しようとします。推測が正確であればあるほど、メッセージを送信するために必要なビット数が少なくなります。メッセージを受け取った後、ボブは得た情報を活用して次のメッセージについての推測精度を高めます。

このプロセスは繰り返され、各ステップで予測が改善されます。転送コストの合計は完全なテキスト シーケンスの負の対数確率であり、損失関数は最大尤度トレーニングによって最小化されます。これは、アリスが算術符号化を使用してボブにフラグメントを送信するために必要な最小ビット数でもあります。したがって、最大尤度を使用して自己回帰モデルを適合することと、トレーニング データを圧縮することの間には直接的な対応関係があります。

上記の転送プロセスは n ステップの損失関数を定義し、n を ∞ に拡張することで連続時間に一般化できます。連続時間損失関数は離散時間損失関数よりも数学的に単純で計算が容易です。連続時間損失でトレーニングされた BFN は、推論とサンプリング中に任意の数の離散ステップで実行でき、ステップ数に応じてパフォーマンスが向上します。

一般的に、BFN はベイズ推論とディープラーニングの利点を組み合わせたものです。前者は単一の変数に対して優れた数学的手法を提供し、後者は複数の関連する変数からの情報を統合するのに優れています。

LSTM の提案者であり創設者でもある Sepp Hochreiter 氏は、次のように述べています。「拡散モデルの代替として、ベイジアン フロー ネットワーク (BFN) によって更新される 2 つの分布プロセスは、フォワード パスのない拡散モデルと同様に、生成プロセスと見なすことができます。実験では、text8 の文字レベルの言語モデリングにおいて、離散拡散よりも優れていることが示されています。」

論文の著者の一人である Rupesh Kumar Srivastava 氏は、「この研究により、適切な分布を選択することで BFN フレームワークを連続データと離散データに簡単に適応させることができ、MNIST、CIFAR-10、text8 タスクで良好な結果が得られます」と述べています。


ベイジアンストリームネットワーク

次に、ベイジアンフローネットワーク (BFN) の基本的な数学的形式を紹介します。このセクションでは、式の導出について説明します。詳細については、元の論文を参照してください。

入力分布と送信者分布: D次元データ因子分解された入力分布のパラメータ)が与えられた場合、入力分布の式は次のようになります。

一連の変換の後、送信者分布式が得られます。

出力分布のデータ伝送プロセス中に、入力パラメータθと処理時間tがニューラルネットワークΨへの入力として渡され、ネットワークは出力分布を取得するためのベクトルを出力します。

入力分布とは異なり、出力分布では、画像内の周囲のピクセルやテキスト内の関連する単語などのコンテキスト情報を利用できます。

受信者分布 送信者分布と出力分布が与えられると、受信者分布は次のように表すことができます。

上記の式から、受信者分布には送信者分布と出力分布という 2 つの不確実性の原因があることがわかります。

ベイズ更新

与えられたパラメータ θ に対して、パラメータ更新方法は次のとおりです。ここで、y は送信者のサンプル、α は精度です。

ベイズ更新分布を取得します。

この論文では、ある意味では、精度 α を加算して、全体のベイズ更新分布式を得ることができると主張しています。

ベイズ更新手順は、無限の数の送信ステップを実行することによって連続時間に一般化できます。 t ∈ [0, 1] が処理時間、α(t) > 0 が時刻 t における精度であると仮定し、精度のタイムテーブルを取得します。

ベイズフロー分布

事前パラメータθ_0、ベイズ更新分布、および精度タイムテーブルβ(t)が与えられると、ベイズフロー分布は次のように表される。

損失関数

損失関数は次のように定義されます。

で、

L(x) は変分オートエンコーダ (VAE) の損失関数として導出できます。一連の変更の後、損失関数は次のように表されます。

損失関数(16)に基づいて、この研究ではさらに離散損失を導出した。

そして、継続的な時間損失:

実験

この研究では、CIFAR-10 (32×32 8 ビットカラー画像)、動的二値化 MNIST (手書き数字の 28×28 二値化画像)、text8 (27 文字サイズの 256 文字シーケンス) などの次世代ベンチマークで BFN ネットワークを評価しました。

動的二値化 MNIST

表 1 からわかるように、BFN はデータ拡張なしでこのタスクで最高のパフォーマンスを達成します。

次の図は、MNIST 損失曲線を示しています。バイナリ データの場合、精度のタイムテーブルが最適ではないことがわかります。

CIFAR-10

この研究では、CIFAR-10 で 2 セットの生成モデリング実験を実施しました。1 セットはビット深度 8 で、カラー チャネルの 256 個の離散ビンに対応し、もう 1 セットはビット深度 4 で、カラー チャネルの 16 個のビンに対応します。

表 3 は、16 ビンの場合、離散損失の方が連続損失よりも優れたパフォーマンスを提供し、トレーニング時間が大幅に短縮されることを示しています。この結果は、ビンが比較的低い場合に離散損失によるトレーニングが最も効果的であるという仮説と一致しています。さらに、16 および 256 ビンの場合、ステップ数 n が少ない場合 (たとえば、10 または 25)、離散トレーニングの方が優れた結果が得られます。ただし、256 ビンでは、連続損失の方が離散損失よりもパフォーマンスが優れています。

図 15 は、16 ビンを使用した離散トレーニングの方が 256 ビンを使用した離散トレーニングよりもサンプル品質が向上することを示しています。

テキスト8

表 4 は、BFN が text8 テスト セットで 1.41 BPC を生成することを示しています。これは、文献に記載されている他のすべての離散拡散モデルよりも優れており、最良モデル MAC (1.40 BPC) に近い値です。

表 5 は、BFN のパフォーマンスがステップ数 n の減少に対して非常に堅牢であり、わずか 100 ステップで 1.43 BPC に到達できることを示しています。離散時間損失を使用したトレーニングにより、この結果が改善される可能性があります。

<<:  Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

>>:  Microsoft、SAP、Oracle などの世界的なソフトウェア大手は、生成 AI をどのように取り入れているのでしょうか?

ブログ    

推薦する

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に...

...

...

Facebookのスマートスピーカー「フィオナ」と「アロハ」が今月下旬に発売される

Facebookは、現在FionaとAlohaというコードネームがつけられている2つのスマートスピー...

魔法の顔認識: たとえマスクやサングラスをかけていても、身近な人を認識できるのはなぜでしょうか?

見知らぬ人々の集団の中に見覚えのある人を見つけたり、とても見覚えのある顔を見かけたりします。その人は...

MLOps 実装を成功させるためのベストプラクティス

翻訳者 | ブガッティ企画 | 梁策、孫淑娟機械学習と今日の世界におけるその応用については、すでにご...

李徳易学士:人工知能の影響を最も受けている業界は教育

2019年12月22日、中国職業技術教育学会科学技術成果転換作業委員会が中国科学院コンピューティング...

...

機械学習は将来どこに向かうのでしょうか?インテル・南京大学共同研究センターが答えを提供する

[51CTO.com からのオリジナル記事] 人工知能アルゴリズムに関しては、ディープラーニングが現...

機械学習におけるデータ駆動型アルゴリズムの応用

機械学習の概念分析機械学習の概念は、アルゴリズムとニューラル ネットワーク モデルを使用して学習し、...

顔認識セキュリティの脆弱性が再び明らかに、19のAndroidスマートフォンは15分でロック解除可能、必要なのはプリンター、A4用紙、メガネフレームだけ

最新の顔認識の脆弱性が明らかになり、テストされたすべての Android スマートフォンが脆弱である...

ビル・ゲイツ:AIが最大の影響を与えるには何十年もかかる

[[271684]]ビル・ゲイツは、世界を変えるトレンドを予見し、それを活用することで、史上最も成功...

...

1865年から始まるビジネスインテリジェンスの簡単な歴史

[[206158]]ビジネス インテリジェンス (BI) という用語は、1865 年にリチャード ミ...

2024年の人工知能とデジタルツインの開発動向

人工知能 (AI) とデジタル ツインは、複数の業界で重要な用途を持つ、よく議論される 2 つの技術...