最近、中国人民大学高陵人工知能学院の陸志武教授、孫昊准教授、温継栄学院長教授が共同責任著者として国際総合誌「ネイチャーコミュニケーションズ」(英文名:Nature Communications、略称:Nat Commun)に「マルチモーダル基礎モデルによる汎用人工知能の実現に向けて」と題する研究論文を発表しました。論文の筆頭著者は博士課程の学生、費南易氏です。この研究は、マルチモーダル基礎モデルを使用して汎用人工知能への移行を試みており、神経科学やヘルスケアなどのさまざまな AI+ 分野に幅広い影響を与えるでしょう。この記事はこの論文の解釈です。
人工知能の基本的な目標は、知覚、記憶、推論など、人間の中核的な認知活動を模倣することです。多くの人工知能アルゴリズムやモデルがさまざまな研究分野で大きな成功を収めていますが、大量のラベル付きデータを取得する際の制限や、大規模データのトレーニングをサポートするためのコンピューティングリソースが不十分なため、ほとんどの人工知能研究は依然として単一の認知能力の獲得に限定されています。 これらの制限を克服し、汎用人工知能に向けて一歩を踏み出すために、私たちは人間の脳がマルチモーダル情報を処理する方法にヒントを得た、マルチモーダル(視覚言語)ベースモデル(事前学習済みモデルとも呼ばれる)を開発しました(図 1a)。さらに、モデルが強力な一般化機能を獲得できるようにするため、トレーニング データ内の画像とテキストは、画像領域と単語の正確な一致 (強力な意味的相関) ではなく、弱い意味的相関仮説 (図 1b を参照) に従う必要があることを提案します。これは、強い意味的相関仮説では、モデルが、画像に対してテキストを書くときに人が暗示する複雑な感情や考えを見失ってしまうためです。 図1: 弱い意味相関の仮定に基づく BriVL モデル。 a. 視覚言語情報の処理における当社の BriVL モデルと人間の脳の比較。 b. 意味的に弱い関連性のあるデータのモデリングと意味的に強い関連性のあるデータのモデリングの比較。 インターネットからクロールされた大規模な画像テキスト データをトレーニングすることにより、当社のマルチモーダル基本モデルは強力な一般化機能と想像力を発揮します。私たちの研究は、汎用人工知能に向けた重要な(しかし小さい)一歩であり、神経科学やヘルスケアなど、さまざまな AI+ 分野に幅広い影響を与えると信じています。 方法私たちは、膨大なマルチモーダルデータに対する自己教師ありトレーニング用の大規模マルチモーダルベースモデルを開発し、それを BriVL (Bridging-Vision-and-Language) と名付けました。 まず、インターネットから構築された「Weak Semantic Correlation Dataset (WSCD)」と呼ばれる大規模なマルチソース画像テキストデータセットを使用しました。 WSCD は、ニュース、百科事典、ソーシャル メディアなど、Web 上の複数のソースから中国語の画像とテキストのペアを収集します。私たちは、WSCD からポルノや機密データのみを除外し、自然なデータ分布を維持するために元のデータを編集または変更していません。 WSCD には合計で約 6 億 5,000 万の画像とテキストのペアがあり、スポーツ、日常生活、映画など多くのトピックをカバーしています。 第二に、私たちのネットワーク アーキテクチャでは、画像とテキスト間の領域と単語のマッチングが必ずしも細かく行われるわけではないため、時間のかかるオブジェクト検出器を廃止し、シンプルなデュアル タワー アーキテクチャを採用して、画像とテキストの入力を 2 つの独立したエンコーダーでエンコードできるようにしています (図 2 を参照)。デュアルタワー構造では、候補セットの特徴をクエリの前に計算してインデックス付けできるため、推論プロセスにおいて明らかな効率上の利点があり、実際のアプリケーションのリアルタイム要件を満たします。第三に、大規模分散トレーニング技術と自己教師あり学習の発達により、大量のラベルなしマルチモーダルデータを使用してモデルをトレーニングすることが可能になります。 具体的には、画像とテキストのペア間の弱い相関をモデル化し、統一された意味空間を学習するために、ユニモーダル対照学習法 MoCo に基づくクロスモーダル対照学習アルゴリズムを設計しました。図 2 に示すように、BriVL モデルはモメンタム メカニズムを使用して、異なるトレーニング バッチ内のネガティブ サンプル キューを動的に維持します。このようにして、比較的小さなバッチ サイズを使用して GPU メモリ使用量を削減しながら (つまり、GPU リソースを節約しながら)、比較的多数のネガティブ サンプル (対照学習にとって重要) を取得します。 図2: 大規模マルチモーダル事前トレーニング用の BriVL モデルの概略図。 主な結果ニューラルネットワークの可視化言葉や説明文を聞くと、私たちの心の中に場面が浮かびます。 BriVL に関しては、このように大量の弱い関連性のある画像とテキストのペアで事前トレーニングされた後、テキストが与えられたときに何を想像するかが非常に興味深いです。 具体的には、まずテキストを入力し、BriVL のテキスト エンコーダーを通じてそのテキスト埋め込みを取得します。次に、ノイズの多い画像をランダムに初期化し、画像エンコーダーを通じてその特徴埋め込みを取得します。入力画像はランダムに初期化されるため、その特徴は入力テキストの特徴と一致しないことになります。したがって、2 つの特徴埋め込みを一致させるという目標を定義し、バックプロパゲーションを介して入力画像を更新します。結果の画像は、入力テキストに対する BriVL の想像を明確に示しています。ここでは追加のモジュールやデータは使用せず、事前トレーニング済みの BriVL も視覚化プロセス全体を通じて固定されます。 まず、BriVL がいくつかの高レベルの意味概念を想像する能力を紹介します (図 3 を参照)。ご覧のとおり、これらの概念は非常に抽象的ですが、視覚化によって具体的な形を示すことができます (例: 「自然」: 草などの植物、「時間」: 時計、「科学」: メガネと三角フラスコを持った顔、「夢」: 雲、ドアに続く橋、夢のような雰囲気)。抽象的な概念を一連の具体的なオブジェクトに一般化するこの機能は、意味的に弱い関連性のあるデータのみを使用したマルチモーダル事前トレーニングの有効性を実証しています。 図3: BriVL モデルの抽象概念の想像。 図 4 に、BriVL による文章の想像を示します。 BriVL の「暗い雲の後ろに太陽の光がある」という想像は、文字通り暗い雲の後ろに太陽の光があることを体現しているだけでなく、海の危険な状況 (左側に船のような物体と波がある) も表しているようで、この文章の暗黙の意味を表現しています。 「夏の花のように成長する」の視覚化では、花の群れを見ることができます。次の 2 つのシナリオでは、どちらも古代中国の詩からのより複雑なテキスト入力があり、その文法もトレーニング セット内のテキストの大部分とはまったく異なります。 BriVL もよく理解しているようです。「竹の外に桃の花が三、二本」では、竹とピンク色の花があることが分かります。「山の向こうに日が沈み、黄河が海に流れ込む」では、山の木々が沈む太陽を遮り、前方の川には小船が浮かんでいるのが分かります。全体的に、BriVL は複雑な文章で指示された場合でも強力なイメージング機能を備えていることがわかりました。 図4: BriVLモデルによる中国語の文章の想像。 図 5 では、BriVL のニューラル ネットワーク視覚化にいくつかの類似したテキストが使用されています。 「森のある山」では画像に緑の部分が多く、「石のある山」では画像に岩が多く、「雪のある山」では中央の木々の周りの地面がすべて白または青、「滝のある山」では青い水が流れ落ち、水蒸気も見られます。これらの視覚化は、BriVL が山の修飾語を正確に理解し、想像できることを示しています。 図5: BriVL モデルの「山々」のイメージ テキスト生成図ニューラル ネットワークの視覚化は非常に簡単ですが、解釈が難しい場合もあります。そこで私たちは、BriVL の想像上のコンテンツを人間にとってより理解しやすいものにするために、別の視覚化/解釈可能性手法を開発しました。具体的には、ImageNet データセットで事前トレーニングされた VQGAN はリアルな画像を生成するのに非常に優れているため、BriVL のガイダンスに従って VQGAN を使用して画像を生成します。まず、トークンシーケンスをランダムに取得し、事前トレーニング済みの VQGAN から生成された画像を取得します。次に、生成された画像を BriVL の画像エンコーダーに入力し、テキストの一部をテキスト エンコーダーに入力します。最後に、画像とテキストの埋め込み間のマッチング目標を定義し、バックプロパゲーションを介して初期トークンシーケンスを更新します。ニューラル ネットワークの視覚化と同様に、VQGAN と BriVL はどちらも生成プロセスの途中で停止します。比較のために、BriVL の代わりに OpenAI の CLIP モデルで生成された画像も示します。 まず 4 つのテキスト入力を選択し、CLIP と BriVL のテキスト生成グラフの結果をそれぞれ図 6 と 7 に示しました。 CLIP と BriVL はどちらもテキストをよく理解しますが、2 つの大きな違いが見られます。まず、CLIP で生成された画像には漫画風の要素が現れますが、BriVL で生成された画像はよりリアルで自然です。 2 番目に、CLIP は単純に要素をグループ化する傾向がありますが、BriVL によって生成される画像は全体的に均一です。最初の違いは、CLIP と BriVL で使用されるトレーニング データが異なることが原因である可能性があります。トレーニング データ内の画像はインターネットからクロールされたもの (ほとんどが実際の写真) ですが、CLIP のトレーニング データには一定数の漫画画像が含まれている場合があります。 2 番目の違いは、CLIP が強い意味的相関 (単語でフィルタリング) を持つ画像とテキストのペアを使用するのに対し、私たちは弱い相関のデータを使用するという事実によるものと考えられます。つまり、マルチモーダル事前トレーニング中、CLIP は特定のオブジェクトと単語/フレーズとの対応関係を学習する可能性が高く、BriVL は与えられたテキストを使用して各画像全体を理解しようとすることになります。 図6: VQGAN の助けを借りて CLIP (ResNet-50x4 を使用) を使用したテキスト生成グラフの例。 図7: VQGAN の助けを借りて BriVL を使用したテキスト生成グラフの例。 また、複数の一貫した文章が与えられた場合に画像のシーケンスを生成するという、より困難なタスクも検討します。図 8 に示すように、各画像は独立して生成されていますが、4 つの画像は視覚的に一貫性があり、同じスタイルになっていることがわかります。これは、BriVL モデルのもう 1 つの利点を示しています。つまり、画像内のコンテキストと背景は、関連するテキストで明示的に言及することが困難ですが、大規模なマルチモーダル事前トレーニングでは無視されません。 図8: VQGAN の助けを借りて BriVL を使用した一連の一貫したコンテンツ生成の例。 図 9 では、人間がめったに見ることのないコンセプト/シーン (「燃える海」や「光る森」など) や、現実には存在しないコンセプト/シーン (「サイバーパンク風の都市」や「雲の上の城」など) をいくつか選択しました。これは、BriVL の優れたパフォーマンスが事前トレーニング データの過剰適合によるものではないことを証明しています。これは、ここで入力された概念/シナリオが現実には存在しないためです (もちろん、事前トレーニング データセットには存在しない可能性が高いです)。さらに、これらの生成された例は、意味的に関連するデータが弱い場合に BriVL を事前トレーニングすることの利点を再度検証しています (きめ細かい領域と単語のアライメントは BriVL の画像機能を損なうため)。 図9: BriVL からのテキスト生成画像。ここでは、人間がめったに見たことのない概念やシーン、あるいは現実には存在しない概念やシーンが取り上げられています。 さらに、リモートセンシング画像のゼロショット分類、中国語ニュースのゼロショット分類、視覚的な質問応答など、複数の下流タスクに BriVL を適用し、興味深い結果を達成しました。詳細については、元の論文をご覧ください。 結論と考察私たちは、意味的に弱い関連性のある 6 億 5000 万の画像とテキストでトレーニングされた、BriVL と呼ばれる大規模なマルチモーダル ベース モデルを開発しました。ニューラル ネットワークの視覚化とテキスト生成グラフを通じて、整列した画像とテキストの埋め込み空間を直感的に示します。さらに、他の下流タスクに関する実験でも、BriVL のクロスドメイン学習/転送機能と、ユニモーダル学習よりもマルチモーダル学習の方が優れていることが実証されています。特に、BriVL は想像力と推論能力をある程度獲得したようだということがわかりました。これらの利点は主に、BriVL が従う弱い意味相関の仮定から生じると考えています。つまり、相関の弱い画像とテキストのペアから複雑な人間の感情や思考を掘り起こすことで、BriVL の認知能力が高まります。 私たちは、汎用人工知能に向けて私たちが踏み出すこの一歩が、AI そのものの分野だけでなく、さまざまな AI+ 分野にも幅広い影響を及ぼすと信じています。人工知能の研究では、GPU リソースを節約するマルチモーダル事前トレーニング フレームワークに基づいて、研究者は BriVL をより大規模かつより多くのモダリティに簡単に拡張し、より一般的な基本モデルを取得できます。大規模なマルチモーダル ベース モデルの助けを借りれば、研究者が新しいタスク (特に、人間が注釈を付けたサンプルが十分にないタスク) を探索することも容易になります。 AI+分野では、強力な一般化能力により、基本モデルは特定の作業環境に迅速に適応できます。例えば、ヘルスケアの分野では、マルチモーダルベースモデルは症例のマルチモーダルデータを最大限に活用して診断の精度を向上させることができます。また、神経科学の分野では、人工ニューラルネットワークは人間の脳の実際の神経系よりも研究しやすいため、マルチモーダルベースモデルは、マルチモーダル情報が人間の脳内でどのように統合されるかのメカニズムの解明にも役立つ可能性があります。 しかしながら、マルチモーダルベースモデルには依然としていくつかのリスクと課題が残っています。ベースモデルは特定の事柄についてバイアスや先入観を学習する可能性があるため、これらの問題はモデルのトレーニング前に慎重に対処し、下流のアプリケーションで監視および対処する必要があります。さらに、基本モデルがますます多くの機能を獲得するにつれて、社会に悪影響を及ぼさないように、悪意のある人々によって悪用されることにも注意する必要があります。さらに、基本モデルに関する今後の研究には、より詳細なモデル解釈ツールを開発する方法、より多くのモダリティを備えた事前トレーニング データセットを構築する方法、より効果的な微調整手法を使用して基本モデルをさまざまな下流タスクに適用する方法など、いくつかの課題もあります。 この論文の著者は、Fei Nanyi、Lu Zhiwu、Gao Yizhao、Yang Guoxing、Huo Yuqi、Wen Jingyuan、Lu Haoyu、Song Ruihua、Gao Xin、Xiang Tao、Sun Hao、Wen Jirong です。共同著者は、人民大学高陵人工知能学院の Lu Zhiwu 教授、Sun Hao 常勤准教授、Wen Jirong 教授です。この論文は、国際総合学術誌「ネイチャーコミュニケーションズ」(英文名:Nature Communications、略称:Nat Commun)に掲載されました。この論文は費南易によって解釈されています。 |
[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...
Microsoft は、テストにおいてセキュリティ脆弱性と非セキュリティ脆弱性を 99% の精度で...
ヘザー・ジョスリン編纂者:Xing Xuan DevOps を導入している多くの企業にとって、開発者...
[[225280]] 2018年度Google PhDフェローシップ(北米、ヨーロッパ、中東)の候...
[[204425]]序文ディープラーニングは、画像処理、音声認識、自然言語処理の分野で大きな成功を収...
10月9日、IDCコンサルティングの公式WeChatアカウントによると、IDCは本日「中国半期加速コ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
10月22日、アントチェーンはデジタル著作権サービスプラットフォームを社会全体に開放することを正式に...
小売業界は急速に進化しています。フロントエンドの入り口とバックエンドのテクノロジーは、変革のたびに絶...
2000年前に生きていた古代人が1000年前に戻ったとしても、適応できるものは多くないかもしれません...
Orange3 は、豊富なデータ処理、分析、モデリング機能を提供する強力なオープンソースのデータ視...
Googleの自動運転部門の創設者であり、かつてはAIの神とまで言われた、元Googleエンジニアの...
「この突然の流行は人類にとって大きな災害だが、人工知能産業の発展にとってはまたとない新たなチャンスで...
1. タオバオライブの体系的な制御機能の進化現在、Taobao Live の推奨アルゴリズムの焦点は...