視覚的な想像力は人間が生まれながらに持っているものです。AI は同様の能力を持つことができるでしょうか? たとえば、ストーリーラインが与えられた場合、機械は想像力を使って絵を「埋める」ことができるでしょうか? Alibaba AI Labs の知覚研究室の学生たちがこの問題をどう解決するかを見てみましょう。 1. 背景 - 視覚的想像力 1.1 視覚的想像力とは何ですか? 視覚的想像力は人間の脳の重要な機能です。抽象的な概念を具体化し、その視覚的想像力に基づいて考えることができます。図 1 の一番左の列に示されているように、茶色と白の翼と尖ったくちばしを持つ黄色い鳥を考えるとき、私たちは心の中で黄色い鳥の絵を思い浮かべたかもしれません。これは視覚的な想像力です。私たちの目標は、AI がこの機能を持つように徐々にすることです。 図1:最初の行のテキストの説明に基づいてAIが「想像した」画像[1]。 1.2 AI が視覚的想像力を持つことの影響は何でしょうか? AI が視覚的な想像力を持つと、人々のニーズをよりよく理解できるようになり、一部の伝統的な産業に破壊的な影響を与えることができるようになります。ここに2つの例を示します。 図 2 は、セマンティック画像検索の分野における例を示しています。 Google で「白いボートの上で帽子をかぶって魚を抱えている男性」を検索すると、返される結果の品質は (a) になる可能性があり、これはエンジンが検索意図を部分的にしか理解していないことを示しています。機械が一定の視覚的想像力を持つ場合、その検索結果は(b)のようになり、情報検索効率が大幅に向上します。この情報は画像に含まれています。 図2:AIの視覚的想像力を開発する能力は、セマンティック画像検索に大きな影響を与えるでしょう[2]。 もう 1 つの例は、セマンティック画像生成の分野です。想像してみてください。私たちが言語を使ってシーンを説明すると、マシンは膨大な量の経験データを使ってこのシーンを自動的に生成します。図 3 に示すように、ある人物がさまざまな身体的特徴を持っていると説明すると、機械は自動的にその人の外見を想像します。これは、犯罪捜査 (被害者が犯罪者の外見を説明するなど) などの分野に破壊的な影響を及ぼすでしょう。 図3:AIが視覚的な想像力を獲得すると、セマンティック画像生成に大きな影響を与えるでしょう[3]。 2. トピックの選択: 巨人の肩の上に立つ 2.1 現場の問題点は何ですか? 私たちは、テキストから画像への合成の分野に焦点を移します。この分野では、鳥、花、人間の顔などの単純な単一被写体画像の生成について、図 1 に示すように、GAN のアイデアに基づく一連のアルゴリズムが満足のいく結果を達成しています。ただし、テキストに複数の相互に関連するオブジェクトが含まれている場合、下の左の図に示すように、生成される効果は大幅に低下します。これは主に、過度に柔軟で構造化されていないテキストによって発生します。 図4:現在の生成アルゴリズムでは、左側のStackGanアルゴリズムのような複数の相互作用を含むオブジェクトの生成が困難です[4]。右側のsg2imアルゴリズムは、この問題をある程度解決する可能性を秘めている[5]。 そこで、スタンフォード大学CVグループのジョンソンらは、CVPR 2018でテキストから画像への生成を、より制御可能ないくつかのサブ問題に分割するというアイデアを提案した[5]。これは、CVPR2015で提案された新しいシーン表現方法であるシーングラフとセマンティックレイアウト[2]を使用します。 図5: シーングラフと意味構成の図解[6]。 シーン グラフは、エンティティ、属性、関係の 3 つの要素を含む有向グラフです。これは、セマンティック モードの下で構造化された表現と見なすことができます。 シーン グラフ内の各エンティティには、イメージ内に対応する bbox があります。画像自体を無視して、画像内のすべての bbox だけを見ると、画像の意味的構成が形成されます。したがって、意味的構成は、普遍的な意味を持つ画像の構造的表現と見なすことができます。 表 1: 構造名と対応するモードの比較表。 2.2 どう解決するか?——私たちの目から見た大きな枠組み 専門家の意見を参考にすると、テキストから画像への生成は、おおまかに次のサブタスクに分けられると考えられます。 表 2: テキスト生成画像タスクから派生したサブタスクのリスト。 情報の制御可能な生成と段階的な次元のアップグレードを実現するために、全体のプロセスは上記のサブタスクに大まかに分割できます。各サブタスクには対応する作業がありますが、ここでは一つ一つ詳しく説明しません。 2.3 本論文の焦点 この論文は、サブタスク 3「シーン グラフからシーン構成を生成する方法」の解決に焦点を当てています。 このタスクが重要な理由は、このタスクから構造化された意味情報を画像の構造化された表現として「想像」することができ、それが機械に視覚的な想像力を与える鍵となるからです。 3. 本論文の目的と貢献 3.1 現在の問題 ★ 3.1.1 最も近い作業と組み合わせ爆発問題 図6:sg2imはグラフ畳み込みネットワークを使用してシーングラフ全体を入力として取り込み、全体的な意味構成を生成します[5]。 最も近い研究は、スタンフォード・ジョンソンらがCVPR 2018 [5]で発表したsg2imアルゴリズムです(図6を参照)。彼らはまずグラフ畳み込みネットワークを使用して各エンティティの特徴を埋め込み、次にこれらの特徴を使用してオブジェクトレイアウトネットワークを通じてセマンティック構成を生成しました。彼らが採用した生成方法は、シーングラフ全体からセマンティック構成全体への生成方法です。シーングラフ全体には、複数のエンティティと関係が含まれます。これらのエンティティと関係の組み合わせによって形成されるシーングラフには多くの変更があり、モデルがこれほど多くの変更を効果的に表現することが困難になり、最終的には意味構成学習で満足のいく結果が得られません。これを組み合わせ爆発問題と呼びます。 ★ 3.1.2 意味構成評価指標の欠如 もう一つの大きな課題は、意味構成生成の品質をどのように直接かつ自動的に評価するかということです。 過去には、ほとんどの作業は間接的な自動評価を使用して行われ、インセプション スコアまたは画像キャプション スコアを使用して、セマンティック構成によって生成された画像にスコアが付けられていました。これでは、意味構成生成の品質を評価することは不可能であり、最終的な GAN ネットワークが有効であるかどうかのみを評価することになります。多くの研究には手動の採点も含まれています。採点結果は示されますが、それを完全に再現することはほぼ不可能であり、この分野の発展を大きく妨げています。 3.2 Seq-SG2SLの目的 Seq-SG2SL は、組み合わせ爆発問題に対処するためにシーングラフからセマンティック構成を生成するために提案したフレームワークです。このセクションではフレームワーク自体については説明しませんが、まずストーリーを説明します。 ストーリーの背景: 教師は建築図面を見ながら建物を建てる方法を生徒に教える必要があります。図7に示すように。 図7:上の写真は建築図面の模式図、下の写真は完成した部屋の模式図です(インターネットからの画像)。 教師Aは速修クラスを教えています。彼は分厚い図面の束を指差して生徒たちに言いました。「ほら、これが以前の図面です。そこには図面に従って建てられた建物の住所が書かれています。この図面を持って建物を見れば、建物がどのように建てられたかがわかるはずです。将来、新しい図面を渡します。そうすれば、建物を建てることができるようになります。」生徒たちはA先生のやり方に従って学びに行きました。 A 先生が生徒たちをテストしたところ、設計図通りに建物を建てることができる生徒がほとんどいないことが分かりました。A 先生は怒って言いました。「この授業は速いのに、生徒たちは無知すぎて、学んだことを他の状況に応用できないのです。」 先生Bはゆっくりしたクラスを教えています。彼は生徒たちにこう言いました。「図面をいくつか渡します。今日はリビングルームの作り方を教え、明日はキッチンの作り方を教えます。私たちの目標は、まず各部屋の建築手順を学び、次にそれらをつなぎ合わせて部屋全体を建てる方法を教えることです。最後に、建物の建て方を教えます。これらの図面を見てください。心配しないでください。各部分が実際の建物のどの部分に対応しているかを説明します。建物全体は異なって見えますが、これらの部分は非常に日常的です。それらをマスターすれば、建物を建てることができると保証します。」 案の定、B先生の丁寧な指導の下、生徒全員がすぐにテストに合格し、愚かな袁芳でさえ図面の読み方と建物の建て方を学びました。 物語の中で、A先生の生徒たちは成績優秀クラスで、みんなとても頭が良いのですが、建物は常に変化しており、生徒たちがこれらの絵を通して共通の特徴を学ぶのは困難です。 B 先生の生徒は学習が比較的遅く、全体的に記憶力も悪いですが、B 先生は建物を建てるために必要な基本的な知識や共通の重要ポイントを生徒に教えており、結果として早起きは三文の徳となります。 シーングラフは建築図面のようなもので、セマンティック構成は建物のようなものです。教師 A の指導法では、実際に組み合わせ爆発の問題に直面しました。教師 B は、最も基本的な構築操作を教えることで、組み合わせ爆発の問題を回避しました。 これに触発されて、シーングラフからセマンティック構成を生成する問題を検討するための新しい視点を提案します。意味構成は結果です。私たちが学ぶべきなのは直接的な結果ではなく、その結果を生み出すプロセスです。より多くの基本単位を学習して、組み合わせ爆発の問題を解決します。 3.3 SLEUの動機 直接的な自動評価メトリックの不足に対処するために、私たちは新しいメトリック「セマンティック レイアウト評価 (SLEU)」を提案します。このインジケーターは、有名な機械翻訳インジケーター BLEU に触発されています。 この背後にある論理は次のとおりです。
そこで、上記のロジックに従い、機械翻訳指標BLEUの設計を類推し、BLEUの基本概念を1Dから2Dに拡張し、SLEUを提案しました。 3.4 本論文の貢献 1) 意味構成を一連の重ね合わせプロセスの結果として捉える新しいフレームワークSeq-SG2SLを提案する。従来の方法とは異なり、AI は結果ではなく生成プロセスを学習します。このシーケンスツーシーケンス学習アプローチは、組み合わせ爆発の問題を解決できます。 2) セマンティック構成生成の品質を直接かつ自動的に評価できる SLEU と呼ばれる指標を提案します。これにより、この分野における結果の再現の問題が解決され、さまざまな構成生成方法を直接比較するための基礎が提供されます。 4. 方法の要点の簡単な説明 4.1 Seq-SG2SLフレームワーク 図8: Seq-SG2SLフレームワーク。 意味構成を決定するものは何でしょうか? それは関係性です。したがって、シーン グラフ内の関係トリプル (主語 - 述語 - 目的語) によって、意味構成内の主語と目的語に対応する 2 つの bbox が決定されます。主題と目的語に対応する bbox は、それぞれ視覚主題と視覚目的語と呼ばれます。 したがって、セマンティック構成を生成するプロセスは、一連の基本アクション セグメントに分解することができ、各セグメントはブリック アクション コード セグメント (BACS) と呼ばれます。各 BACS によって実行される操作は、視覚的な主題と視覚的なオブジェクトをセマンティック構成に配置し、それぞれのカテゴリ、位置、サイズを調整することです。各 BACS は、シーン グラフ内の対応する関係トリプルによって決定されます。関係トリプルは主語-動詞-目的語の順序で接続され、3 つの単語は基本的な意味フラグメントを形成します。これを意味フラグメント (SF) と呼びます。図 8 に示すように、tree by sidewalk は SF であり、対応する図の BACS シーケンスに示されている 10 個のコード (c0002 ... h14) は BACS です。これらの 10 個のコードを実行した結果が、右端のレイアウト図の tree と sidewalk の 2 つの bbox です。 一連の SF が直列に接続されて SF シーケンスが形成されます。この SF シーケンスは、対応する各 BACS を連結して形成されたシーケンス (BACS シーケンス) に対応します。これら 2 つのシーケンスは 2 つの言語のようなものです。必要なのは、機械学習に SF 言語から BACS 言語に「翻訳」させることだけです。もちろん、シーン グラフ内の有向グラフ情報を保持するために、ノード シーケンスも追加で維持します。これは主に、シーケンス内のどのエンティティが同じエンティティに属しているかを判別し、シーン グラフ内のエンティティ属性をノード シーケンスを通じてセマンティック コンポジション内の bbox に直接渡すことができるようにするためです。このように、Seq-SG2SL フレームワーク全体は柔軟かつ汎用的です。 考えてみてください。このプロセスは、前にお話しした、教師が生徒に設計図から建物を建てることを教える話に似ていませんか?私たちは設計図(シーングラフ)の中のパーツ(SF)を見て、次に建物(セマンティックレイアウト)の対応するパーツがどのように構築されるかを学び(BACSの学習)、最後にそれを統合して学生に建物全体を構築する方法を教えました。これは非常に直感的で、客観的な法則と一致しているのではないでしょうか。私たちは生徒(モデル)に天才であることを求めているわけではありませんが、教師として最終的に良い結果を得るためには正しい方法で教える必要があります。 フレームワークの主要なアイデアは説明されています。詳細に興味のある読者は論文を読むことができます。 4.2 SLEUメトリック SLEU を紹介する前に、読者の皆さんが機械翻訳における BLEU メトリックとは何かを理解していただければ幸いです。 BLEUの基礎はn-gramです。 N-gram は、テキスト内に連続して出現する n 個の単語を指し、(n-1) 次マルコフ連鎖に基づく確率的言語モデルです。簡単に言えば、現在の n 番目の単語が出現する確率は、前の (n-1) 個の単語にのみ依存し、前の単語とは関係がないと仮定します。機械翻訳では、BLEU 評価の基本単位は単語です。ユニグラムは単語を表し、翻訳の適切さを評価します。一方、より長い n グラムは単語のシーケンスを表し、翻訳の流暢さを評価します。 BLEUの考え方は、文章をnグラムに分割し、局所的な類似性を評価し、全体的な翻訳効果をスコアリングすることです。 機械翻訳の場合、最小の分割単位は単語です。では、意味構成生成の問題の場合、最小の分割単位は何でしょうか? それは関係性です。したがって、意味構成生成の場合、ユニグラムは関係になります。十分性を評価するということは、単一の関係が一致するかどうかを評価することです。流暢性を評価するということは、n 個の関係が同時に一致するかどうかを評価することです。また、n 次マルコフ連鎖の仮定も立てます。つまり、関係の出現は (n-1) 個以下の他の関係にのみ依存し、それ以上の関係とは独立しています。シーン グラフ内のオブジェクトとセマンティック構成の間には 1 対 1 の対応があるため、精度と再現率の概念はありません。単一の関係の評価を 1 グラム精度、複数の関係の評価を n グラム精度と呼びます。 ここでは具体的な設計については詳しく説明しません。しかし、関係性をユニグラムとして考えるというのが私たちの中心的な考え方です。私たちの仕事は、このコンセプトを設計し、BLEU のコンセプトを 1D から 2D に拡張することです。興味のある読者は論文を参照することができ、指標の実装もオープンソースになります。 5. 実験結果のプレビュー 図 9: テスト セットでの Seq-SG2SL フレームワークの結果の一部。 上の図は、Seq-SG2SL によってテスト セットで生成された結果の一部を示しています。最初の行は入力、2 行目は生成された意味構成、3 行目は参照意味構成とそれに対応する画像です。私たちの結果では、複数の関係を含む複雑なシーンの構成を生成できることがわかります。 これは単なる紹介です。論文では、主にベースライン アルゴリズムとの比較や特定の設計に関するいくつかの必要な実験など、より定量的な分析について詳しく説明します。これは単なる紹介なので、結論や今後の取り組みについてはここでは詳しく説明しません。興味のある読者は論文を直接読んでください。 この記事は、ICCV 2019 に採択された論文「Seq-SG2SL: シーングラフからセマンティック構成を生成するためのシーケンス間学習」の紹介です。論文の内容すべてを網羅しているわけではなく、いくつかの問題に対する私たちの考えにのみ焦点を当てています。背景は論文ですが、この文章では、その後の研究や応用シナリオに刺激を与えることを期待して、それを徐々により一般的な科学的な形で読者に提示しようとしています。 この記事は@源方によって書かれ、その結果は複数のパートナーである@帆月@坎特@铭杨の共同成果です。私たちはAlibaba AI Labsの知覚研究室に所属しています。研究にご興味がある場合、またはビジネスの方向性についてインスピレーションをお持ちの場合は、[[email protected]] までご連絡ください。喜んでご相談に応じます。 論文のダウンロードリンク: https://arxiv.org/abs/1908.06592 参考文献: [1] Qiao et al., MirrorGAN: 再記述によるテキストから画像への生成の学習、CVPR 2019。 [2] ジョンソンら「シーングラフを使用した画像検索」CVPR 2015。 [3] https://github.com/SummitKwan/transparent_latent_gan [4] Zhang et al., StackGan: スタック型生成的敵対的ネットワークによるテキストからフォトリアリスティックな画像への合成、ICCV 2017。 [5] ジョンソンら「シーングラフからの画像生成」CVPR 2018。 [6] クリシュナら「ビジュアルゲノム:言語と視覚をつなぐ」 |
>>: 2019 ディープラーニング フレームワーク対決: PyTorch がトップ AI カンファレンスを席巻し、NeurIPS 2019 で再び優勝!
Googleの自動運転部門の創設者であり、かつてはAIの神とまで言われた、元Googleエンジニアの...
[[264296]]これは非常に興味深いスピーチです。これはMWCでソフトバンクの孫正義氏が行った...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
翻訳者 |陳俊レビュー | Chonglou異常検出は、企業が競合他社よりも先に今後のトレンドを特定...
多種多様なレゴブロックを一つずつ積み重ねて、あらゆる種類の本物そっくりのキャラクターや風景などを作成...
正月休みが終わり、心身ともに仕事に復帰できましたか?新年を迎え、私のように、お金を稼ぐために働きたい...
ディープラーニングは2006年に登場して以来、近年急速に発展し、学術研究と企業アプリケーションの両方...
世界の歴史は発明の歴史でもあります。火薬の発明は世界地図を変え、電灯の発明は夜を変え、車の発明は空間...