[51CTO.comより引用] 人工知能時代の到来とともに、商業デザイン分野における芸術と技術の競争が、今日徐々に注目される話題となってきました。
「スマートリテール」の創始者および実践者として、オンラインとオフラインの両方で事業を展開し、ユーザーにマルチシナリオのショッピング体験を提供するインターネット小売企業である Suning.com も、この 2 つを組み合わせる方法を積極的に模索しています。 インテリジェンスの時代に、「アート+テクノロジー」の組み合わせをいかに最大限に活かすか? 現在、Suning.com のさまざまなオンライン チャネルは、さまざまなユーザー グループに対して的確な製品プッシュを実現しています。 知能の最前線で、Suningのオタクたちは、Yiguoオンライン製品広告スペース(製品表示バナー画像)のユーザートラフィックのキーポイントで「アート+テクノロジー」の役割を最大化する方法を考えます。 これまでは、オンライン商品表示バナーはすべてデザイナーが1つ1つ手描きしていたため、効率が悪く、バナー生成サイクルが長く、集中的なプロモーションのニーズを満たすことが困難でした。 さらに、レコメンデーションアルゴリズムがユーザーに異なる商品をレコメンドする必要がある場合、オペレーターは商品に応じて異なる背景(商品画像を除くバナー要素内の要素素材画像)を手動で一致させる必要があり、時間と労力がかかります。 こうして、インテリジェントな設計プラットフォーム「千辺バナー」が誕生しました。このプラットフォームは機械学習に基づいており、アップロードされた素材とデザイン言語に応じて 100 を超えるカスタマイズされたバナーをオンラインで生成できます。 同時に、ユーザーの好みに応じてバナー画像を動的に表示し、単一の広告スペースの利用率を向上させます。また、インテリジェントな推奨機能を利用することで、Suning.com のオンライン広告スペースをさまざまなユーザー向けにさまざまな方法で表示できます。 この記事では、主にSuning.comのオンライン製品広告ディスプレイバナーを応用シナリオとして、AI広告設計分野におけるSuningの全体的なワークフローと、関連するアルゴリズム技術フレームワークを紹介します。 バナーインテリジェントデザインの全体的なプロセスと技術的な難しさ バナーインテリジェントデザインの全体的なプロセス バナー画像(下図参照)には、主に商品画像と、商品を装飾・表現するデザイン背景画像(ベースプレート)の2次元情報が含まれており、バナーの生成もこの2次元から行われます。 図1: バナーの寸法情報の分割 具体的なワークフロー図は以下のとおりです。一方では、レコメンデーションアルゴリズムによって推奨された商品画像を使用して、メイン商品を抽出します。 もちろん、セグメンテーションの前に、まず商品画像を事前評価し、品質の悪い商品画像を除外する必要があります。 同時に、ベースプレートも同期的に生成されます。次に、セグメント化された製品イメージを生成されたベースプレートと照合して、同じ製品の複数のバナーを取得します。これらのバナーは、スクリーニングのためにスコアリング モデルに入力され、最高品質の製品バナーが出力されます。 図2: バナーインテリジェント設計の全体的なプロセスフレームワーク プロセスの各段階は重要であり、Web サイトによって生成されるバナーの品質に直接影響します。ただし、2 次元の一部のモジュールの技術的実装には多くの技術的な問題があり、主に次の側面に反映されます。 バナーインテリジェントデザインの技術的な難しさ 技術的な難しさ1: バナー内のメイン製品画像のセグメンテーション バナー画像の核であり、ユーザートラフィックを引き付ける重要な要素であるため、表示されるメインの製品画像の品質は非常に重要です。 初期段階では、バナー画像に表示する商品のメイン画像をデザイナーが手作業で切り抜き、ベースプレートを設計して組み合わせて生成していました。 現在、機械でバナーを自動的に生成したい場合は、画像セグメンテーション アルゴリズムを使用して、手作業による切り抜き作業を置き換える必要があります。 デザイナーは、宣伝の美しさとデザインを確保し、製品の宣伝ポイントを強調するために、製品イメージをパッケージ化して修正します。一部の製品自体の特性と相まって、これらは、家電製品の鏡像や影、製品イメージ内の宣伝ステッカーなど、私たちのセグメンテーションタスクの「難しい例」になります。 しかし、従来の画像セグメンテーション技術は、主に画像自体の低レベルの視覚情報に基づいています。以下は、グラフベースの方法を使用したグラブカットセグメンテーションの結果を示しています。 図3: Grabcutによる製品画像のセグメンテーション結果 右の写真からわかるように、製品の主要部分は簡単に分離できますが、箱本体の影の部分が分割効果に重大な影響を及ぼし、端の分割は非常に粗く、明らかにSuning.comのオンライン製品展示写真の基準を満たしていません。 したがって、これらのセグメンテーションの困難を効果的に解決し、製品画像の洗練されたセグメンテーションを実現できる方法を探ることが非常に重要です。 技術的難しさ2: 設計言語から機械言語への変換 これについて言えば、まず「人工知能」という言葉自体に戻りましょう。いわゆる人工知能は、本質的には、まず人工性があり、次に知性があります。 同様に、インテリジェント バナー デザインのシナリオでは、最も重要かつ基本的なものは背景データですが、現在は手動で導出されています。 これらの「人工的な」データを「インテリジェントな」データに変換し、設計者の設計データを機械が学習できる機械データに変換する方法は、ベースプレート生成の段階で私たちが直面する大きな課題です。 バナー基本要素ライブラリを構築する段階:バナーデザイナーとコミュニケーションをとった後、バナーの要素を下図のようにレイヤーごとに分割しました。主に、背景レイヤー、テクスチャレイヤー、背景装飾レイヤー、マスクレイヤー、製品装飾レイヤー、およびいくつかのコピー情報が含まれます。 同時に、各ベースのレイヤー要素は、製品カテゴリ(家電、食品など)に基づくラベルや、使用タイプ(日常、大規模プロモーションなど)に基づくラベルなど、さまざまな属性に従ってマークおよびラベル付けされます。 これらのラベルが完成すると、これらのラベルに基づいてさまざまなレイヤー ライブラリが確立され、レイヤー要素センターが確立されます。 図4: バナーの各レイヤーの要素 図5: バナーレイアウトテンプレートの例 バナー テンプレートの生成とスクリーニングの段階: 上記で確立された要素の中心に基づいて、デザイナーが事前に定義したレイアウト タグ (一部は上図に示されています) に従って、特定のスタイル、サイズ、特定のカテゴリのテンプレートを生成できます。 同時に、ベースプレートが生成されるたびに、ベースプレートに対応するソースの親要素ラベルが記録され、ベースプレートデータの分析とスクリーニングが容易になります。 この時点で、異なるレイヤー要素をランダムに組み合わせるだけでは、少量のマテリアル入力でも多数のベースが生成され、その多くは明らかに使用できないことに気付きました。 したがって、ベース テンプレートを生成するときに、アルゴリズムは設計者の設計言語に基づいて、設計の「暗黙のルール」の一部を機械言語に変換し、これらの悪いケースの生成を事前に回避します。 たとえば、ベース背景レイヤーのカラー値が小さい場合、マスクレイヤーは透明度が高くカラー値が似ている 2 つのレイヤーを選択する必要があり、それらを一致させることはできません。 これらのデフォルト ルールは、ベース テンプレートの生成段階で追加され、生成されたベース テンプレートが少なくとも設計基準を満たすことが保証され、後続のバナー スクリーニングのサンプル サイズが削減されます。 図6: 生成されたベースプレートのサンプル画像 製品画像とベースプレートのマッチング段階:ベースプレートの生成と製品画像のセグメンテーションの後、両者はマッチングと融合の段階に入ります。 実は、商品イメージとベースプレートをマッチングできるかどうかは、実は非常に主観的な概念であり、デザイナーが異なっても、デザインのマッチングスタイルは異なります。 また、生成されたベーステンプレートに商品画像が完全に一致すると、大量のバナーが生成されますが、実際にはレビューによって多くのバナーが排除され、作業負荷が増加します。 同様に、ベースプレートのルールを生成するというアイデアに従い、機械が学習できないデジタル言語を事前に設計言語から抽象化します。 「ルール + アルゴリズム」のロジックに基づいて、製品とベースプレートを組み合わせるアクションが、機能マッチング プロセスに抽象化されます。 マッチングアルゴリズムの特徴抽出段階では、ベースプレート内の商品表示領域を特徴抽出ROIとして選択し、重ね合わせる商品画像の色特徴を抽出し、両者の特徴距離を計算してマッチングできるかどうかを判定します。 同時に、機械はこれらの一致しない特徴値を定量化して、線形の一致しない特徴間隔を形成します。 ベース プレートが、対応する一致しない機能間隔内に含まれる製品イメージに再度遭遇した場合、バナーを生成するためのオーバーレイは実行されません。 技術的な難しさ3: バナースコアリングルールの確立 パーソナライズされたアルゴリズムによって推奨された製品がボトムボードに一致して複数のバナーが生成されると、それらはスコアリングのためにバナー評価システムに入り、その後モデルトレーニングが行われます。完成した多数のデザインを評価基準として利用することで、高品質なバナーを出力します。 しかし、実際には、バナーが「高品質」であると言うのも非常に主観的です。開発者の目には優れているかもしれませんが、デザイナーの観点からは排除される可能性があります。したがって、バナーの品質はさまざまな観点から評価する必要があります。 さらに、製品イメージとの一致が理想的でないという理由だけで不適格なベースが排除される可能性があるため、アルゴリズムはベースが排除される要因を把握する必要があります。 要約すると、次の 2 つの概念を定義します。
モデルのトレーニング フェーズでは、バナーのスコアリングは主にオペレーターとデザイナーによって決定され、その後、オペレーターとデザイナーはスコア ラベルをネットワークに入力してトレーニングを行い、結果を出力します。 モデル検証フェーズでは、出力結果のオンライン露出とクリック率によってバナーのスコアラベルが決定され、それがモデルにフィードバックされて継続的な強化学習が行われ、評価メカニズムが複数の側面から継続的に改善されます。 バナーインテリジェントデザインに関連するアルゴリズムモデルの紹介 ディープラーニングに基づくインテリジェントな画像切り抜きアルゴリズム 推奨商品画像の精緻なセグメンテーションを実現するために、Suning の画像注釈チームは商品画像に多数のピクセルレベルの注釈を付け、ディープラーニングに基づく深層畳み込みニューラル ネットワーク構造を構築しました。トレーニングを実施して商品画像のセグメンテーション アルゴリズム モデルを確立するとともに、セグメンテーション結果を最適化して、セグメンテーションされた商品画像の品質を向上させました。 膨張畳み込みの使用 従来の CNN ネットワーク構造のほとんどは、次元削減の目的を達成するためにプーリングを使用しており、プーリング後の特徴レイヤーのピクセル サイズは比較的小さくなります。 最初にプーリングを実行して画像サイズを縮小し、次にアップサンプリングを実行して元の画像サイズを拡大する FCN などのアップサンプリング操作でも、この繰り返しの縮小と拡大のプロセスにより、特徴マップの精度が失われます。 そのため、私たちが構築したセグメンテーション ネットワークで拡張畳み込みを使用する方法は、プーリング層を削除し、畳み込み操作の後に図に示す操作を実行して受容野を拡大し、抽出した特徴マップを操作して、より正確な製品画像のセグメンテーションを実現することです。 図7: 拡張畳み込みの図 完全に接続された条件付きランダムフィールドは、積グラフのエッジを洗練します。 セグメンテーション ネットワークのフロント エンドで使用されるディープ畳み込みニューラル ネットワークは、画像内に製品があるかどうか、および製品のおおよその位置を正確に予測できますが、製品画像の境界を正確に特定することはできないため、セグメンテーション エッジも不正確になります。 そのため、ニューラル ネットワーク予測の結果を最適化するために、セグメンテーション ネットワークのバックエンドに完全に接続された条件付きランダム フィールド (CRF) を追加しました。 CRF モデルでは、画像内の各ピクセルが属するカテゴリが変数として表現され、任意の 2 つの変数間の接続が考慮されます。 対応するエネルギー関数は次のとおりです。 このうち、 は単項であり、ピクセルに対応する意味カテゴリを示します。 バイナリ項は、2 つのピクセルの実際の距離と色情報に基づいて、ピクセル間の関係を記述します。 ピクセルが類似しているほど、同じラベルが得られます。 したがって、CRF は、画像を境界にできるだけ近い位置に分割し、エネルギー関数を継続的に最適化することで、最終的に理想的な分割効果を実現します。 セグメント化された画像のアンチエイリアシング 「ピクセルレベル」のセグメンテーション方法を使用してメインの商品画像を切り取ることができたとしても、副作用として商品画像のエッジがギザギザになり、バナーの表示効果に重大な影響を与えます。 そのため、ネットワークをセグメント化した後、アンチエイリアシング アルゴリズムを追加しました。セグメント化された製品画像のアルファ チャネルを抽出し、画像のエッジを取得し、次の図に示すように、エッジのギザギザの形状に応じて 16 のパターンに分割します。 図8: アンチエイリアスエッジの計算 下の右図に示すように、さまざまなアンチエイリアシング モードに応じてエッジ領域のピクセル値を再計算すると、画像のエッジの遷移が非常にスムーズに表示され、アンチエイリアシングを排除する目的が達成されます。 図9: アンチエイリアシングの最適化の比較 マルチタスク学習に基づくバナー評価モデル マルチタスク学習 評価モデルの構築初期段階では、さまざまな解決策も試しました。たとえば、商品画像と背景の一致が妥当かどうかのみを評価する学習タスク用の評価ネットワークを構築しました。実際のトレーニングプロセスでは、このシングルタスクネットワークはすぐに収束し、テストでオーバーフィッティングが発生することがわかりました。 学習済みのネットワーク構造を調整し、畳み込み層の数を増やしても問題は改善されなかったため、シングルタスク学習の限界を考慮し、マルチタスク学習の観点からバナー評価モデルの確立を試みた。 マルチタスク学習では、複数のタスクの共有表現を学習できます。この共有表現は強力な抽象化能力を備えており、複数の異なるが関連する目標に適応できるため、通常、メインタスクはより優れた一般化能力を獲得できます。 バナー評価の次元では、プライマリタスクとセカンダリタスクの区別はありません。各タスクは、他のタスクと比較してプライマリタスクとみなすことができます。 複数の関連するタスクが一緒に研究され、関連する部分もありますが、関連のない部分もあります。タスクを学習する際、タスクに関係のない部分は学習プロセスにおけるノイズに相当し、学習の一般化効果を向上させることができます。 図10: バナー評価ネットワークの全体アーキテクチャ バナー評価ネットワーク構造の概要 Inception v3ネットワーク構造の設計思想を参考に、ネットワークの特徴抽出段階で3x3畳み込みカーネルを2つの1次元1x3および3x1畳み込みカーネルに置き換えます。これにより、ネットワーク層の数をさらに深めることができます。同時に、1つの畳み込みカーネルを2つの畳み込みカーネルに分割することで、ネットワークの非線形性を高めることができます。 バッチ正規化レイヤーをネットワークに追加します。 BN は非常に効果的な正則化手法であり、ネットワークのトレーニングを効果的に高速化し、収束後の分類精度を大幅に向上させることができます。 ニューラルネットワークの特定の層でBNを使用すると、各ミニバッチデータに対して正規化が実行され、出力がN(0, 1)の正規分布に正規化されます。 モデルのトレーニング中、BN 正規化データに対応するために学習率を上げ、ドロップアウトを削除し、L2 正則化を減らしました (BN はすでに正則化子として機能しています)。 図11: インセプションネットワーク構造 評価ネットワークの損失関数はSoftMaxWithLossを採用しています。同時に、対応するネットワークにSliceレイヤーを追加して入力ラベルを分割し、バナー内の各スコアリング項目の評価出力を実現します。 概要と作業指示 最近、インテリジェントデザインプラットフォームは、Suning.comのオンラインサイト上のすべての製品広告スペースのバナー表示をサポートしました。Suning.comのO2Oショッピングフェスティバルや新年商品フェスティバルなどのオンラインプロモーションを経験した後、Qianbian Bannerはより成熟し、安定し、デザイナーの反復作業を大幅に削減すると同時に、オペレーターの大量のバナーニーズにも応えています。 現在、私たちの全体的なアーキテクチャは、バナーを生成し、オンラインプロモーション用にスクリーニングするというアイデアに基づいています。ただし、バナーのデザインをよりインテリジェントにするには、ルールがデザインに干渉しないようにし、アルゴリズムに基づいて実装する必要があります。 そこで、デザイナーや関係者からのフィードバックをもとに、今後の作業の方向性を3つにまとめました。 バナー要素の適応型タイポグラフィ 現在、バナー上の要素のレイアウトは比較的固定されているため、異なるサイズの背景要素の互換性が低く、背景の生成に一定の制限があります。 私たちの現在の仕事は、機械を使って要素のレイアウトを学習し、Yiguo 上のさまざまなオンライン広告の位置に対応し、ターゲットを絞った方法でバナー サイズの適応スケーリングを解決することです。 バナーベースインテリジェントカラーリング 現在生成されているベースプレートは日常のオンライン使用のニーズを満たすことができますが、ベースプレートの生成は要素ライブラリに基づいて行われるため、既存のものしか生成されず、作成することはできません。 つまり、実際にやっているのはデザインではなく、アート作品なのです。そこで、デザイナーの原稿を自動着色に利用し、「千人の顔、千の人」、「千の物、千の顔」を真に実現したいと考えています。 図12: Suning.comオンラインディスプレイバナー下部ページ 図13: グレースケールベースとモデルが自動的に色付けしたベース 上図の 2 セットの予備的な自動カラーリング結果から、インテリジェントなカラーリング ソリューションが全体的に実現可能であることがわかります。ただし、一部の細かい装飾のエッジはまだ高解像度の要件に達していません。 同時に、一部の浅いテクスチャ レイヤーでは、アルゴリズムの色付け効果が特に明らかではないため、この領域の作業方向は、高解像度の自動色付けを実現することです。 オンラインプロモーションからオフラインプロモーションへ 現在、インテリジェントデザインプラットフォームは徐々にオンラインで普及し、使用されています。蘇寧はすでに数千のオフライン店舗を持っています。蘇寧の「スマートリテール」戦略は2万店舗の開発を掲げており、プロモーションページのビジュアルデザイン作業も大量に必要であり、需要は膨大です。 したがって、今後の作業の方向性の 1 つは、オンライン バナー生成のアイデアを使用して、オフライン ストアのビジュアル デザインを実行することです。
Suning.com の人工知能研究所のアルゴリズム エンジニアである Tong Xinxin 氏は、製品の画像認識と AI インテリジェント設計に携わり、関連する研究開発作業を行っています。彼は優れた技術的知識のバックグラウンドを持ち、ディープラーニング、画像認識、アルゴリズムのパフォーマンス最適化に関する深い理解と豊富な経験を持っています。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
[[442813]]画像ソース: https://pixabay.com/images/id-673...
海外メディアVentureBeatによると、中国は人工知能の研究論文の総数で米国を上回り、資金提供を...
翻訳者 |陳俊レビュー | Chonglou OpenAIがもたらしたGPT-4が、世界で最も人気が...
[51CTO.comからのオリジナル記事]これは、少し前に設立され、シリーズAの資金調達を完了したば...
近年、人工知能の発展により、膨大なデータに基づく顔認識技術がさまざまな分野で広く利用されるようになり...
[[389187]] GPT-3 はオープンソースですか? Eleuther AI のオープンソース...
2023年6月28日、Mokaは北京で2023年夏の新製品発表会を開催した。 Moka CEOのLi...
古典作品「星の王子さま」には、蛇が象を飲み込む絵を描いた少年が、大人たちにその絵を見せて怖いかと尋ね...
アメリカは、いまだに人工知能技術の最先端にいます。アメリカが警戒すればするほど、私たちはアメリカのや...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...