AIデザイナー「ルバン」のコア技術が明らかに：1秒間に8,000枚のポスターをデザインする方法とは？

[[228895]]

AI は囲碁のゲームを変え、今度はポスターのデザインを変えています。アリババには「ルバン」というAIデザイナーがいて、平均1秒で8,000枚のポスターデザインを完成させ、1日4,000万枚のポスターを制作できる。昨年はダブル11だけで4億枚ものバナーポスターをデザインした。その背後にある技術的な原理は何ですか?今日はそれを詳しく見ていきましょう。

本稿では、ビジュアル生成の現状、インテリジェントデザインのフレームワークとプロセス、応用事例、今後の展望について紹介します。この記事を学習することで、Luban 製品と関連するビジュアル生成テクノロジーの基本を理解し、業界の現状と将来の開発動向を理解することができます。

講演者プロフィール：Xing Tong氏は、Alibaba Machine Intelligence Technology Laboratoryのシニアアルゴリズム専門家であり、画像生成、インテリジェント医療、画像検索、情報抽出などの技術の研究開発と実装に重点を置いています。また、Alibaba Intelligent Design（Lu Class）の創設メンバーであり、アルゴリズム技術の責任者であり、医療画像のインテリジェント診断の方向の責任者であり、画像検索Pailitaoの初期の創設メンバーでもあります。

この共有は主に以下の部分に分かれています。

定義、目標、ビジョン
デザイン業界の現状
使用シナリオ
技術的枠組みと生産プロセス
主要なアルゴリズム
事業進捗
事例紹介
魯班（新小売UED、淘宝科技部などが共同で作成した代表的事例）
見通し

I. 定義、目標、ビジョン

ビジュアル生成の定義: 制御可能なビジュアルコンテンツの設計と生成。画像、ビデオ、グラフィックスの強化、編集、レンダリング、生成、評価などのビジュアルコンテンツの設計と制作を含め、ユーザーとシナリオのニーズを満たすデジタルビジュアルコンテンツの制作に重点を置いています。テクノロジーを活用して、デザイン、広告、デジタルエンターテイメント業界を強化し、改革します。

目標: 制御可能なビジュアルコンテンツの設計と生成、AI による設計、デジタルコンテンツ制作の高品質、効率性、包括性、低コスト化を実現します。

ビジョン: 考えていることが、実際に見えるものになります。

ビジュアル生成は主に3つの方向に分けられます。 ***、非構造化画像の場合。 2番目は、構造化されたグラフィックスです。 3番目は、連続動画用です。

2. デザイン業界の現状

ビジュアル生成は比較的新しい技術であり、当初は主に手作業で行われていました。ポスターや卒業プロジェクトの表紙などの小さな需要から、Alibaba の多数のマーチャントの流通チャネルや効果などの大きな需要まで、デザインに使用できます。この分野に従事する人は膨大で、市場は広告やビジネスと密接な関係があり、市場規模は非常に大きいです。

技術的に言えば、近年、私たちはサプライサイド改革についてよく言及しています。以前は、サプライサイドは基本的に人やツールを使って画像や動画などを形成していましたが、これには次のような大きな制限がありました。

高効率と低コスト

データの利用率が低い。例えば、昨年のダブルイレブンと今年のダブルイレブンはテーマが違うので、完全に作り直す必要がある。

オンライン化が不可能であり、リクエストから結果取得までのリアルタイム処理が不可能です。

文脈的に関連性を持たせることは難しく、デザイナーはユーザーのパーソナライズされたニーズを組み合わせて文脈的に関連性のある結果を形成することはありません。

消費者側では、パーソナライゼーション、正確性、リアルタイムのパフォーマンスに対する需要が高まっています。そのため、需要と供給の間にはまだギャップが存在します。 AI業界には、識別、理解、検索など多くのINが存在します。 OUT は少なく、生成と統合は依然として学術界に限定されており、体系的な実装プロジェクトや市販の製品は存在しません。

したがって、「予測する最良の方法は、作成することです」。

3. 使用シナリオ

ビジュアル生成エンジンの使用シナリオは、大まかに次の図のように抽象化できます。明示的な入力に関しては、ユーザーはラベルに必要なスタイル、色、構成などを入力したり、例を入力したり、対話型入力を実行したりできます。明示的な入力に加えて、群衆情報、シーン情報、コンテキスト情報などの暗黙的な入力もあります。一般に、入力は常に変化しますが、正規化によって変動が軽減され、生成プロセスと出力品質が制御可能になります。

ビジュアル生成エンジンの場合、入力を正規化する必要があります。ただし、入力前に自然言語処理、音声認識などのさまざまな対話型方法を追加して、標準化された入力に変換することができます。 ***構造化された情報または視覚的なイメージを出力します。

4. 技術的枠組みと製造プロセス

その技術的な枠組みは下の図の左側に示されています。まず、分類、定量化、特性評価など、視覚コンテンツの構造を理解する必要があります。次に、一連の学習と意思決定を通じて、ユーザーのニーズを満たす構造化された情報、つまりデータに変換され、最終的にデータは視覚的な画像や動画に変換されます。このフレームワークは大量の既存データに依存しています。その中心にあるのはデザインカーネルです。同時に、使用後のフィードバックを使用してシステムを継続的に反復して改善するためのユーティリティループが導入されています。

製造工程は、下図の右側に示すように 6 つのステップに分かれています。まず、ユーザーが要求を提示し、その要求特性がシステムが理解できる構造化された情報に変換されます。第二に、情報はスケッチを取得するために計画されます。大まかなスケッチができたら、それをより正確な絵に変え、詳細を調整し、最後にデータの視覚化を通じて最終的な絵を形作ることができます。もちろん、さまざまな部分に多くのトリックや最適化が施されています。

5. 主要なアルゴリズム

以下にいくつかの重要なアルゴリズムを紹介します。下の画像の左側にある Nike のシューズに基づいて、右端の画像を生成したいと思います。まず、プランナーを通じてスケッチを取得し、強化学習を通じて比較的詳細な結果を取得します。次に、敵対的学習とレンダリングアルゴリズムを通じて画像を取得し、評価者によって評価されてビジネスクローズドループを形成します。また、より強力なジョイント機能（非通常のCNN機能）や多次元検索アルゴリズムなど、いくつかの基本的な機能もあります。

基本的に、処理の最初のステップは画像内の情報を構造化することであり、これは既存の認識および理解技術と最も密接に統合される場所でもあります。難しさやポイントとしては、画像内の複数のターゲットの認識、オクルージョンや相互包含に基づくセグメンテーション情報を取得する方法などが挙げられます。次の図は、単純な例です。

構造化された情報を取得した後、それを定量化する必要があります。特徴または量子化マップに量子化できます。量子化プロセスには、テーマスタイル、レイアウトの色、要素の種類、量子化スペースなど、多くの情報が含まれます。この情報により、視覚的特徴のテーマ、タイプ、スタイル、サイズ、位置に基づいてさまざまなコードに定量化し、比較的限定された特徴を使用して最も正確なイメージを表現することができます。

次のステップは、ユーザー入力を通じて比較的大まかな結果、つまりスケッチを取得することです。現在、ディープシーケンス学習が主に使用されている方法です。画像の視点から、まず点のピクセルの色を選択し、次に位置を選択し、操作を繰り返して最終的に画像を形成します。これはプランナーがシミュレートするプロセスです。本質的には、予測プロセスはツリーであり、もちろんパスに分解できます。簡単に言えば、空間シーケンスや視覚シーケンスなど、いくつかのステップに分けることができます。 ***定量的特徴モデルを形成するために、主に LSTM モデルが使用されます。設計プロセスを再帰的かつ循環的なプロセスに変換します。

スケッチを取得したら、俳優を使用してスケッチを改良します。図内の各要素をエージェントと見なすと、オプションのアクションスペースがいくつか存在します。

画像に 20 個の要素があり、それぞれに視覚的に複数のオプションアクションスペースがあり、それらの組み合わせによって形成されるオプションアクションスペースが非常に大きいとします。この問題を解決するには多くのトリックがあります。例えば、空間では変化は限られた範囲内でのみ許可され、動作の方向は秩序的、つまり状態は秩序的であり動作は制限されます。

次のステップは、結果をどのように測定するかです。画像の評価は比較的主観的であり、主に美観と効果という 2 つの側面から評価できます。美的観点には、揃っているか、色の組み合わせは合理的か、障害物はないかといった低レベルの判断基準だけでなく、スタイルに一貫性があるか、テーマに沿っているかといった高レベルの判断基準も含まれます。効果の面では、発売後にクリック率などの改善が達成されるかどうか。 ***対応する重みを持つ複数のインジケーターを形成し、複数の DeepLR ジョイントモデルを形成します。

しかし、結果を測定する前に、ピクセルレベルで目に見える画像を作成する必要があります。コンストラクターには、コピー、転送、作成、一致、生成など、いくつかの種類があります。

先ほど、ユーザーのニーズに基づいて目に見えるグラフを作成する方法を紹介しました。外部のユーティリティループを形成するには、その後の配信、フィードバック、最適化が必要になります。この方法でのみ、システムの有用性を継続的に改善し、オンラインのクローズドループを形成できます。これは、デザイナーに対するインテリジェントデザインの大きな利点でもあります。

VI. 事業進捗状況

以下に実用的な例をいくつか示します。

このシステムには、大量の人間の情報と知識グラフも追加されます。デザイナーは、色、複雑さ、スタイル、構造の適用など、デザイン時にいくつかの共通点を持っています。これは自然言語処理と多少似ていますが、自然言語処理のナレッジグラフはすでに非常に成熟しているのに対し、デザインには継続的な調査と磨きをかける必要があります。

影響力の面では、業界初のAI設計システムであるLuBanは、グループのダブルイレブンイベント中にAIコラボレーションの典型的な事例となり、多くの注目を集めました。このプロセスでは敵対的学習が使用されており、これは MIT が 2018 年に世界で発表したトップ 10 の画期的テクノロジーの 1 つです。

VII. ケーススタディ

多様性の点では、生成される画像は、複数の主題、複数のエージェント、複数の色、およびタイプ適応型にすることができます。

同時に、さまざまなサイズの写真も生成できます。

8. 展望

上記は基本的にグラフィックデザインレベルの話です。しかし、ビデオとグラフィックスは別のブルーオーシャンです。写真を手作業で作成するコストが比較的高い場合、ビデオを作成するコストは写真よりもはるかに高くなります。

下の図は、現在の業界の市場空間を示しています。

下の画像は動画内の広告配置例です。動画内のどの位置が広告挿入に適しているかを検出し、位置を最適化する必要があります。

下の写真は、テニスの試合中にコートにシームレスに投影されたアリババのブランドロゴを示しています。

ビデオの一部を強調するために、全体的に静止し部分的に動くループ可能なビデオを生成できます。

ゲーム分野において、現在のゲームシーンでは多数のアーティストやデザイナーなどが必要とされています。生成された結果が多様性の要件を満たすようにしたい場合、手作業だけに頼ると多くのコストがかかります。また、ゲームのライフサイクルは通常短いため、バッチ処理と効率的なシーン制作が有望なアプリケーションです。

IX. 結論

ビジュアル生成エンジンを通じて、ユーザーの思考に基づいてすべてが生成されるようにしたいと考えています。長期的な目標は、あなたが考えていることが、あなたが見ているものであることです。

[この記事は51CTOコラムニスト「アリババオフィシャルテクノロジー」によるオリジナル記事です。転載については原著者にお問い合わせください。]

この著者の他の記事を読むにはここをクリックしてください

<<: 機械の魂: 未来の工場における AI の応用について

>>: ブロックチェーンと機械学習はどのようにして最も強力な人工知能を生み出すのでしょうか?