情報フローシナリオにおけるAIGCの実践

情報フローシナリオにおけるAIGCの実践

1. パーソナライズされたタイトル生成

パーソナライズされたタイトル生成とは、ユーザー コンテンツとパーソナライズされた情報を使用して、さまざまなユーザーまたはさまざまなアプリケーション シナリオのタイトルを生成することを指します。

主な使用シナリオは 3 つあります。

  • 推奨シナリオ: 推奨システムでは、異なるユーザーまたはグループが同じコンテンツに対して異なる興味を持つ場合があります。したがって、推奨シナリオでは、パーソナライズされたタイトル生成では、ユーザーの興味や好みに基づいて、ターゲットを絞ったタイトルを生成する必要があります。これにより、ユーザーの読書への関心が高まり、クリック率が向上し、推奨システム全体の有効性が向上します。
  • 検索シナリオ: 検索エンジンでは、ユーザーの検索クエリに基づいて関連性の高いタイトルを生成することが重要です。パーソナライズされたタイトル生成では、ユーザーの検索意図を捉え、それを記事の内容と組み合わせて、ユーザーのニーズを満たすタイトルを生成できる必要があります。これにより、ユーザーはニーズに合った情報をすばやく見つけることができ、検索エクスペリエンスが向上します。
  • クリエイター プラットフォーム: クリエイター プラットフォームでは、著者は通常、独自の執筆スタイルを持っています。パーソナライズされたタイトル生成では、著者のこれまでのタイトル作成スタイルを模倣し、一貫したスタイルのタイトルを生成する必要があります。これにより、著者は一貫した個人ブランドイメージを維持しながら、読者が著者の作品を識別しやすくなります。

直面した主な問題と困難:

  • シナリオ表現: ユーザーの興味、検索クエリ、著者のスタイルなどの明示的または暗黙的な情報をどのように表現するか。
  • インタラクション設計: シーン表現を取得した後、記事やタイトルとどのようにインタラクションしてパーソナライズされたタイトルを生成するか?

1. キーワードに基づいたタイトル生成

推奨と検索のシナリオには、推奨におけるタグ、興味のあるポイントやポートレート、検索におけるクエリなど、多数のキーワードが存在します。このモデルは、エンコーダーとデコーダーの部分を含むトランスフォーマー構造を使用します。この記事では、より良い結果を得るために、キーワード情報をモデルに統合する複数の方法を試しました。最も簡単な方法は、元の Multi-head Attention レイヤーに新しいキーワード表現レイヤーを追加することです。もう 1 つの方法は、最初に記事表現とキーワード表現を対話し、キーワード表現をクエリとして、記事表現をキーと値として使用し、次に Multi-head Attention レイヤーを使用してフィルタリングされた記事表現を生成し、最後にそれをデコーダー側で処理することです。

実験結果によると、キーワードフィルタリングされた記事表現を導入すると、モデルのパフォーマンスが大幅に向上することが分かりました。このようにして、生成されたタイトルはユーザーの興味に沿ったものになり、推奨と検索の精度が向上します。

2. 過去のクリックシーケンスに基づいたパーソナライズされたタイトル生成

ユーザーのクリックスタイルに適したタイトルを生成するために、トランスフォーマーエンコーダーと LSTM デコーダーを組み合わせ、ユーザーの過去のクリックシーケンス情報を組み込む方法を提案します。方法の詳細な説明は次のとおりです。

入力データとユーザー表現: まず、各ユーザーの履歴クリック シーケンスが処理されます。入力データには、ユーザーが閲覧した記事のタイトルやその他の関連する特徴が含まれます。これらの履歴クリック シーケンスは、ユーザー エンコーダーを通じてエンコードされ、ユーザーのクリック スタイルを表すユーザー埋め込みが取得されます。

モデルアーキテクチャ: モデル全体では、エンコーダー側として自己注意メカニズムに基づくトランスフォーマー エンコーダーを使用して、入力記事コンテンツの意味情報と構造情報を抽出します。デコーダーは、強力な時間モデリング機能を備え、滑らかで一貫性のあるタイトルを効果的に生成できる長短期記憶ネットワーク (LSTM) を使用します。

ユーザー スタイル ガイダンス: タイトル生成プロセス中に、ユーザー エンベディングによってモデルの出力を次の 3 つの方法でガイドできます。

a. LSTM 隠し状態を初期化する: ユーザーの埋め込みを LSTM の初期隠し状態として使用します。つまり、見出しを生成するときに、モデルはユーザーのクリックのスタイルを考慮して考え始めます。これにより、生成されたタイトルはユーザーの興味や好みにより合ったものになります。

b. 注意分布計算に参加する: デコード処理中、LSTM は入力された記事の内容と現在生成された部分タイトルに基づいて次の単語を予測する必要があります。この目標を達成するために、アテンション メカニズムを導入すると、LSTM がより重要な入力情報に集中できるようになります。ユーザーの埋め込みを注目度分布の計算に組み込むことで、モデルはタイトルを生成するときに、ユーザーのクリック スタイルに関連するコンテンツにさらに注意を払うことができます。

c. ゲートネットワーク計算に参加する: LSTM のゲートネットワークは、情報の流れを制御する役割を果たします。タイトル生成プロセスでは、ユーザーの埋め込みと記事コンテンツ情報を組み合わせ、ゲーティングネットワークの計算に参加することで、情報の選別と更新プロセスをさらに最適化できます。これにより、自分のスタイルに合ったタイトルが生成されます。

実験結果は次のとおりです。

3. 著者のスタイルに基づいたタイトル生成

より魅力的で、関連性が高く、流暢なタイトルを生成するために、トランスフォーマーベースのアプローチを採用し、著者の過去のタイトル情報を組み込みました。

まず、トレーニングデータセットを構築するために、毎日特に多くの投稿をするアカウントと、特に投稿数が少ないクリエイターを除外しました。次に、著者の歴史的なタイトルに基づいて、トリプレット (<記事、歴史的なタイトル、希望するタイトル>) データセットが構築されます。このデータは、トランスフォーマー モデルをトレーニングするための入力として使用されます。

トランスフォーマー モデルでは、エンコーダーは主に入力テキストの意味情報を抽出する役割を担います。しかし、n 個の歴史的タイトルの埋め込みを単純に計算して平均するだけでは、著者のスタイルを表現することは困難です。この問題を解決するために、対照学習法を導入します。バッチでは、同じ著者のタイトルがペアで正の例を形成し、異なる著者のタイトルがペアで負の例を形成します。この種のトレーニングにより、モデルの表現は単なる意味情報ではなく、著者のスタイルをより捉えやすくなります。

実験結果によると、著者スタイルを導入したタイトル生成モデルでは、Rouge および BLEU 評価指標が改善されることが示されています。元のモデルと比較すると、新しいモデルによって生成されたタイトルは、著者のスタイルとの一貫性を維持しながら、より流暢で、関連性が高く、魅力的です。これは、著者の過去のタイトル情報を活用することで、著者のスタイルに沿ったタイトルを生成でき、ユーザー エクスペリエンスが向上することを示しています。

2. 表紙画像の自動合成

情報爆発の時代である今日、視覚的なコミュニケーションの一形態としての表紙画像は、強い魅力と読みやすさを持っています。ソーシャルメディア、ウェブサイト、雑誌など、さまざまなシナリオで重要な役割を果たします。しかし、実用的でありながら視聴者の注目を集めることができるカバー画像をデザインするのは簡単ではありません。ユーザーがコンテンツをすぐに理解し、強い関心を喚起できるようにするには、カバー画像のシンプルさと複雑さのバランスをとる必要があります。

カバー画像がシンプルすぎると、ユーザーは十分な情報を得ることができず、その背後にある価値を無視してしまう可能性があります。ただし、カバー画像が複雑すぎると、理解するのが難しくなり、膨大な量の情報に直面したときにユーザーがすぐに忍耐力を失ってしまう可能性があります。したがって、表紙画像をデザインするときは、「シンプルさと明瞭さ」の原則に従い、テキストと画像を適切に組み合わせて、ユーザーにどのような記事であるかを伝える必要があります。

カバー画像の魅力と実用性を高めるために、タイトルやタグなどの重要な情報をカバー画像に埋め込むことをお勧めします。これらの重要な情報により、ユーザーは記事のトピックを初めて理解できるようになり、読む意欲が高まります。同時に、これは記事の専門性と信頼性の向上にも役立ち、ユーザーに時間をかけて読む価値があると思わせることになります。

つまり、カバー画像は情報伝達とユーザー誘致において重要な役割を果たします。デザイナーは、ターゲット ユーザーやコミュニケーション チャネルに応じてカバー イメージのシンプルさと複雑さのバランスを取り、美しく実用的なカバー イメージを慎重にデザインする必要があります。タイトルやタグなどの重要な情報をカバー画像に埋め込むことで、ユーザーエクスペリエンスが向上し、記事の範囲と影響力が拡大します。

ここで注意すべき点がいくつかあります:

  • カバー画像には、放送局のロゴ、透かし、字幕などを含めることはできません。
  • カバー画像の重要な情報によって、顔や重要な対象などが隠れてはなりません。
  • カバー画像の重要な情報は、タイトル、タグ、カテゴリ、キーワードから抽出する必要があります。

まず、画像復元技術を使用して、透かしや字幕などの邪魔な要素を削除し、きれいなカバー画像を取得します。次に、Seq2Seq モデルを使用して、タイトルとタグから重要な情報を抽出します。次に、オブジェクト検出を実行して、顔やオブジェクトなどの重要な部分を識別し、生成されたカバー画像でそれらが遮られていないことを確認します。最後に、自動カバー画像合成リファレンスレイアウト生成方式を使用して、テキスト情報をカバー画像に統合します。具体的なプロセスフローチャートは次のとおりです。

本稿では、高品質な表紙画像生成を実現するために、画像復元技術、Seq2Seqモデル、オブジェクト検出、自動表紙画像合成参照レイアウト生成法などの先進技術を活用した手法を紹介します。この方法の詳細な手順は次のとおりです。

画像復元技術: 画像復元技術は、透かしや字幕などの干渉要素を除去して、きれいなカバー画像を取得することを目的としています。このプロセスでは Faster R-CNN が使用され、次の手順が実行されます。OCR はテキスト ボックスの提案を識別します。 ResNet50 を使用して入力画像から特徴を抽出し、F1 を取得します。機能マッピングを通じて、テキスト ボックスの機能 F2 が F1 から取得されます。 F2 に基づいて分類し、コピーライティング、ステーション ロゴ、字幕のいずれであるかを識別します。インペインティングに基づくコンテンツ消去。このようにして、復元された画像は、不要な要素を削除しながら、元のシーンの視覚効果を維持することができます。

Seq2Seq モデルを使用して重要な情報を抽出します。Seq2Seq モデルは、ディープラーニングに基づくエンドツーエンドのシーケンス生成モデルです。このアプリケーションでは、タイトルとタグから重要な情報を抽出するために使用されます。 Seq2Seq モデルは、エンコーダーとデコーダーの 2 つの部分で構成されます。エンコーダーは入力テキストを固定サイズのベクトル表現に変換し、デコーダーはこの表現から出力シーケンスを生成します。このプロセスでは、モデルはカバー画像に関連する重要な情報を識別して抽出することを学習できます。具体的な手順は次のとおりです。Pointer をベース モデルとして、事前トレーニング済みの T5 モデルを使用します。ビデオのタイトル、カテゴリ、キーワードを入力として使用し、手動で書き換えられた情報を結果として使用して、データのバッチにラベルを付けます。予測のキー情報には複数のフラグメントが含まれる場合があります。

オブジェクト検出: オブジェクト検出テクノロジーは、顔やオブジェクトなど、画像内の重要な部分を識別するために使用されます。これらの部分は画像内で重要な視覚的特徴を持つ可能性があるため、カバー画像を生成する際には特別な注意が必要です。物体検出では通常、畳み込みニューラル ネットワーク (CNN) や領域畳み込みニューラル ネットワーク (R-CNN) などのディープラーニング技術を使用して、重要な部分を正確に識別します。この方法では、テキスト情報を挿入するときに、これらの重要な部分がブロックされないようにすることができます。現在、物体検出モデルは顔、猫、犬、車など65のカテゴリを認識できます。ターゲットボックスの位置は、左上と右下の点の座標で表されます。

自動カバー画像合成とは、レイアウト生成方式を指します。上記の準備が完了したら、次のステップは、テキスト情報をカバー画像に統合することです。この目的のために、レイアウト生成と呼ばれる方法を使用して、カバー画像のレイアウトを自動的に生成します。この方法では、まず入力画像を分析し、その視覚的特徴と構造情報を抽出します。次に、この情報を使用して、テキスト挿入に最適な場所とスタイルを決定します。最後に、タイトルとタグから抽出されたキー情報が対応する位置に挿入され、最終的なカバー画像が生成されます。

<<:  NVIDIA が Tensor RT-LLM を発表、RTX 搭載 PC プラットフォームで大規模言語モデルを 4 倍高速化

>>:  APIセキュリティへのAIの適用

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

楽観主義と悲観主義の議論は無意味。AIに必要なのは開発モデルについて考えることだ

最近、烏鎮での夕食会で大物たちが何を食べたかという噂に加え、インターネット会議では人工知能に関する一...

商用顔認識は一時停止できるのか?

顔認証を防ぐために、市民は営業所を訪れる際にヘルメットをかぶっている。「初の顔認証事件」で、裁判所は...

人工知能の「想像力」を実現する

[[416371]] [51CTO.com クイック翻訳]まず、オレンジ色の猫を頭の中で想像してくだ...

...

AIは実際にチップを生成できます! GPT-4はわずか19回の対話で130nmチップを構築し、チップ設計業界におけるHDLの大きな課題を克服しました。

GPT-4 はすでに人間がチップを作るのに役立っています!ニューヨーク大学タンドン工学部の研究者た...

人工知能への恐怖とその対処法5つ

AI テクノロジーを導入する IT リーダーは、ある程度の不安を感じるかもしれませんが、それには十分...

トヨタ・リサーチ・インスティテュート、AIを活用した自動車設計ツールを発表

トヨタ・リサーチ・インスティテュートは、この新しい革新的な生成AIツールにより、デザイナーは効率的か...

Apple Watchも新型コロナウイルスを検知可能:症状が出る7日前に検知可能

現在、新型コロナウイルスの核酸検査のほとんどは、咽頭ぬぐい液を使って行われている。スマートウォッチを...

2018 年のネットワーク イノベーションを推進する 5 つのエンジン

IT 分野は革新を止めたことがなく、ネットワーク分野も例外ではありません。今日は、ネットワーク革新を...

機械学習の7つのステップ

機械学習の応用は急速に成長しており、医療、電子商取引、銀行業務などのさまざまな分野で不可欠な要素とな...

今日は秋分の日で収穫の季節。ドローンがショーの中心です。

9月22日は秋分の日であり、私の国では3回目の「農民の収穫祭」でもあります。収穫の季節と重なる黄金...

2018年世界大学AIランキングが発表、中国の大学が好成績!

この記事では、CSranking の計算に基づいて、コンピューターサイエンスの分野システムと学部の観...

テンセントクラウドの「AIスーパーベース」特別セッションがWOTカンファレンスで発表され、技術革新がAIインフラの新たな章を導く

過去2年間、「百機種戦争」は中国で人気の技術トピックになりました。 2020年以降、中国は大型モデル...

テンセントは顔認識技術を使って未成年者への薬物依存防止規制を強化

米国のメディアによると、子供や十代の若者はビデオゲームに関するほぼすべての制限に対処する方法を見つけ...

企業はビッグデータ アルゴリズムを使用して効果的なリンクを構築できますか?

ビッグデータは人々にとって巨大な概念であるようです。しかし、多くの企業がすでに業務にビッグデータを活...