1. パーソナライズされたタイトル生成パーソナライズされたタイトル生成とは、ユーザー コンテンツとパーソナライズされた情報を使用して、さまざまなユーザーまたはさまざまなアプリケーション シナリオのタイトルを生成することを指します。 主な使用シナリオは 3 つあります。
直面した主な問題と困難:
1. キーワードに基づいたタイトル生成推奨と検索のシナリオには、推奨におけるタグ、興味のあるポイントやポートレート、検索におけるクエリなど、多数のキーワードが存在します。このモデルは、エンコーダーとデコーダーの部分を含むトランスフォーマー構造を使用します。この記事では、より良い結果を得るために、キーワード情報をモデルに統合する複数の方法を試しました。最も簡単な方法は、元の Multi-head Attention レイヤーに新しいキーワード表現レイヤーを追加することです。もう 1 つの方法は、最初に記事表現とキーワード表現を対話し、キーワード表現をクエリとして、記事表現をキーと値として使用し、次に Multi-head Attention レイヤーを使用してフィルタリングされた記事表現を生成し、最後にそれをデコーダー側で処理することです。 実験結果によると、キーワードフィルタリングされた記事表現を導入すると、モデルのパフォーマンスが大幅に向上することが分かりました。このようにして、生成されたタイトルはユーザーの興味に沿ったものになり、推奨と検索の精度が向上します。 2. 過去のクリックシーケンスに基づいたパーソナライズされたタイトル生成ユーザーのクリックスタイルに適したタイトルを生成するために、トランスフォーマーエンコーダーと LSTM デコーダーを組み合わせ、ユーザーの過去のクリックシーケンス情報を組み込む方法を提案します。方法の詳細な説明は次のとおりです。 入力データとユーザー表現: まず、各ユーザーの履歴クリック シーケンスが処理されます。入力データには、ユーザーが閲覧した記事のタイトルやその他の関連する特徴が含まれます。これらの履歴クリック シーケンスは、ユーザー エンコーダーを通じてエンコードされ、ユーザーのクリック スタイルを表すユーザー埋め込みが取得されます。 モデルアーキテクチャ: モデル全体では、エンコーダー側として自己注意メカニズムに基づくトランスフォーマー エンコーダーを使用して、入力記事コンテンツの意味情報と構造情報を抽出します。デコーダーは、強力な時間モデリング機能を備え、滑らかで一貫性のあるタイトルを効果的に生成できる長短期記憶ネットワーク (LSTM) を使用します。 ユーザー スタイル ガイダンス: タイトル生成プロセス中に、ユーザー エンベディングによってモデルの出力を次の 3 つの方法でガイドできます。 a. LSTM 隠し状態を初期化する: ユーザーの埋め込みを LSTM の初期隠し状態として使用します。つまり、見出しを生成するときに、モデルはユーザーのクリックのスタイルを考慮して考え始めます。これにより、生成されたタイトルはユーザーの興味や好みにより合ったものになります。 b. 注意分布計算に参加する: デコード処理中、LSTM は入力された記事の内容と現在生成された部分タイトルに基づいて次の単語を予測する必要があります。この目標を達成するために、アテンション メカニズムを導入すると、LSTM がより重要な入力情報に集中できるようになります。ユーザーの埋め込みを注目度分布の計算に組み込むことで、モデルはタイトルを生成するときに、ユーザーのクリック スタイルに関連するコンテンツにさらに注意を払うことができます。 c. ゲートネットワーク計算に参加する: LSTM のゲートネットワークは、情報の流れを制御する役割を果たします。タイトル生成プロセスでは、ユーザーの埋め込みと記事コンテンツ情報を組み合わせ、ゲーティングネットワークの計算に参加することで、情報の選別と更新プロセスをさらに最適化できます。これにより、自分のスタイルに合ったタイトルが生成されます。 実験結果は次のとおりです。 3. 著者のスタイルに基づいたタイトル生成より魅力的で、関連性が高く、流暢なタイトルを生成するために、トランスフォーマーベースのアプローチを採用し、著者の過去のタイトル情報を組み込みました。 まず、トレーニングデータセットを構築するために、毎日特に多くの投稿をするアカウントと、特に投稿数が少ないクリエイターを除外しました。次に、著者の歴史的なタイトルに基づいて、トリプレット (<記事、歴史的なタイトル、希望するタイトル>) データセットが構築されます。このデータは、トランスフォーマー モデルをトレーニングするための入力として使用されます。 トランスフォーマー モデルでは、エンコーダーは主に入力テキストの意味情報を抽出する役割を担います。しかし、n 個の歴史的タイトルの埋め込みを単純に計算して平均するだけでは、著者のスタイルを表現することは困難です。この問題を解決するために、対照学習法を導入します。バッチでは、同じ著者のタイトルがペアで正の例を形成し、異なる著者のタイトルがペアで負の例を形成します。この種のトレーニングにより、モデルの表現は単なる意味情報ではなく、著者のスタイルをより捉えやすくなります。 実験結果によると、著者スタイルを導入したタイトル生成モデルでは、Rouge および BLEU 評価指標が改善されることが示されています。元のモデルと比較すると、新しいモデルによって生成されたタイトルは、著者のスタイルとの一貫性を維持しながら、より流暢で、関連性が高く、魅力的です。これは、著者の過去のタイトル情報を活用することで、著者のスタイルに沿ったタイトルを生成でき、ユーザー エクスペリエンスが向上することを示しています。 2. 表紙画像の自動合成情報爆発の時代である今日、視覚的なコミュニケーションの一形態としての表紙画像は、強い魅力と読みやすさを持っています。ソーシャルメディア、ウェブサイト、雑誌など、さまざまなシナリオで重要な役割を果たします。しかし、実用的でありながら視聴者の注目を集めることができるカバー画像をデザインするのは簡単ではありません。ユーザーがコンテンツをすぐに理解し、強い関心を喚起できるようにするには、カバー画像のシンプルさと複雑さのバランスをとる必要があります。 カバー画像がシンプルすぎると、ユーザーは十分な情報を得ることができず、その背後にある価値を無視してしまう可能性があります。ただし、カバー画像が複雑すぎると、理解するのが難しくなり、膨大な量の情報に直面したときにユーザーがすぐに忍耐力を失ってしまう可能性があります。したがって、表紙画像をデザインするときは、「シンプルさと明瞭さ」の原則に従い、テキストと画像を適切に組み合わせて、ユーザーにどのような記事であるかを伝える必要があります。 カバー画像の魅力と実用性を高めるために、タイトルやタグなどの重要な情報をカバー画像に埋め込むことをお勧めします。これらの重要な情報により、ユーザーは記事のトピックを初めて理解できるようになり、読む意欲が高まります。同時に、これは記事の専門性と信頼性の向上にも役立ち、ユーザーに時間をかけて読む価値があると思わせることになります。 つまり、カバー画像は情報伝達とユーザー誘致において重要な役割を果たします。デザイナーは、ターゲット ユーザーやコミュニケーション チャネルに応じてカバー イメージのシンプルさと複雑さのバランスを取り、美しく実用的なカバー イメージを慎重にデザインする必要があります。タイトルやタグなどの重要な情報をカバー画像に埋め込むことで、ユーザーエクスペリエンスが向上し、記事の範囲と影響力が拡大します。 ここで注意すべき点がいくつかあります:
まず、画像復元技術を使用して、透かしや字幕などの邪魔な要素を削除し、きれいなカバー画像を取得します。次に、Seq2Seq モデルを使用して、タイトルとタグから重要な情報を抽出します。次に、オブジェクト検出を実行して、顔やオブジェクトなどの重要な部分を識別し、生成されたカバー画像でそれらが遮られていないことを確認します。最後に、自動カバー画像合成リファレンスレイアウト生成方式を使用して、テキスト情報をカバー画像に統合します。具体的なプロセスフローチャートは次のとおりです。 本稿では、高品質な表紙画像生成を実現するために、画像復元技術、Seq2Seqモデル、オブジェクト検出、自動表紙画像合成参照レイアウト生成法などの先進技術を活用した手法を紹介します。この方法の詳細な手順は次のとおりです。 画像復元技術: 画像復元技術は、透かしや字幕などの干渉要素を除去して、きれいなカバー画像を取得することを目的としています。このプロセスでは Faster R-CNN が使用され、次の手順が実行されます。OCR はテキスト ボックスの提案を識別します。 ResNet50 を使用して入力画像から特徴を抽出し、F1 を取得します。機能マッピングを通じて、テキスト ボックスの機能 F2 が F1 から取得されます。 F2 に基づいて分類し、コピーライティング、ステーション ロゴ、字幕のいずれであるかを識別します。インペインティングに基づくコンテンツ消去。このようにして、復元された画像は、不要な要素を削除しながら、元のシーンの視覚効果を維持することができます。 Seq2Seq モデルを使用して重要な情報を抽出します。Seq2Seq モデルは、ディープラーニングに基づくエンドツーエンドのシーケンス生成モデルです。このアプリケーションでは、タイトルとタグから重要な情報を抽出するために使用されます。 Seq2Seq モデルは、エンコーダーとデコーダーの 2 つの部分で構成されます。エンコーダーは入力テキストを固定サイズのベクトル表現に変換し、デコーダーはこの表現から出力シーケンスを生成します。このプロセスでは、モデルはカバー画像に関連する重要な情報を識別して抽出することを学習できます。具体的な手順は次のとおりです。Pointer をベース モデルとして、事前トレーニング済みの T5 モデルを使用します。ビデオのタイトル、カテゴリ、キーワードを入力として使用し、手動で書き換えられた情報を結果として使用して、データのバッチにラベルを付けます。予測のキー情報には複数のフラグメントが含まれる場合があります。 オブジェクト検出: オブジェクト検出テクノロジーは、顔やオブジェクトなど、画像内の重要な部分を識別するために使用されます。これらの部分は画像内で重要な視覚的特徴を持つ可能性があるため、カバー画像を生成する際には特別な注意が必要です。物体検出では通常、畳み込みニューラル ネットワーク (CNN) や領域畳み込みニューラル ネットワーク (R-CNN) などのディープラーニング技術を使用して、重要な部分を正確に識別します。この方法では、テキスト情報を挿入するときに、これらの重要な部分がブロックされないようにすることができます。現在、物体検出モデルは顔、猫、犬、車など65のカテゴリを認識できます。ターゲットボックスの位置は、左上と右下の点の座標で表されます。 自動カバー画像合成とは、レイアウト生成方式を指します。上記の準備が完了したら、次のステップは、テキスト情報をカバー画像に統合することです。この目的のために、レイアウト生成と呼ばれる方法を使用して、カバー画像のレイアウトを自動的に生成します。この方法では、まず入力画像を分析し、その視覚的特徴と構造情報を抽出します。次に、この情報を使用して、テキスト挿入に最適な場所とスタイルを決定します。最後に、タイトルとタグから抽出されたキー情報が対応する位置に挿入され、最終的なカバー画像が生成されます。 |
<<: NVIDIA が Tensor RT-LLM を発表、RTX 搭載 PC プラットフォームで大規模言語モデルを 4 倍高速化
最近、烏鎮での夕食会で大物たちが何を食べたかという噂に加え、インターネット会議では人工知能に関する一...
顔認証を防ぐために、市民は営業所を訪れる際にヘルメットをかぶっている。「初の顔認証事件」で、裁判所は...
[[416371]] [51CTO.com クイック翻訳]まず、オレンジ色の猫を頭の中で想像してくだ...
GPT-4 はすでに人間がチップを作るのに役立っています!ニューヨーク大学タンドン工学部の研究者た...
AI テクノロジーを導入する IT リーダーは、ある程度の不安を感じるかもしれませんが、それには十分...
トヨタ・リサーチ・インスティテュートは、この新しい革新的な生成AIツールにより、デザイナーは効率的か...
現在、新型コロナウイルスの核酸検査のほとんどは、咽頭ぬぐい液を使って行われている。スマートウォッチを...
IT 分野は革新を止めたことがなく、ネットワーク分野も例外ではありません。今日は、ネットワーク革新を...
機械学習の応用は急速に成長しており、医療、電子商取引、銀行業務などのさまざまな分野で不可欠な要素とな...
9月22日は秋分の日であり、私の国では3回目の「農民の収穫祭」でもあります。収穫の季節と重なる黄金...
この記事では、CSranking の計算に基づいて、コンピューターサイエンスの分野システムと学部の観...
過去2年間、「百機種戦争」は中国で人気の技術トピックになりました。 2020年以降、中国は大型モデル...
米国のメディアによると、子供や十代の若者はビデオゲームに関するほぼすべての制限に対処する方法を見つけ...
ビッグデータは人々にとって巨大な概念であるようです。しかし、多くの企業がすでに業務にビッグデータを活...