YouTubeの有名人動画を機械学習で分析したら、視聴数急増の秘密が分かった

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

ビデオが重要なメディアとなり、vlog やビデオブロガーが職業となった現在、ビデオの視聴回数を増やす方法は、ほとんどのコンテンツ制作者にとって最も困難な問題の 1 つです。もちろん、インターネット上ではコンテンツ制作、ホットスポット追跡、編集スキルの共有が盛んに行われていますが、機械学習もそこで大きな役割を果たすことができるということをご存知ないかもしれません。

Join into Data の 2 人の著者 Lianne と Justin が、徹底的なテクニカル分析を行いました。彼らの分析対象となったのは、YouTubeで新しく登場したフィットネスブロガー、シドニー・カミングス氏だ。

シドニーは、全米スポーツ医学アカデミー (NASM) 認定のパーソナルトレーナーであり、走り高跳び選手でもあります。彼女のアカウントは2016年5月17日に登録され、総閲覧数は27,031,566回、現在フォロワー数は21万人。毎日コツコツと更新されており、非常に研究する価値があります。なお、以下の研究はPythonで実装されます。

シドニー・カミングスのタイトルには、最近のタイトル「30 分間の腕と強い臀部のトレーニング!」のように、一定のパターンがあります。 310カロリーを消費！これには通常、時間、体の部位、消費カロリー、およびワークアウトに関するその他の説明的な言葉が含まれます。視聴者はこのビデオをクリックする前に、いくつかの情報を知ることになります:

30 分 – ワークアウト全体を 30 分で完了します。
腕と臀部の引き締め – 腕と臀部の強さに重点を置いて鍛えます。
消費カロリー 310 カロリー – かなりのカロリーを消費したことになります。

上記の重要な情報を習得することが事前準備です。データの観察、自然言語処理技術を使用したビデオの分類、機能の選択、目標の作成、決定木の構築、決定木を読むという 6 つの手順に従います。次に、Leifeng.com を使って、著者がどのように段階的に研究を進めたかを見てみましょう。

準備: データの取得

実際には、YouTube データをスクレイピングする方法はたくさんあります。これは一度限りのプロジェクトであったため、著者は追加のツールに頼らずに手作業のみを必要とする簡単な方法を選択しました。

手順は次のとおりです。

すべてのビデオを選択します。

最新のビデオを右クリックし、「検査」を選択します。

各行の上にカーソルを置くと、すべてのビデオがハイライト表示される HTML コード/要素レベルの最下位レベルが見つかります。

たとえば、Chrome ブラウザを使用している場合は、次のようになります。

[画像出典: シドニーの YouTube 動画ページ所有者: シドニー]

要素を右クリックして、「コピー」を選択し、「要素のコピー」を選択します。

コピーした要素をテキストファイルに貼り付けて保存します。ここでは、JupyterLab テキストファイルを使用し、sydney.txt として保存します。

Python を使用して情報を抽出し、データをクリーンアップします。

ここからが楽しい部分です。彼らは、このデータから特徴を抽出し、どの要因が視聴回数に影響を与えるかを調べることに焦点を当てます。

ステップ1: データを観察する

前のセクションでは、Python へのデータのインポートを行いました。以下は、合計 837 本のビデオを含むデータセット df_videos です。

df_videos には、タイトル、公開されてからの期間、ビデオの長さ、視聴回数、アドレス、カロリー、具体的な公開日、公開からの日数など、各ビデオの詳細を説明する 8 つの機能があります。

さらに、ブロガーが同じビデオを複数回アップロードしたため、データに重複があり、この小さなサンプルはその後の分析では無視されることにも気づいた。

ステップ2: NLPを使用してビデオを分類する

このステップでは、タイトル内のキーワードに基づいて動画を分類しました。

グループ化の基準は次のとおりです。

このビデオは体のどの部分を対象としていますか?
このビデオの目的は筋肉をつけることですか、それとも体重を減らすことですか?
それとも他のキーワードはありますか?

著者らは、タイトルを処理するために、Python で人気のオープンソース NLP ライブラリである Natural Language Toolkit (NLTK) を使用しました。

キーワードリストを生成する

まず、ビデオのタイトルをトークン化します。このプロセスでは、スペース (" ") などの区切り文字を使用して、タイトルのテキスト文字列をさまざまなトークン (単語) に分割します。これにより、コンピュータープログラムがテキストをより適切に理解できるようになります。

これらのタイトルには 538 個の固有の単語が含まれており、最も頻繁に使用されるタグ/単語が以下にリストされています。同じ単語が頻繁に使用されていることがわかります。これは、ブロガーが標準的なビデオタイトルを使用することを好んでいることを改めて証明しています。

高頻度単語リストに基づいて、著者は次のステップでビデオを分類するために使用できる 3 つのキーワードリストを作成しました。

body_keywords – 「全身」、「腹筋」、「脚」など、動画がターゲットとする体の部分を識別します。
workout_type_keywords – 「有酸素運動」、「ストレッチ」、「筋力トレーニング」など、トレーニングの種類を区別します。
その他のキーワード – これには、「ブートキャンプ」、「バーンアウト」、「トーニング」など、よく使用されるものの分類が難しいキーワードが含まれます。

ステムキーワードリスト

これらのキーワードリストを作成した後、著者らは語幹も抽出しました。これは、コンピュータが同義語を認識できるようにするためです。たとえば、ABS は Abdominal Exercise (腹筋運動) の略で、「abs」と「ab」は同じ語幹「ab」を持ちます。

YouTube タイトルのタグとステム

キーワードに加えて、著者はタイトルにタグを付けたり、語幹を記述したりする必要もあります。これらのプロセスにより、さらなるマッチングのためにキーワードとタイトルのリストが準備されます。

ステップ3: 特徴エンジニアリング

ブレインストーミングの結果、キーワードベースと時間ベースの 2 つの機能を選択しました。

キーワードベースの機能

インジケーターの機能

前の手順のおかげで、動画を分類するために一致させることができるキーワードと簡潔なタイトルのリストが 3 つできました。

body_keywordsとworkout_type_keywordsの分類によると、1つの動画に多くのキーワードが存在します。そのため、マッチングを行う前に、作成者は area と workout_type という 2 つの機能も作成しました。これらの機能は、ビデオのすべての体の部位とエクササイズの種類を 1 つの文字列に連結します。

たとえば、ワークアウトビデオでは、「腹筋」と「脚」の両方、または「有酸素運動」と「筋力トレーニング」を同時に行うことができます。この動画の注目部位は「腹筋＋脚」、フィットネスタイプは「有酸素＋筋力」です。

同時に、著者らは「全体」と「完全に」、「コア」と「腹筋」などの類似のキーワードも特定し、それらをグループ化しました。

最終的に、次の 3 種類のダミー機能を作成しました。

is_{}_region は、ビデオに特定の体の部分が含まれているかどうかを識別します。
is_{}_fitness、フィットネスタイプを決定します。
title_contains_{} で、タイトルに他のキーワードが含まれているかどうかを確認します。

明確にするために、ビデオタイトル「脚力トレーニング」は、_leg_area = True、is_strength_workout = True、title_contains_burnout = True で、その他はすべて False である必要があります。

周波数特性

上記の特徴に加えて、著者は、ビデオのタイトルに記載されているキーワードの数を計算するために、num_body_areas、num_workout_types、num_other_keyword の 3 つの特徴も作成しました。

たとえば、「腹筋と脚の有酸素運動筋力トレーニング」というタイトルの場合、num_body_areas と num_workout_types は両方とも 2 になります。

これらの特性は、ビデオに含める体の部位や運動の種類の最適な数を決定するのに役立ちます。

特徴を評価する

最後に、著者はカロリーの消費率を確認するための機能、calories_per_min (1 分あたりのカロリー) を作成しました。結局のところ、視聴者は明確な（そして定量化可能な）運動目標を望んでいます。

もちろん、プロセス全体を通して誤分類されるビデオがいくつかあることは避けられません。著者は時間的特徴に移る前に、それらのビデオも手動で修復しましたが、ここでは繰り返しません。

時系列ベースの機能

上記のキーワードベースの機能により、著者は人気のある動画の種類を発見しました。しかし、これはブロガーが常に同じタイプのビデオを投稿する必要があることを意味するのでしょうか?

この質問に答えるために、彼らは時系列ベースの機能もいくつか作成しました。

num_same_area: 過去 30 日間に公開され、同じエリアをターゲットとした動画の数 (現在の動画を含む)。たとえば、feature = 6 は、現在のビデオが上半身向けであることに加えて、過去 30 日間に上半身のトレーニングビデオが 5 本あったことを意味します。
num_same_workout 、この機能は num_same_area に似ていますが、フィットネスの種類をカウントします。たとえば、feature = 3 は、現在のビデオ「HIIT フィットネス」に加えて、過去 30 日間に 2 つの HIIT フィットネスビデオがあることを意味します。
last_same_area、同じ体の部位の最後のビデオからの日数。たとえば、特徴 = 10 は、腹筋に関する最後のビデオが 10 日前に投稿されたことを示します。
last_same_workout は last_same_area と同じですが、フィットネスタイプ用です。
num_unique_areas、過去 30 日間に運動した固有の体の部位の数。
num_unique_workouts、過去 30 日間に投稿されたさまざまなフィットネスタイプのビデオの数。

これらの機能は、視聴者が同じタイプの動画を好むのか、それとも異なるタイプの動画を好むのかを理解するのに役立ちます。

なお、ブロガーはフィットネスとは関係のない動画を投稿することがあり、その視聴回数は大きく異なるため、著者はこれらを分析に含めなかった。さらに、十分な履歴データがないため、最初の 30 日間の動画も除外しました。

次に、特徴量エンジニアリングの具体的なプロセスについて以下に説明します。

多重共線性の検定

多重共線性検定とは何ですか? Wikipedia では、多重共線性 (共線性とも呼ばれる) とは、多重回帰モデル内の 1 つの予測変数が他の予測変数からかなり高い精度で線形予測できる現象であると説明されています。多重共線性は、少なくともサンプルデータセットでは、モデル全体の予測力や信頼性を低下させることはありません。個々の予測子の計算にのみ影響します。

なぜこれが重要なのでしょうか?

あるブロガーが月曜日にのみ筋力トレーニングの動画を投稿し、その動画の視聴回数が常に月曜日に多いとします。では、視聴回数を分析する際には、視聴回数が月曜日に投稿されたことによるものなのか、それとも筋力トレーニングの練習だったことによるものなのかを判断する必要があるのでしょうか?現実的な回答を得るために、著者は特徴間に強い共線性がないことを確認する必要があります。

ペアワイズ相関は一般的に使用される方法ですが、複数の特徴（複数のペア）がある場合、共線性が同時に存在する可能性があります。

したがって、著者はこの目標を達成するために、より複雑な方法である K 分割交差検証を使用しました。

詳細なプロセスは次のとおりです。

判断に基づいて、共線性をテストするための主要な機能のセットを選択します。

作者は、YouTube 動画の再生回数に重要な特徴を選択し、さらに乱数で構成される 3 つの特徴 (rand0、rand1、rand2) を追加しました。機能間の関係を比較するときにアンカーとして機能します。特徴がこれらのランダムな特徴よりも重要でなかったり類似していたりする場合は、その特徴はターゲット特徴の重要な独立変数ではありません。

これらの機能を k 分割交差検証用に準備します。

このプロセスでは、カテゴリ機能（エリアとワークアウトタイプ）を変換します。この変換により、各カテゴリレベルに少なくとも K 個の値が存在することが保証されます。

特徴の 1 つをターゲットとして使用し、残りの特徴を独立変数として使用して予測モデルをトレーニングします。

次に、著者らは各特徴を反復処理し、他の特徴を使用して予測するモデルを適合させます。著者らは、K 分割検証を備えた単純な勾配ブースティングモデル (GBM) を使用し、対象の特徴が数値かカテゴリかに応じて異なるモデルとスコア (モデル予測能力評価指標) を適用します。

ターゲット機能が数値の場合、著者は勾配ブースティング回帰モデルと二乗平均平方根誤差 (RMSE) を使用します。ターゲット機能がカテゴリの場合、著者は勾配ブースティング分類器モデルと精度を使用します。

各ターゲットについて、K 分割検証スコア (平均) と上位 5 つの独立変数を出力します。

各ターゲット特性のスコアと重要な独立変数を調べます。

著者らは、各ターゲット機能と独立変数との関係を研究しようと試みます。もちろん、この記事ではプロセス全体を列挙するのではなく、2 つの例を示します。

著者らは、長さ（ビデオの長さ）とカロリーの特徴が関連していることを発見しました。この発見は理にかなっています。運動時間が長くなればなるほど、消費カロリーが増えるからです。

この関係を理解するのは難しくありません。

長さとカロリーの間には正の相関関係がありますが、それらを直接グループ化できるほど強力ではありません。 40〜45 分のビデオで消費されるカロリーは、30〜35 分、50〜55 分、さらには 60 分のビデオで消費されるカロリーと重複するからです。したがって、両方の機能が保持されます。

さらに、著者は、num_same_area と area_full という 2 つの機能も関連していることを発見しました。この発見は少し意外なもので、これから解読を始めます。

次の図は、num_same_area と area の関係を示しています。

num_same_area 機能は、過去 30 日間に公開された、同じ地域をターゲットにした動画 (現在の動画を含む) の数をカウントします。 area_ful は全身トレーニングを表し、シドニーの動画で最も一般的なタイプです。したがって、num_same_area が大きい場合、ビデオは全身のトレーニングになります。

num_same_area が大きい (>= 10) と YouTube の視聴回数が増えることがわかったとします。ただし、これが area_full によるものか num_same_area によるものかはわかりません。そのため、著者は num_same_area 機能を放棄し、同じ理由で num_same_workouts 機能も放棄しました。

ステップ4: ターゲットを作成する

ご記憶にあるかと思いますが、この研究の目的は YouTube の視聴回数を増やすことでした。これは、視聴回数を直接目標として使用できることを意味しますか?

ただし、ご注意ください!再生音量の分布が偏っています。再生回数の中央値は 27,641 回で、最高再生回数は 130 万回に達しました。この不均衡はモデルの解釈可能性に問題を引き起こす可能性があります。

そのため、著者は views_quartile という特徴量を作成し、それをターゲットとして使用しました。

彼らは動画を、視聴回数の多い動画（「高」）と視聴回数の少ない動画（「低」）の 2 つのカテゴリに分類しました。「高」は総再生数の75%、つまり再生回数が35,578回以上の動画で、残りは「低」に分類されます。

このようにして、著者らは予測モデルを使用して、視聴された動画の上位 25% を占める機能の組み合わせを見つけました。

ステップ5: 意思決定ツリーを構築する

準備が整ったら、ターゲット views_quartile に基づいて決定木モデルを構築しましょう。

過剰適合を避けるために、著者はリーフノードのサンプルの最小数を 10 に設定しています。理解しやすくするために、著者はツリーの最大深度を 8 層に設定しています。

ステップ6: 意思決定ツリーを読む

最後のステップでは、著者は再生音量の高低につながる「分岐」を調査してまとめます。彼らは何を発見したのでしょうか?

発見1:calories_per_minが最も重要な特徴である

はい、calories_per_min が最も重要な機能です。人々はフィットネスのタイプや体の部位をあまり気にしていないようです。

1分あたりの消費カロリーが12.025以上の場合は消費量が多いとみなされ、動画の60%（51/(34+51)）は視聴率が高いです。

1 分あたりの消費カロリーが少ない (≤ 9.846) 動画の人気ははるかに低く、視聴回数が多かったのはわずか 7.2% (12/(154+12) =) でした。

1 分あたりの消費カロリーが 9.846 ～ 12.025 の動画の場合、他の要因も大きな役割を果たします。

発見2：体のさまざまな部位をさまざまな方法で運動しても、再生量は増えない

この発見は著者の想像を超えていました。もっといろいろな練習をした方が良いのではないでしょうか。

過去 1 か月間の身体の各部位の運動回数 (num_unique_area) が 10 回以上の場合、ビデオ視聴傾向は低くなります。これは、1 分あたりの消費カロリーが高い場合でも当てはまります。

前の 2 つの点を組み合わせると、次の場合に 78% (42/(12+42)) の動画の視聴回数が増えました。

1分あたりの消費カロリーが高い（≥ 12.025）
過去1か月間に体のさまざまな部位の運動が減った（

発見3：お尻のフィットネスは人気がある

動画の消費カロリーが少ない（calories_per_min ≤ 9.846）が、お尻のトレーニングである場合、33%（5/(10+5)）の動画は依然として高い視聴回数を獲得します。それ以外の場合は、高い視聴回数を獲得する動画は4.6%（7/(144+7)）のみです。

提案: 再生を改善する方法

要約すると、著者はシドニーに 3 つの提案をしました。

ヒント1: カロリーを消費する

ご覧のとおり、1 分あたりの消費カロリーが最も重要な特徴であり、12.025 が魔法の数字です。

次の表は、さまざまな長さのビデオで消費されるカロリー数を示しています。

30分間のフィットネス：361カロリー
40分間のフィットネス：481カロリー
50分間のフィットネス：601カロリー
60分間のフィットネス：722カロリー

著者はまた、次のような仮説も提唱しています。数字（持続時間とカロリー）が人間に与える刺激は、単に心理的なものに過ぎません。人々は、カロリーの最初の 2 桁が持続時間よりもはるかに大きいこと、つまり、より短時間でより多くのカロリーを消費できることを単に好むだけかもしれません。

ヒント2: 体の部位のキーワードを少なくする

時には少ないほうが良いこともあります。

フィットネスのタイトルに体の部位が多すぎるのは好まれません。モデルによれば、1 か月に 10 個未満の体の部位をターゲットにする組み合わせの方が良いとのことです。

シドニーは最近の動画で体の部位に関するキーワードをあまり使っていないことに気づきました。最も明らかなのは、彼女が「上腕二頭筋」や「背中」といった言葉の代わりに「腕」や「上半身」といった言葉を使い続けていることです。

ヒント3: ヒップワークアウトをもっと投稿する

シドニーの加入者は、腕の筋肉をつけるよりも「お尻」を鍛えることを好む女性である可能性が高い。人々は、より引き締まったお尻を手に入れるために、消費カロリーの減少を犠牲にすることをいとわない。シドニーは、カロリー消費を抑えるために、動画に必ずお尻のエクササイズを取り入れるべきかもしれません。

ヒント4: 未検証のアイデア

たとえば、月初めに新しいキャンペーンを開始するなどです。月の初めに投稿された動画は、視聴回数が多くなる可能性が高くなります。おそらく人々は新しい目標を設定して新しい月を始めるのが好きなのでしょう。次に、5 日以内に同じ種類のワークアウトを投稿しないでください。

最後に、著者らは、この研究にはいくつかの限界もあると述べています。

これらの推奨事項は過去のパフォーマンスに基づいています。 YouTuber は古い習慣を破り、新しいアイデアを試すことがよくあります。これを踏まえると、競合他社に機械学習を適用することができます。
私たちはタイトルの分析にのみ焦点を当てましたが、購読者数、性別、地域統計などの他の情報には、より多くの特徴、より正確な調査結果、説明が含まれている可能性があります。

<<: 180の大学が「人工知能」の専攻を追加し、人工知能は大人気です！

>>: 「量子超越性」の後、GoogleはTensorFlowの量子バージョンを強力にオープンソース化