茅面映画の李明輝氏:興行収入予測における機械学習の実用化

茅面映画の李明輝氏:興行収入予測における機械学習の実用化

[51CTO.comより引用] 近年、わが国の興行収入市場は飛躍的に成長し、2011年には150億ドル近く、2016年には450億ドルに達しました。2020年頃には1000億ドルに達すると予想されています。しかし、この市場規模は米国市場の半分程度に過ぎない。その理由は、中国映画の主な収入は興行収入そのものであるのに対し、米国では映画派生作品の収入が映画関連産業の総収入の70%を占めており、中国はこの分野でほとんど空白となっているためである。そのため、中国の映画市場には今後も大きな成長の余地が残されている。

確かに、チャンスとリスクは共存している。興行市場が急成長傾向にある一方で、問題も浮上している。現在、我が国では多くの映画が配給・公開されており、毎週10本近くの映画が公開されている。しかし、ほとんどの映画は儲からず、赤字が常態化している。

リスクは高く、投資収益を予測することは困難です。多くの場合、多額の投資が必ずしも大きな収益をもたらすとは限りません。映画の興行収入に関しては、予測ツールが不足しているため、映画の興行収入予測は空白のままになっています。

興行収入予測の重要性、困難さ、そして影響を与える要因

興行収入予測の重要性

興行収入の予測は非常に重要であり、あらゆる段階で重要な役割を果たします。

  • 映画が公開される前に、投資家が映画への投資を準備する際に、事前に投資収益率を予測できれば、リスクを効果的にコントロールすることができます。
  • 映画の公開期間中は、映画の宣伝やマーケティングを行うことができます。映画の興行収入の規模に応じて異なるマーケティングプランを策定できれば、コストを抑えることができます。
  • 映画の公開期間中、興行収入予測に基づいてインテリジェントなスケジュール設定を実行し、利益の最大化という目標を達成できます。

興行収入予測の難しさ

現時点では、興行収入予測は次のような困難に直面しているため、期待通りの結果を達成できていません。

  • 中国映画は急成長期にあり、市場はまだ十分に成熟していない。
  • 利用可能なデータや参考情報は非常に多いですが、ノイズが多く、インターネット、検索エンジン、ソーシャルネットワーク、その他のチャネルから得られる大量の映画情報から興行収入に関する有用なデータを抽出することは困難です。
  • 参照および学習に利用できるサンプルは比較的少なく、これは機械学習を使用して興行収入予測を解決するときに遭遇する最大の問題です。サンプルとデータがなければ、方法がどれほど優れていても、モデルがどれほど高度であっても、適用することは困難です。
  • 感情的な特性の中には、定量化が難しいものもあります。たとえば、映画の質は通常、口コミに基づいて評価されますが、口コミはどのように測定されるのでしょうか?建国記念日と夏休みが映画の公開に与える影響をどのように測定するのでしょうか?

興行収入に影響を与える要因

興行成績は多くの要因によって左右されるでしょう。以下にいくつかの重要な要素を挙げます

  • テーマ。この映画がアニメーション、アート映画、アクション映画、あるいは国際的なハリウッド大作であろうと、テーマが異なれば観客層も異なり、それが興行収入に直接影響します。
  • キャストラインナップ。俳優と監督のラインアップはファン層を形成するでしょう。映画によっては、質や内容があまり良くないかもしれませんが、魅力的な俳優が参加することでかなりの興行収入をもたらす可能性も否定できません。
  • ビデオ品質。映画の質や評判は一般的に良いと認識されており、ソーシャルメディアでも広く拡散され、興行収入の増加にもつながるだろう。
  • スケジュール。同時に公開される他の映画との競争は、特定の映画の興行収入に影響を与えます。
  • プロモーション活動。映画公開時のマーケティング、広告、チケット補助金などの費用も興行収入に影響します。
  • 非市場要因。例えば、ある映画に早い段階で販売目標を設定したり、国が嫌うコンテンツがあったり、興行収入データを買収したり盗んだりするなどの公式要因はすべて興行収入に影響を与えます。

毛沢東興行収入予測の全体的な技術システム

1915 年頃の最も古い映画時代から現在に至るまで、興行収入予測の発展プロセス全体において、多くの予測方法を伴う 3 つの主要な段階を経てきました。具体的な詳細は以下の図に示されています。

2013年以降、現在の映画興行収入予測には、全国リアルタイム興行収入、劇場レベルリアルタイム興行収入、全天興行収入、総興行収入が含まれます。猫眼は現在、公開前日、公開初日、公開週の週末など、いくつかの重要な時点での興行成績に焦点を当てています。

次の図は、Maoyan の興行収入予測の全体的な技術システムを示しています。

  • リアルタイム興行収入とは、各映画が公開された日に生み出される興行収入を指します。上映スケジュールや観客動員数、平均チケット価格など、さまざまな詳細データも掲載されています。
  • デイリー興行成績とは、各映画が全国で上映された翌日の興行成績を予測するものです。現在、Maoyanでは前日の17:00と21:00に翌日の興行成績を予測することができます。
  • 興行収入合計とは、初公開日と最初の週末を時間ノードとして、各映画の公開サイクル全体にわたる全国興行収入予測を指します。
  • リアルタイム興行収入、天津興行収入、総興行収入の間には一定の関係があります。リアルタイム興行収入は、リアルタイムおよび将来の予測データを提供し、日々の興行収入のデータベースを提供します。 Tianji Box Office は特定の日の興行収入を予測し、総興行収入予測のデータベースを提供します。

次の図は、基本データ、予測サービス、Maoyan Professional Edition の 3 つのサブモジュール間の関係を示しています。

図に示すように、協力劇場のチケット販売データやMaoyanチケットプラットフォームの取引データなどの基礎データに基づいて、全国および各劇場のリアルタイムの興行成績を予測できます。もちろん、得られたデータにはまだノイズ低減処理が必要です。

国内の各映画館のリアルタイム興行収入を入手した後、都市部のリア​​ルタイム興行収入を予測することができます。比較的複雑な手法を必要とする日次興行収入と総興行収入の予測に焦点を当て、処理されたデータはMaoyan Professional Editionに表示され、映画関係者、劇場管理者、映画プロデューサーなどに参考として提供されます。

以下に示すように、これはMaoyan ツールのホームページです。

ツールのホームページにはリアルタイムの興行収入が表示されます。クリックして入力すると、日次興行収入と総興行収入の予測結果が表示されます。もちろん、これらのデータの背後にはいくつかの問題と解決策があります。まずはリアルタイム興行収入から始めて、天津興行収入と総興行収入をそれぞれ支えているテクノロジーを分析してみましょう。

リアルタイム興行収入

映画関係者にとって、リアルタイムの興行成績データは非常に重要です。Maoyan ツールを使用すると、すべての映画館の映画のスケジュール、配給、リアルタイムの興行成績データを確認できます。こうしたツールがなければ、これらのデータは翌日の全国映画興行収入の発表まで待たなければなりません。

当社は90%の映画館と提携し、18のチケットシステムに接続し、詳細な映画館の上映時間や座席データなどを持っています。これらはリアルタイムの興行収入におけるMaoyanの強みです。 Maoyan を通じてチケットを購入したことがある人なら、下の写真に示す UI をよくご存知でしょう。

チケット購入の過程では、赤は売れないのですが、全国の映画館の赤のデータを合計すると、リアルタイムの興行成績に近くなるということでしょうか?

単純な真実のように思えますが、実際には、赤いデータはすべての売上を表しているわけではありません。たとえば、映画館が予約した映画のチケットも、良い席を確保したい場合や、利益を上げるために自ら販売したい場合には赤で表示されます。

この問題の定義は、Maoyan の提携劇場 (全国の約 90% を占める) の各映画と各ショーのリアルタイム座席表データに基づいて、全国のすべての劇場での各映画のリアルタイム総興行収入を正確に予測することです。ここでは 2 つの困難があります。

  • 位置マップのステータスが不明瞭なため、データにノイズが発生します。
  • すべての映画館ではありません。データは不完全です。

これら 2 つの問題に対処するために、Maoyan の解決策は、データのサンプリングを実施し、部分的なサンプルに基づいて合計量を推定することです。

次の図は、リアルタイム興行収入の統計モデルを示しています。

Maoyan と提携している映画館は多数あります。合計で n 回の上映があるとします。これらの映画館から「高品質」の映画館を抽出します。合計で m 回の上映があるとします。

高品質とは何ですか?表示される赤い位置データは、翌日に報告されたデータに近いものです。 m 回のセッションで販売されたチケットの数をカウントし、それを X として設定します。全国のチケット販売総数は、右上の赤枠内の式で求めることができます。ここで、X、m、nは優良劇場を抽出するためのデータであり、αのみが未知数です。

このとき、前日または履歴の α 値を使用して、今日の α 値をシミュレートできます。図のように式を代入すると、当日の予想値が得られ、これが興行収入の最も中核となる統計モデルとなります。

以下はリアルタイム興行収入の全体構成図です。

膨大なコンピューティング量に直面してもリアルタイム サービスを適切に提供するために、コンピューティングはオフラインとオンラインの 2 つの部分に分けることができます。

α値は比較的安定しており、オフラインで計算できます。オンライン部分では、データのクリーニング、チケット価格の処理、リアルタイムのチケット数と興行収入の計算が必要です。劇場や地域のリアルタイム興行収入計算も、比較的独立した部分です。アルゴリズムも同様であるため、ここでは詳しく説明しません。

ティエンティボックスオフィス

オンラインチケット販売システムに基づいて、直接取引データを取得できます。前売り興行収入や上映スケジュールなどのきめ細かいデータと、正確なリアルタイム興行収入データは、毎日の興行収入予測に信頼できる機能を提供します。これが、Maoyan の毎日の興行収入予測における利点です。

日次興行収入とは、将来のある日の興行収入を予測することです。Maoyanは現在、翌日の興行収入を1日前に予測することができます。次の図は、「ワイルド・スピード8」のプレミアの興行収入の傾向を示しています。

グラフから、前日21時の予想興行収入が、一日全体の約30%を占めていることがわかります。映画ごとの割合が異なるため、売上率が30%前後になると、Maoyanにとって全体の状況を予測するのは非常に困難です。

基本的な仮定は、興行収入 = チケット価格 * 観客数 = チケット価格 * ショー数 * ショーあたりの平均観客数です。多くの特徴が乗法関係にあることがわかります。

対数変換後、特徴とターゲットの間には線形関係があります。この問題は線形モデルを使用して解決できます。次のがそれです。

log(興行収入) = log(チケット価格) + log(公演回数) + log(公演あたりの平均観客数)

y=w1*x1+w2*x2+...

以下は、対数特徴とターゲットの関係を示すグラフです。

これら 2 つの図から、前日の先行販売と翌日の興行収入、および前日の上映スケジュールと翌日の興行収入の間には強い線形相関があることがわかります。

特徴とターゲット変数の関係は線形であるため、以下に示すように、線形回帰モデルを使用して興行収入を適合させることができます。

左の図は単変量線形回帰、右の図は多変量線形回帰です。これらは、回帰分析予測において最も単純かつ最も一般的に使用される方法です。対象は二乗誤差であり、解法としては最小二乗法、最急降下法などがある。ここでは、過剰適合を防ぐために正規化が導入されています。

下の図に示すように、毎日の興行収入予測に使用される主な特徴は次のとおりです

一方では、リアルタイムボックスオフィスが提供する機能があり、他方では、Maoyan独自のチケットシステムによってもたらされるボックスオフィス関連の機能があります。休日や機能の組み合わせなど、他の機能もいくつかあります。

パターンは毎日異なるため、興行収入予測を当てはめるために単一の線形回帰モデルを使用することはあまり効果的ではありません。そのため、Maoyan が採用したアプローチは、興行収入の減少パターンを見つけ、それをセグメントごとにモデル化することです。

異なる期間に応じて個別のモデルが構築され、プレミア日、非プレミア日、休日、曜日が個別に考慮されます。

興行収入合計

まず、以下に示すように、興行収入予測のより明白な比較を見てみましょう。

図に示されている 2 つの曲線は、「ワイルド・スピード MISSION」と「ダンガル!」です。 「お父さん」の興行成績。

第一作『ワイルド・スピード EURO MISSION』の興行成績は比較的普通だったが、第二作『ダンガル!』は興行成績が振るわなかった。その後も口コミが広がり続け、『お父さん』の興行成績は上昇を続けた。このような状況では、興行収入がどの程度増加するかを事前に予測することは困難です。

総興行収入は、プレミア公開日と最初の週末の 2 つの時点に焦点を当てて、総興行収入を予測します。次の図は、総興行収入予測の階層モデルを示しています。

興行収入総額は、公開初日や初週末など、予測日ごとに区分する必要があります。異なる時期に公開された映画に使用されるモデルは異なり、個別にモデル化する必要があります。

以下に示すように、総興行収入予測に使用される特徴は次のとおりです。

総興行収入の特徴は、映画の属性、公開日、競合などにより、日次興行収入とは大きく異なります。

以下に示すように、これは総興行収入予測に使用されるサポートベクター回帰モデルです。

このモデルの利点は 3 つあります。

  • これは、特徴次元がサンプル数よりも大きい場合にも適用されます。
  • サンプル数が少ない場合、モデルは強力な一般化能力を備えています。
  • 非線形カーネル関数は非線形回帰問題を解決できます。

将来の仕事の見通し

興行収入予測の基礎から言えば、Maoyan は結果を改善し、タイミングを早め、方法を革新する必要がある。詳細は以下の通りです。

  • 興行収入の本質的なルールを理解し、常に新しい方法を模索します。
  • 興行収入の傾向と前売り率を予測しようとしています。
  • インタラクティブな予測システム: 総興行収入と日次興行収入の予測をサポートします。
  • 予定より1~2日早く日次興行収入を達成するという小さな目標。
  • 総興行収入予想の大目標は1ヶ月先。

アプリケーション拡張の詳細は以下の通りです。

  • 映画のスケジュール設定: スケジュール アシスタント => スマート スケジュール設定。
  • 流通マーケティング:マーケティング計画に参加し、チケット補助金を最適化します。
  • 興行収入予測の業界ベンチマークを設定します。

上記内容は、WOTI グローバルイノベーションテクノロジーサミット - サミットフォーラムにおける李明輝氏の講演を基にまとめたものです。

[[206175]]

2016年にMaoyanビッグデータ部に入社し、興行収入予測を担当。彼は 2007 年にハルビン工業大学を卒業し、コンピューター アプリケーションの博士号を取得しました。その後、Microsoft、Baidu、Alibaba などのインターネット企業で働きました。彼の研究分野と仕事分野には、自然言語処理、計算広告、機械学習、人工知能などがあります。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

今月おすすめの人気記事トップ4

東方金信CTO石奇玲:ビッグデータリスク分析と制御アプリケーションの簡単な分析

中国民生銀行のシニアデータアナリスト、張丹氏:R言語を使ってデータを扱う

Yixia Technology CTO 唐立佳: 技術者による製品イノベーション

CDN の問題点を徹底的に理解し、インターネットのベテランが CDN について語ります。

<<:  これから「顔認証」の時代がやって来ますが、あなたの顔は安全でしょうか?

>>:  1865年から始まるビジネスインテリジェンスの簡単な歴史

推薦する

中国チームが最優秀論文賞と最優秀システム論文賞を受賞し、CoRLの受賞論文が発表されました。

CoRL は 2017 年に初めて開催されて以来、ロボット工学と機械学習の交差点における世界トップ...

...

...

ChatGPT を使ってデータを分析する 6 つの方法

翻訳者 |ブガッティレビュー | Chonglouここ数か月で、リリースされる AI ツールの数は増...

...

AI スタートアップはどうすれば成功できるのでしょうか?ガートナー:「以下の点が不可欠」

[[430175]]デジタル変革の波を受けて、さまざまな新興技術が急速に応用され、普及してきました...

...

それは大したことだ! Google によれば、人類は 2029 年に不死を達成するそうです。病気も老化も痛みも完全に消え去ります! ?

この世で最も公平なものは、誕生、老い、病気、そして死だと思います。人生においてどれほど偉大な業績を成...

人工知能分野で最も有望な技術トップ10

2018年世界ロボット会議が北京で開催され、ロボット産業の最先端技術が披露されました。世界的なロボ...

人工知能と機械学習に対するあなたの理解を完全に覆す10の成功ビジネスストーリー

導入:チャットボットから予測分析まで、IT リーダーは人工知能と機械学習を使用してビジネス インサイ...

...

インテリジェント製造業が波に乗る中、産業用ロボットはどのようにして主導権を握ることができるのでしょうか?

インテリジェント製造(IM)は、インテリジェントマシンと人間の専門家で構成された人間と機械の統合イン...

脳内の画像を高解像度で復元できるようになりました

近年、画像生成、特にテキストから画像への生成の分野で大きな進歩が遂げられており、アイデアをテキストで...

人工知能は個人情報詐欺の蔓延に対する優れた解決策である

オンライン詐欺は長い間、継続的な問題となっています。今日ではテクノロジーはより洗練されているかもしれ...

...