ディープラーニングを使用して映画を推奨するにはどうすればよいでしょうか?独自の推奨システムを作成する方法を教えます!

導入

ほとんどすべての人が、家族や友人と一緒に映画を観ながら余暇を過ごすのが好きです。誰でもこんな経験をしたことがあるでしょう。2時間以内に映画を観ようと思っていたのに、何を見たらいいのかわからず20分間ソファに座っていました。決断力が再び失われ、良い気分が憂鬱に変わりました。したがって、映画を選択するときに推奨事項を提供するコンピュータエージェントが本当に必要です。

今日では、インテリジェントな映画推奨システムが日常生活の一部になっています。

Data Science Central はかつてこう言っていました。

「確かなデータは入手困難だが、事情に詳しい関係者は、アマゾンやネットフリックスなどの大手電子商取引プラットフォームでは、推奨システムによって収益が最大10～25％増加していると推定している。」

このプロジェクトでは、映画推奨のための基本的なアルゴリズムをいくつか研究し、ディープラーニングを映画推奨システムに統合しようとしました。

映画はエンターテインメントと視覚芸術を組み合わせた素晴らしい例です。映画ポスターは、映画の情報を観客に直接かつ迅速に伝えることができます。デザインマンティックは「公開前でも公開後でも、映画のポスターはギミックを作る上で重要な要素です。ほとんどの人（ターゲット層）は、ポスターを見てチケットを買うか映画を見るかを決めます」と語る。ポスターのフォントだけで映画の雰囲気を推測することさえできるのだ。

ちょっと魔法のように聞こえますが、ポスターを見るだけで映画のジャンルを予測することが可能なのです。私にとっては、ポスターを一目見るだけで、その映画を見たいかどうかが分かります。たとえば、私は漫画ファンではないので、漫画をテーマにしたポスターを見るとすぐに、自分の好みではないことがわかります。意思決定のプロセスは非常に簡単で、映画のレビューを読む必要はありません (実際にレビューを読む時間がある人がいるかどうかはわかりません)。そこで、標準的な映画推奨アルゴリズムに加えて、ディープラーニングを使用してポスターを処理し、類似の映画をユーザーに推奨しました。最終的な目標は、人間の視覚を模倣し、ポスターを見るだけでディープラーニングを使用して直感的な映画推奨システムを作成することです。このプロジェクトは、Ethan Rosenthal のブログからインスピレーションを得ました。私は彼のブログのコードをこのプロジェクトのアルゴリズムに合わせて修正しました。

MovieLens からダウンロードした映画データセットを使用しました。 9,066 本の映画と 671 人のユーザーが含まれ、100,000 件の評価と 1,300 件のタグに分類されています。このデータセットは 2016 年 10 月に最終更新されました。

協調フィルタリング

大まかに言えば、レコメンデーションシステムには 3 つの種類があります (単純な評価方法を除く)。

コンテンツベースの推奨
協調フィルタリング
ハイブリッドモデル

「コンテンツベースの推奨」は回帰問題です。映画のコンテンツを特徴として使用し、ユーザーの映画の評価を予測します。

しかし、「協調フィルタリング」による推薦システムでは、コンテンツの特徴を事前に取得することは一般的に不可能です。ユーザー間の類似性（ユーザーが映画に同じ評価を与えること）と映画間の類似性（ユーザーの評価が似ている映画）を通じて潜在的な特徴を学習し、ユーザーの映画の評価を予測します。さらに、映画の特徴を学習した後、映画間の類似性を測定し、ユーザーの過去の視聴情報に基づいて最も類似した映画をユーザーに推奨することができます。

「コンテンツベースの推奨」と「協調フィルタリング」は、10年以上前には最も先進的な技術でした。明らかに、予測結果を改善できるモデルやアルゴリズムは数多く存在します。たとえば、ユーザーの映画評価に関する事前情報が不足している場合、暗黙的な行列分解を使用して、ユーザーの映画評価を好みや信頼度レベル (たとえば、ユーザーが映画の推奨をクリックした回数) に置き換え、協調フィルタリングを実行できます。さらに、「コンテンツ推奨」と「協調フィルタリング」の手法を組み合わせて、コンテンツを副次情報として使用することで予測精度を向上させることもできます。このハイブリッドアプローチは、「Learning to Rank」アルゴリズムを使用して実装できます。

このプロジェクトでは、「協調フィルタリング」手法に焦点を当てます。まず、回帰を使用する代わりに映画（ユーザー）の類似性を使用して評価を予測し、類似性に基づいて映画を推奨する方法について説明します。次に、回帰を使用して潜在的な特徴を同時に学習し、映画を推奨する方法について説明します。最後に、レコメンデーションシステムでディープラーニングを活用する方法について説明します。

映画の類似点

協調フィルタリングに基づく推奨システムの場合、最初のステップは評価マトリックスを確立することです。各行はユーザーを表し、各列はユーザーの映画の評価に対応します。確立されたスコアリングマトリックスは次のとおりです。

 df = pd.read_csv( 'ratings.csv' , sep= ',' )
 df_id = pd.read_csv( 'links.csv' 、 sep= ',' )
 df = pd.merge(df, df_id, on=[ 'movieId' ])
評価マトリックス = np.zeros((df.userId.unique().shape[0], max(df.movieId)))
 df.itertuples()の行の場合:
評価マトリックス[行[1]-1、行[2]-1] = 行[3]
評価マトリックス = 評価マトリックス[:,:9000]

ここで、「ratings.csv」にはユーザー ID、映画 ID、評価、および時間情報が含まれ、「link.csv」には映画 ID、IMDB ID、および TMDB ID が含まれます。各映画には、API を使用して映画データベース Web サイトからポスターを取得するために IMDB ID が必要です。そのため、2 つのテーブルを結合します。評価マトリックスのスパース性を次のようにテストしました。

スパース性 = float (len(ratings.nonzero()[0]))
スパース性 /= (ratings.shape[0] * ratings.shape[1])
スパース性 *= 100

ゼロ以外のエントリの数がわずか 1.40% の場合、評価マトリックスはスパースです。ここで、トレーニングとテストの目的で、評価マトリックスを 2 つの小さなマトリックスに分解します。評価マトリックスから 10 件の評価を削除し、テストセットに追加しました。

トレーニングマトリックス = 評価マトリックス.コピー()
テストマトリックス = np.zeros(ratings_matrix.shape)
 i がxrange(rating_matrix.shape[0])内にある場合:
評価IDx = np.ランダム選択(
評価マトリックス[i, :].nonzero()[0],
サイズ=10,
置き換え=True)
トレーニングマトリックス[i, 評価IDx] = 0.0
テストマトリックス[i, 評価IDx] = 評価マトリックス[i, 評価IDx]

ユーザーと映画の類似度（コサイン）は、次の式に従って計算されます。

ここでs(u,v)はユーザーuとv間のコサイン類似度です。

類似度ユーザー = train_matrix.dot(train_matrix.T) + 1e-9
ノルム = np.array([np.sqrt(np.diagonal(similarity_user))])
類似ユーザー = ( 類似ユーザー / (ノルム * ノルム.T) )
類似度ムービー = train_matrix.T.dot(train_matrix) + 1e-9
ノルム = np.array([np.sqrt(np.diagonal(similarity_movie))])
類似度ムービー = ( 類似度ムービー / (ノルム * ノルム.T) )

ユーザー間の類似性を利用して、各ユーザーの映画の評価を予測し、対応する MSE を計算できます。予測は類似ユーザーからの評価に基づいています。具体的には、スコア予測は次の式に従って実行できます。

映画 i に対するユーザー u の予測は、映画に対するユーザー v の評価の (正規化された) 加重合計です。重みはユーザー u と v 間の類似度です。

 sklearn.metricsからmean_squared_errorをインポートする
 
予測 = similarity_user.dot(train_matrix) / np.array([np.abs(similarity_user).sum(axis=1)]).T 
 
予測 = 予測[テスト行列.nonzero()].flatten() 
 
 test_vector = test_matrix[test_matrix.nonzero()].flatten() 
 
 mse = 平均二乗誤差(予測、テストベクトル) 
 
 'MSE = ' + str(mse)を印刷します。

予測のMSEは9.8252です。この数字は何を意味していますか？この推奨システムは良いものでしょうか、それとも悪いものでしょうか? MSE 結果だけを見て予測パフォーマンスを評価するのは、あまり直感的ではありません。そこで、映画の推薦を直接調べて評価します。興味のある映画を検索し、コンピュータエージェントにいくつかの映画を推薦してもらいます。まず、どの映画が推奨されているかを確認できるように、対応する映画のポスターを入手する必要があります。 IMDB ID とその API を使用して、映画データベース Web サイトからポスターを取得します。

輸入リクエスト
jsonをインポート
IPython.displayからImageをインポート
IPython.displayからdisplayをインポートする
IPython.displayからHTMLをインポートする
idx_to_movie = {}
 df_id.itertuples()の行の場合:
 idx_to_movie[行[1]-1] = 行[2]
映画
6 = 6 です
idx = 0
映画 = [ idx_to_movie[x] 、 xはnp.argsort (similarity_movie[idx,:])[:-k-1:-1] ]
映画 = filter(lambda imdb: len(str(imdb)) == 6, 映画)
表示数 = 5
 URL = [0]*n_display
 IMDB = [0]*n_表示
私 = 0
映画の中の映画:
 (URL[i], IMDB[i]) = get_poster(映画、base_url)
私 += 1
画像 = ''  
 iが範囲内(n_display)の場合:
画像 += "<img style='幅: 100px; 余白: 0px; \
 float : left; border: 1px solid black; ' src=' %s' />" \
 % URL[i]
表示(HTML(画像))

楽しいことがやって来ます！映画を検索して、最も類似した 4 つのおすすめを見てみましょう。左端の「Heat」と、それに続く 4 つのおすすめ映画を検索してみましょう。

『ヒート』は、ロバート・デ・ニーロとアル・パチーノ主演で1995年に公開されたアメリカの犯罪映画です。検索結果は良さそうです。しかし、『リービング・ラスベガス』はあまりお勧めできないかもしれません。『ザ・ロック』にはニコラス・ケイジが出演しているし、『ヒート』が好きな視聴者にはお勧めできる映画だと思います。これは類似度マトリックスと協調フィルタリングの欠点の 1 つである可能性があります。さらにいくつか例を見てみましょう。

これは大丈夫そうです。『トイ・ストーリー2』は『トイ・ストーリー』が好きな観客には絶対にお勧めです。しかし、フォレスト・ガンプは私には合わないようです。どうやら、トイ・ストーリーにトム・ハンクスの声が出ていることから、フォレスト・ガンプも推薦されたようです。注目すべきは、ポスターを見るだけで、映画のジャンルや雰囲気など、『トイ・ストーリー』と『フォレスト・ガンプ』の違いがわかるということだ。全ての子供が『トイ・ストーリー』を愛していると仮定すると、彼らは『フォレスト・ガンプ』を無視するかもしれません。

交代確率勾配降下法

前回の説明では、ユーザーと映画の間のコサイン類似度を計算し、それを使用して映画に対するユーザーの評価を予測し、特定の映画に基づいて他の映画を推奨しました。ここで、問題を回帰問題として定式化できます。つまり、すべての映画の潜在的特徴 y とすべてのユーザーの重みベクトル x を追加します。目標は、評価予測の MSE を最小化することです (2 ノルム正則化条件下)。

Leifeng.com (公式アカウント: Leifeng.com) 注意: 重みベクトルと特徴ベクトルはどちらも決定変数です。明らかに、これは凸関数の問題ではなく、この非凸関数の収束についてあまり心配する必要はありません。非凸関数の最適化問題を解決する方法は数多くあります。 1 つのアプローチは、重みベクトル (ユーザー用) と特徴ベクトル (映画用) を交互に解くことです ()。重みベクトルを処理する場合、固有ベクトルは定数ベクトルであると想定されます。固有ベクトルを処理する場合、重みベクトルは定数ベクトルであると想定されます。この回帰問題を解決する別の方法は、重みベクトルの更新と特徴ベクトルの更新を組み合わせて、同じ反復で更新することです。さらに、確率的勾配降下法を使用して計算を高速化することもできます。ここでは、確率的勾配降下法を使用してこの回帰問題を解決します。MSE 予測は次のようになります。

この MSE は、類似度マトリックスを使用して得られる MSE よりもはるかに小さくなります。もちろん、グリッド検索とクロス検証を使用してモデルとアルゴリズムのパラメータを調整することもできます。映画検索の推奨事項を見てみましょう。

見た目はあまり良くありません。 Heat を検索してこれらの 4 つの映画を勧められるべきではなかったと思います。これらの映画は Heat とはまったく関係がなさそうです。これらの 4 つの映画はロマンスやドラマです。大スターが出演するアメリカの犯罪映画を探しているのに、なぜドラマ映画を見たいと思うのでしょうか? これには困惑します。優れた MSE の結果は、まったく関係のない推奨を示す場合があります。

そこで、協調フィルタリングに基づく推奨システムの弱点について説明しましょう。

協調フィルタリング方式では、データを使用して類似のユーザーや映画を検出するため、ニッチな映画よりも人気のある映画が推奨される可能性が高くなります。
新しく公開された映画の使用データはあまりないため、協調フィルタリングによって新しい映画がユーザーに推奨されることを期待するのは非現実的です。

次に、協調フィルタリングの問題に対する別のアプローチ、つまりディープラーニングを使用した映画の推奨について考えます。

ディープラーニング

VGG16 を使用して、Keras でニューラルネットワークをトレーニングします。データセットにはターゲットがないので、最後から 4 番目のレイヤーを特徴ベクトルとして取得します。この特徴ベクトルを使用して、データセット内の各映画を説明します。 Leifeng.com は、ニューラルネットワークをトレーニングする前に、いくつかの前処理が必要であることをお知らせします。トレーニングプロセスは次のとおりです。

 df_id = pd.read_csv( 'links.csv' 、 sep= ',' )
 idx_to_movie = {}
 df_id.itertuples()の行の場合:
 idx_to_movie[行[1]-1] = 行[2]
合計映画数 = 9000
映画 = [0]*合計映画数
i が範囲 (len(movies))内にある場合:
 idx_to_movie.keys()にi があり、len(str(idx_to_movie[i])) == 6 の場合:
映画[i] = (idx_to_movie[i])
映画 = フィルター(lambda imdb: imdb != 0, 映画)
 total_movies = len(映画)
 URL = [0]*合計映画数
IMDB = [0]*合計映画数
URL_IMDB = { "url" : [], "imdb" : []}
私 = 0
映画の中の映画:
 (URL[i], IMDB[i]) = get_poster(映画、base_url)
 URL[i] != base_url+ ""の場合:
 URL_IMDB[ "url" ].append(URL[i])
 URL_IMDB[ "imdb" ].append(IMDB[i])
私 += 1
 # URL = filter(lambda url: url != base_url+"", URL)  
 df = pd.DataFrame(データ = URL_IMDB)
合計ムービー数 = len(df)
 urllibをインポートする
poster_path = "/Users/wannjiun/Desktop/nycdsa/project_5_recommender/posters/"  
 iが範囲内(total_movies)の場合:
 urllib.urlretrieve(df.url[i], poster_path + str(i) + ".jpg" )
 keras.applications からVGG16をインポートします
keras.applications.vgg16 からpreprocess_inputをインポートします
keras.preprocessing からimage を kimage としてインポートします
画像 = [0]*合計ムービー数
x = [0]*合計映画数
iが範囲内(total_movies)の場合:
 image[i] = kimage.load_img(poster_path + str(i) + ".jpg" , target_size=(224, 224))
 x[i] = kimage.img_to_array(画像[i])
 x[i] = np.expand_dims(x[i], 軸=0)
 x[i] = 前処理入力(x[i])
モデル = VGG16(include_top=False, 重み= 'imagenet' )
予測 = [0]*合計映画数
matrix_res = np.zeros([total_movies,25088])
 iが範囲内(total_movies)の場合:
予測[i] = model.predict(x[i]).ravel()
行列_res[i,:] = 予測[i]
類似度の深さ = matrix_res.dot(matrix_res.T)
ノルム = np.array([np.sqrt(np.diagonal(similarity_deep))])
類似度の深さ = 類似度の深さ / 規範 / 規範.T

コードでは、まず API と IMDB ID を使用して、TMDB Web サイトから映画のポスターを取得します。次に、ポスターは VGG16 に送信され、ニューラルネットワークがトレーニングされます。最後に、VGG16 によって学習された特徴を使用してコサイン類似度を計算します。映画の類似性を取得した後、最も類似性の高い映画を推奨できます。 VGG16 には合計 25088 個の学習済み機能があり、データセット内の各映画を説明するために使用されます。

ディープラーニングを使った映画推薦システムを見てみましょう。

フラッシュポイントはロマンスドラマではもう登場しません！これらの映画のポスターには、濃い青、キャラクターが描かれているなど、いくつかの共通の特徴があります。もう一度トイストーリーを観てみましょう。

「フォレスト・ガンプ」はもうお勧めできません！結果は良さそうです。とても満足しています。他のものも試してみます!

これらのポスターにはすべて 1 人または 2 人の人物が描かれており、クールな色彩テーマになっていることに注目してください。

これらのポスターは、対応する映画の雰囲気が楽しく、緊張感があり、アクションシーンが多いことを観客に知らせたいので、ポスターの色も非常に強力です。

前のセットとは異なり、これらのポスターは観客に、これらの映画は一人の男性に関するものであることを伝えたいのです。

カンフー・パンダに似た映画を見つけました。

このグループはとても興味深いです。そっくりなモンスターたちとトム・クルーズ！

これらのポスターにはすべて、同じようなポーズの女性が登場します。待って、それはオニールだ！ ?

スパイダーマンが無事発見されました！

これらのポスターの印刷デザインは非常に似ています。

結論は

レコメンデーションシステムでディープラーニングを使用する方法はいくつかあります。

教師なし学習
協調フィルタリングから潜在的特徴を予測する
ディープラーニングによって生成された特徴を補助情報として利用する

映画のポスターには、仕掛けや興味を喚起する視覚的な要素があります。このプロジェクトでは、教師なしディープラーニングを使用して、ポスターを通じて映画の類似性を学習しました。もちろん、これはレコメンデーションシステムでディープラーニングを使用するための最初のステップに過ぎず、試せることはたくさんあります。たとえば、ディープラーニングを使用して、協調フィルタリングによって生成された潜在的な特徴を予測できます。 Spotify の音楽推奨でも同様のアプローチが採用されています。画像処理の代わりに、曲のサウンドを処理してディープラーニングを使用し、協調フィルタリングで潜在的な特徴を予測します。別の方向性も考えられます。ディープラーニングで学習した特徴を補助情報として利用し、予測の精度を向上させることです。

<<: TensorFlow 機械学習の初心者向けガイド: 線形回帰を実装するには?

>>: Node.jsを使用してテキストコンテンツをセグメント化し、キーワードを抽出する