Open Dataset
Data Structure ?
192.15M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
文脈
私は映画が好きです。
私はマーベルやトランスフォーマーのような標準化された作品は避ける傾向があり、古典的なハリウッドの黄金時代の作品と、あまり知られていないポーランドのアート映画を好みます。時々日本のゾンビ・スラッシャー・ジャッロ映画を見ることもあります。良い映画は悪い映画がなければ存在しません。
平均して私は毎年200本以上の映画を見ており、ピーク時には500本以上も見ます。9年前に私は同じ映画を2度見ないように、映画を記録し始め、また評点を付けるようにしました。数年間で、視聴習慣についていくつかの洞察を得ましたが、高校2年生が学校で学ぶ程度のことです。
最近Netflixに加入しましたが、私のように「作者政策」を信じる人に対する推薦システムの非効率さに痛い思いをしています。「作者政策」は、有名なフランスのヌーヴェルヴェーブ映画批評家アンドレ・バザンが造語した言葉で、映画の質は基本的に監督とそのクルーが自分のビジョンを実現する能力に関係しているという意味です。映画制作のパイプラインにも依存すると議論することもできますが、今はそれについては議論しましょう。実際には、これは私が基本的に好きな映画を作った監督の作品を見ることを意味します。
私はNetflixが「平均的な人」が映画を選ぶ方法を考慮して推薦モデルを調整していると思います。数ヶ月前に、調査に基づく研究を読みました。それによると、人々は映画を選ぶ際に主にジャンル(55%)、次に主演俳優(45%)を基準に選んでいます。監督や公開日はそれぞれ約10%で、はるかに後れを取っています。私が知る多くの人が監督が誰であるかを気にしないので、これは驚くことではありません。多くのアメリカの大ヒット作では、映画のポスターに監督の名前さえ記載されていません。私は協調フィルタリングがユーザーの近接性に基づいていることを知っています。これにより、映画を特徴付ける必要性が減少(または排除)されると思います。ですから、私はいくつかの理由から、製品の近接性に基づくコンテンツベースのフィルタリングにもっと興味があります。
- ユーザーの嗜好は簡単には把握できません。結局のところ、これはNetflixの宝庫です。
- Netflixの映画提供は、作者映画が好きな人にとっては非常に悪いので、役に立たないでしょう。
- 映画の本質的な品質をモデル化することは、面白い挑戦です。
以上です。
「進歩する秘訣は始めることです」(マーク・トウェイン)
![ネットワークグラフ][1]
コンテンツ
主要な情報源はwww.themoviedb.orgです。あまり知られていないルーマニアのアート映画を見る人は、自分が見た映画の約95%しかここに登録されていないかもしれませんが、それ以外の人にとっては98%以上が登録されているはずです。
- 映画の詳細情報はwww.themoviedb.orgのAPI(movies/details)から取得します。
- 映画のクルーとキャスティング情報はwww.themoviedb.orgのAPI(movies/credits)から取得します。
- 両者はIDで結合できます。
- これらには、19世紀末から2017年8月までの約35万本の映画が含まれています。IMDbから短編映画を除くと、同程度の映画数になります。
- 増分的に映画の詳細情報を取得するプログラムをgithubにアップロードしました:https://github.com/stephanerappeneau/scienceofmovies/tree/master/PycharmProjects/GetAllMovies (ただし、themoviedb.orgの開発用APIキーが必要です)
- 議論で説明されている様々な教師あり(決定木)/教師なし(クラスタリング、自然言語処理)のアプローチを試しました。ソースコードはgithubにあります:https://github.com/stephanerappeneau/scienceofmovies
- 特典として、ウィキペディアから評判の良い上位500人の監督の略歴をアップロードしました。興味深い自然言語処理の分析に役立つかもしれません。
ここで、私が試した利用可能な情報源の概要を示します。
**? Imdb.comの無料csvダンプ**(ftp://ftp.funet.fi/pub/mirrors/ftp.imdb.com/pub/temporaryaccess/)は文書化が不十分で、不完全で、構造が緩く、結合/統合が不可能です。Amazon Web ServiceがホストするAPIがありますが、10万回のリクエストにつき1ユーロかかります。約100万本の映画があるとすると、費用がかかる可能性があり、機能も貧弱です。そのため、他の情報源を探しました。
**? www.themoviedb.org**はクラウドソーシングに基づいており、優れたAPIを持っています。ただし、10秒間に40回のリクエストに制限されています。これはかなり寛大で、文書化も充実しており、数日で45万本の映画を網羅するのに十分です。私の目的にとって、データの品質はIMDbほど悪くはありません。また、IMDbのキーも含まれているので、後でデータセットを補完することもいつでも可能です(実際にやりました)。
**? www.Boxofficemojo.com**には、興味深い予算/収益の数字があります(これはIMDbとTMDBの両方で不足しています)が、実際に追跡しているのは数千本の映画だけで、主に大ヒット作です。映画業界がより良い予測/マーケティングの洞察を得るために使用する他の専門的な情報源もありますが、この実験では手が届きません。
**? www.wikipedia.com**はAPI呼び出しに実質的な制限がない興味深い情報源ですが、少しのウェブスクレイピングが必要で、映画や監督に関するレイアウトや品質は大きく異なります。そのため、洞察を得るのに多くの作業が必要になると思われるので、この情報源の優先度を下げました。
**? www.google.com**は、数分間のウェブスクレイピングの後にあなたを禁止します。彼らの仕事は他のサイトからデータを収集して売ることなので、当然です。
? なお、Netflixの匿名化されたユーザー嗜好のダンプがいくつかkaggleにあります。彼らは推薦モデルを改善するためにいくつかのコンペティションを開催したからです。https://www.kaggle.com/netflix-inc/netflix-prize-data
? オンラインデータベースは主に白人アングロサクソン中心です。つまり、ボリウッド(インドは映画の2番目に大きな生産国です)の作品はデータセットにほとんど含まれていません。私はそれで構いません。それは私の好みではなく、また専門知識も不足しているからです。インド映画の数が多すぎると、おそらく結果が歪むでしょう(私は推薦に武術ミュージカルが多く含まれることは望んでいません ;-))。ただし、私はインド映画産業を大変尊敬しているので、インドの映画愛好家と協力したいと思っています!
![西部劇][2]
インスピレーション
ここから始めて、教師あり/教師なしの機械学習に関するいくつかの問題設定がありました。
- 自分自身の基準に基づいたカスタマイズされた推薦システムをプログラムできるか?
- 私が最も好きな映画/監督の特徴は何か?
- 次の映画が好きになる確率はどれくらいか?
- 必要なデータを見つけることができるか?
ここで私の仕事を共有する目的の1つは、興味を持ってくれる映画愛好家でデータサイエンティストの人を見つけ、できれば貢献してもらったり、洞察を共有してもらったりすることです:) 他にも面白いアプローチがあります。例えば、キャッチコピーを自然言語処理/クラスタリング/ジャンル推定に利用したり、予算/収益を活用したり、IMDbの正規化されたタイトルを使って他のデータソースとリンクさせたりすることができます。
![相関行列][3]
動機、免責事項と謝辞
- 私はフランスの工科大学を卒業し、人工知能を専攻しましたが、それは17年前のAIの冬の真っ只中でした。多くの白人男性の宇宙科学者と同じように、私は欧州を代表する投資銀行の1つに就職し、すぐにIT開発を捨てて、トレーディング/リスクプロジェクト管理と社内政治に特化するようになりました。最近、データオフィスに配置されて、データサイエンスの最近の進歩に気づきました。そこで、サイドプロジェクトを開発することは、新しいことを学ぶ絶好の機会だと思いました。また、データサイエンスに関して意思決定者に欠けがちな信頼性を得ることができるでしょう。
- 私はいくつかの機能について、ソルボンヌ大学の科学哲学教授である友人のセドリック・パテルノットと協力しました。異なるバックグラウンドを持つ人と一緒に仕事をすることは、やる気、創造性、厳密性の面で良いアイデアだと思います。
- www.themoviedb.orgやwww.wikipedia.comのサイトに感謝します。彼らはオープンデータに対して本当に良い姿勢を示しています。これは、データを自分たちの手に握り、収益化を図ろうとする現代のビッグデータ企業とは大きく対照的です。IMDbやInstagramのAPIは、悲しいほど少ないレートで最後の3つのコメントを取得することを寛大に許してくれますが、15年前にはこれが無料でサービスを利用するための必須の道だったように思えますが、私はいつか政府がこのデータ独占を打破する必要があると予測します。
*[免責事項:私の英語(私はフランス人です ^-^)、私が書いた悪いコード(もっと良くて速い方法が数百通りあるかもしれません)、私がした疑似科学的な仮定について、あらかじめお詫び申し上げます。私はゆっくりと統計学に戻りつつあり、上級者の指導が不足しています。いつか後悔するかもしれません。*
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.