Open Dataset
Data Structure ?
56.36M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト
このデータセットは、xxx年から2017年までに公開された映画を表しています。非常に汎用的なもので、背景には何らかの実際の問題や課題はありません。このデータセット全体は、データアナリストやデータサイエンティストがさまざまな手法を練習するためのものです。
また、このデータセットは完全にクリーニングされていないことを述べておきます。その理由は、アナリストやサイエンティストの現実の業務を示すためです。
データを取得 - データを準備 - データを分析 - データを可視化 - さまざまなユースケースの結果を予測 ;-)
内容
私は映画を見るのが好きで、そのためこの趣味を現在のデータサイエンティストへの自己学習と組み合わせようと試みました。
そのため、映画の情報を含むデータセットを入手する方法が必要でした。そうすれば、遊びながら学んだことを活用できます。初めて見たとき、このデータセットは回帰分析、分類分析、場合によってはディープラーニング(画像認識など - ポスターのURLが提供されています)にも使用できることがわかりました。
私はいくつかの手順を踏んでこのデータセットを取得しました。まず、映画の情報を取得するために使用できる特定のAPIをインターネットで探しました。しばらくすると、omdbapi.comを知りました。このAPIの助けを借りて、映画のタイトルに基づいて情報を取得することができました。
すると、新たな問題が発生しました。映画のタイトルが不足していました。次の検索が始まりました。それに適したAPIは見つかりませんでしたが、ウィキペディアの映画タイトルの構造が非常に整っていることに気づきました。そこで、1990年から2017年までのすべての映画タイトルを取得するスクレイパーを作成しました。
すべてのデータを取得した後、ようやくタイトルと年(同じ名前の映画がある可能性があります)を元に映画のすべての情報を取得することができました。残念ながら、一部の映画タイトルは異なる表記で書かれていたため、映画データの取得には10%の失敗率がありました。10%の失敗した映画タイトルに基づいて、テキスト分析を行い、約40万の新しい映画やシリーズを見つけました。最新バージョンには、imdbIDに基づいて約20万の異なる映画が含まれているはずです。
さらに、分析を容易にするために、ジャンル、俳優、脚本家などの一部の情報をクリーニングしました。各CSVファイルは**imdbID**で結合することができます。一部の情報が欠落しており、*_NOT_GIVEN*と宣言されていることに注意してください。
謝辞
- omdbapi.comが優れたAPIと整然としたデータを提供してくれたことに感謝します。
インスピレーション
このデータセットのインスピレーションは、画像認識アプリケーションの開発の実践的な流れに触れることから生まれました。**与えられたポスターから映画のジャンルを認識する。**
要求があれば、映画の画像も提供することができます。ただし、このデータセットについて、私の頭の中には次のような質問があります。
1. ジャンルと与えられた評価に相関関係はありますか?
2. 過去数年間で特定のジャンルのブームが見られますか?
3. 俳優や脚本家は特定のジャンルを好む傾向がありますか?
4. 俳優や脚本家はimdbの評価に影響を与えますか?
5. 監督は自分の映画で特定の俳優を好む傾向がありますか?
6. 監督は自分の映画で特定の脚本家を好む傾向がありますか?
7. 監督は何本の映画を制作していますか?
8. 監督とimdbの評価に何らかの関係はありますか?
9. ……他にもたくさんの質問があります :-)
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.