Select Language

Open Dataset

実践が名人を生む:映画コレクション分析

実践が名人を生む:映画コレクション分析

56.36M
213 hits
0 likes
0 downloads
0 discuss
Business,Arts and Entertainment,Movies and TV Shows,Classification,Data Visualization,Time Series Analysis Classification

Data Structure ? 56.36M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    コンテキスト このデータセットは、xxx年から2017年までに公開された映画を表しています。非常に汎用的なもので、背景には何らかの実際の問題や課題はありません。このデータセット全体は、データアナリストやデータサイエンティストがさまざまな手法を練習するためのものです。 また、このデータセットは完全にクリーニングされていないことを述べておきます。その理由は、アナリストやサイエンティストの現実の業務を示すためです。 データを取得 - データを準備 - データを分析 - データを可視化 - さまざまなユースケースの結果を予測 ;-) 内容 私は映画を見るのが好きで、そのためこの趣味を現在のデータサイエンティストへの自己学習と組み合わせようと試みました。 そのため、映画の情報を含むデータセットを入手する方法が必要でした。そうすれば、遊びながら学んだことを活用できます。初めて見たとき、このデータセットは回帰分析、分類分析、場合によってはディープラーニング(画像認識など - ポスターのURLが提供されています)にも使用できることがわかりました。 私はいくつかの手順を踏んでこのデータセットを取得しました。まず、映画の情報を取得するために使用できる特定のAPIをインターネットで探しました。しばらくすると、omdbapi.comを知りました。このAPIの助けを借りて、映画のタイトルに基づいて情報を取得することができました。 すると、新たな問題が発生しました。映画のタイトルが不足していました。次の検索が始まりました。それに適したAPIは見つかりませんでしたが、ウィキペディアの映画タイトルの構造が非常に整っていることに気づきました。そこで、1990年から2017年までのすべての映画タイトルを取得するスクレイパーを作成しました。 すべてのデータを取得した後、ようやくタイトルと年(同じ名前の映画がある可能性があります)を元に映画のすべての情報を取得することができました。残念ながら、一部の映画タイトルは異なる表記で書かれていたため、映画データの取得には10%の失敗率がありました。10%の失敗した映画タイトルに基づいて、テキスト分析を行い、約40万の新しい映画やシリーズを見つけました。最新バージョンには、imdbIDに基づいて約20万の異なる映画が含まれているはずです。 さらに、分析を容易にするために、ジャンル、俳優、脚本家などの一部の情報をクリーニングしました。各CSVファイルは**imdbID**で結合することができます。一部の情報が欠落しており、*_NOT_GIVEN*と宣言されていることに注意してください。 謝辞 - omdbapi.comが優れたAPIと整然としたデータを提供してくれたことに感謝します。 インスピレーション このデータセットのインスピレーションは、画像認識アプリケーションの開発の実践的な流れに触れることから生まれました。**与えられたポスターから映画のジャンルを認識する。** 要求があれば、映画の画像も提供することができます。ただし、このデータセットについて、私の頭の中には次のような質問があります。 1. ジャンルと与えられた評価に相関関係はありますか? 2. 過去数年間で特定のジャンルのブームが見られますか? 3. 俳優や脚本家は特定のジャンルを好む傾向がありますか? 4. 俳優や脚本家はimdbの評価に影響を与えますか? 5. 監督は自分の映画で特定の俳優を好む傾向がありますか? 6. 監督は自分の映画で特定の脚本家を好む傾向がありますか? 7. 監督は何本の映画を制作していますか? 8. 監督とimdbの評価に何らかの関係はありますか? 9. ……他にもたくさんの質問があります :-)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 213
    • 0
    • 0
    • collect
    • Share