Select Language

Open Dataset

TMDB 5000映画データセット

TMDB 5000映画データセット

43.62M
266 hits
0 likes
3 downloads
0 discuss
Arts and Entertainment,Movies and TV Shows Classification

Data Structure ? 43.62M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    背景 映画が公開される前に、その成功について何を言えるでしょうか?一貫した成功の公式を見つけた特定の会社(ピクサーなど)はあるのでしょうか?制作費が1億ドルを超える大作映画でも大失敗に終わることがあるため、この問題は映画業界にとってこれまで以上に重要です。映画愛好家はそれぞれ異なる関心を持っているかもしれません。商業的に成功するかどうかに関わらず、どの映画が高評価を受けるかを予測できるでしょうか? ここでは、数千本の映画のあらすじ、出演者、スタッフ、予算、収益に関するデータを用いて、これらの質問に深く掘り下げるのに最適な場所です。 データソース移行の概要 当社(カグル)は、IMDBからの[DMCA](https://en.wikipedia.org/wiki/Digital_Millennium_Copyright_Act)削除依頼に従い、このデータセットの元のバージョンを削除しました。影響を最小限に抑えるため、[The Movie Database (TMDb)](themoviedb.org)からの類似した映画とデータフィールドを、[彼らの利用規約](https://www.themoviedb.org/documentation/api/terms-of-use)に従って置き換えています。残念なことに、旧データセットを使って作成されたカーネルはほとんど動作しなくなるでしょう。 良いニュースは以下の通りです。 - 少しの編集で既存のカーネルを移行することができます。[このカーネル](https://www.kaggle.com/sohier/getting-imdb-kernels-working-with-tmdb-data/)には、そのための関数と例があります。また、[ここで新しい形式の一般的な紹介](https://www.kaggle.com/sohier/tmdb-format-introduction)も見ることができます。 - 新しいデータセットには、出演者とスタッフの完全なクレジットが含まれており、最初の3人の俳優だけでなくなりました。 - 俳優と女優は、クレジットに表示される順序でリストされています。元のデータセットがどのような順序を使っていたかは不明です。私がチェックした映画では、クレジットの順序やIMDBのスター順序と一致していませんでした。 - 収益データはより最新のものになっています。例えば、IMDBの「アバター」の収益額は2010年のもので、この映画の世界的な収益を20億ドル以上過小評価しています。 - 移行できなかった映画(数百本)の中には、不適切なエントリがありました。例えば、[このIMDBのエントリ](http://www.imdb.com/title/tt5289954/?ref_=fn_t...)には、基本的に正確な情報が一切含まれていません。「スターウォーズ エピソードVII」をドキュメンタリーとしてリストしています。 データソース移行の詳細 - 新しい列のいくつかにはJSONが含まれています。[このカーネル](からのデータ読み込み関数を移行することで、少し時間を節約できます。 - 放映時間のような単純なフィールドでも、バージョン間で一貫性がない場合があります。例えば、以前のデータセットでは「アバター」の拡張版の時間が表示されていましたが、TMDbではオリジナル版の時間が表示されています。 - 現在、出演者とスタッフの完全なクレジットが含まれた別のファイルがあります。 - すべてのフィールドはユーザーによって入力されるため、キーワード、ジャンル、評価などが一致することを期待しないでください。 - 既存のカーネルは、再実行されるまで正常にレンダリングされ続けます。 - このデータセットがどのように準備されたかに興味がある場合は、TMDbのAPIにアクセスするコードが[ここ](https://gist.github.com/SohierDane/4a84cb96d220fc4791f52562be37968b)に投稿されています。 新しい列: - ホームページ - ID - オリジナルタイトル - 概要 - 人気度 - 制作会社 - 制作国 - 公開日 - 使用言語 - ステータス - キャッチコピー - 平均評価 失われた列: - 俳優1のFacebookいいね数 - 俳優2のFacebookいいね数 - 俳優3のFacebookいいね数 - アスペクト比 - 出演者全体のFacebookいいね数 - カラー - コンテンツレーティング - 監督のFacebookいいね数 - ポスターの顔の数 - 映画のFacebookいいね数 - 映画のIMDBリンク - レビューの批評家数 - レビューのユーザー数 データに関する未解決の質問 新しいデータセットについて、確認できていないことがいくつかあります。もし何か洞察があれば、フォーラムで教えてください! - 予算と収益はすべて米ドルで表示されていますか?一貫して世界的な収益が表示されていますか? - このデータセットはまだデータ品質分析を受けていません。明らかな修正点を見つけることができますか?例えば、IMDbバージョンでは、予算フィールドの値が0の場合は欠損値として扱う必要がありました。同様の発見は、他のカグラーにとって非常に役立つでしょう!(おそらく、0を欠損値として扱い続けるのが良いでしょう。ただし、欠損している予算はもともと低予算の映画の可能性が高いという警告があります)。 啓発 - 映画をアニメーションか否かなどのタイプで分類できますか?これについて明示的なラベルはありませんが、スタッフの職名から構築することは可能です。 - 大手映画スタジオと独立系の間の隔たりはどれくらい大きいですか?これら2つのグループはクラスタリング分析から自然に分かれるのでしょうか、それとももっと複雑なことが起こっているのでしょうか? 謝辞 このデータセットは[The Movie Database](themoviedb.org)のAPIから生成されました。この製品はTMDb APIを使用していますが、TMDbによって承認または認定されているわけではありません。 彼らのAPIは、多くの追加の映画、俳優、女優、スタッフ、テレビ番組のデータにもアクセスできます。[ここで自分で試してみることができます](https://www.themoviedb.org/documentation/api)。 ![](https://www.themoviedb.org/assets/static_cache/9b3f9c24d9fd5f297ae433eb33d93514/images/v4/logos/408x161-powered-by-rectangle-green.png)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 266
    • 3
    • 0
    • collect
    • Share