Select Language

Open Dataset

MyAnimeListデータセットは、約1万4千件のアニメメタデータを含んでいます。

MyAnimeListデータセットは、約1万4千件のアニメメタデータを含んでいます。

1.92G
3455 hits
4 likes
21 downloads
0 discuss
Anime and Manga Classification

MyAnimeListデータセットには30万人のユーザー、1万4千のアニメメタデータ、およびMyAnimeList.netからの8千万件の評価が含まれています。このデータセットには、アニメとアニメを視聴することに関する情報が含まれています。......

Data Structure ? 1.92G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    MyAnimeListデータセットには、30万人のユーザー、1万4000件のアニメメタデータ、およびMyAnimeList.netからの8000万件の評価が含まれています。

    このデータセットには、アニメとアニメを視聴するオタクに関する情報が含まれています。

    このデータセットの目的は、インターネット上のオタクの代表的なサンプルとなり、人口統計分析やこのグループの傾向を調査するためのものです。これには、ユーザーに関する情報(性別、居住地、生年月日など)、アニメに関する情報(放映日、ジャンル、制作会社...)、およびアニメリストに関する情報が含まれています。MyAnimeListのユーザーは、アニメを自分のリストに追加し、視聴予定、視聴完了、視聴中、見逃しなどとマークすることができます。また、1〜10点で評価することもできます。注意:ここで収集されたすべての情報は公開されており、何処かで登録する必要なくこれらのデータにアクセスすることができます。

    内容

    このデータセットには3つのファイルが含まれています。

    1、AnimeList.csvにはアニメリストが含まれており、タイトル、タイトルの同義語、ジャンル、制作スタジオ、許可者、制作会社、放映時間、レーティング、評価点、放映日、話数、原作(漫画、ライトノベルなど)、および個々のアニメに関する他の多くの重要なデータが含まれています。これにより、アニメの重要な側面に関する時間的な傾向について十分な情報が提供されます。csv内のランキングは浮動小数点形式ですが、整数値のみが含まれています。これは、NaN値とそれらがpandasで表される方法によるものです。

    2、UserList.csvには、アニメを視聴するユーザーに関する情報、すなわちユーザー名、登録日(join_date)、最終オンライン日、生年月日、性別、居住地、および彼らのアニメリストに関する多くの集計値が含まれています。

    3、UserAnimeList.csvには、すべてのユーザーのアニメリストが含まれています。各レコードには、ユーザー名、アニメID、評価点、ステータス、およびこのレコードが最後に更新されたタイムスタンプが含まれています。

    データセット全体には以下が含まれています。

    1、302,675人のユニークなユーザーのうち

    2、302,573人がいくつかの人口統計データを持っています

    3、80,076,112件のアニメリストのレコード

    4、46,358,322人が評価を行っています

    5、14,478本のユニークなアニメ

    データセットのフィルタリングされたバージョンは、animefiltered.csv、animelistsfiltered.csv、およびusers_filtered.csvファイルに含まれています。これは、生年月日、居住地、および性別を記入したユーザーで構成されています。したがって、含まれるアニメリストデータははるかに少なくなります。ただし、一部の欠損データを持つユーザーを無視しても、評価の平均や変化、またはアニメリスト内のジャンルなどのすべての重要な特徴は変わらないため、フィルタリングされたデータを使用しても、同じ情報が得られるはずです。

    フィルタリングされたデータセットには以下が含まれています。

    1、116,133人の人口統計データを持つユニークなユーザーのアニメリストの中で

    2、35,802,010件のレコードのうち

    3、20,726,794件が評価を行っています

    4、14,474本のユニークなアニメ

    また、フィルタリングされたデータセットのクリーンなバージョンがあり、animecleaned.csv、animelistscleaned.csv、およびusers_cleaned.csvファイルで構成されています。このクリーンなバージョンでは、アニメの話数が異常に多いと思われるユーザーがすべて除外されています。明らかに、これらのユーザーはそれほど多くの話数を視聴していません。視聴した話数が個々のアニメの話数を超えるユーザーは修正され、視聴した話数と視聴時間もそれに応じて再計算されています。一部のユーザーの最終オンライン日が1900年という奇妙な値になっているため、彼らの最後のアクティビティは彼らの最後のアニメリスト更新タイムスタンプから推定されています。

    多くのユーザーが再視聴した話数を誤って記入しています。視聴された話数がそのアニメの話数を超えるアニメについては、視聴された話数がそのアニメの話数に書き換えられています。視聴時間と視聴済みの話数もそれに応じて修正されています。また、年齢が極端に若いユーザーと極端に老いたユーザーも除外されています。

    最も多くの話数を視聴した6人のユーザーは、多くの話数を視聴している疑いがあり、ここでも除外されています。

    これらのユーザーは少なすぎて、統計に影響を与えることはありません。##背景のあるアニメ

    このデータセットには、それを視聴するアニメとオタクに関する情報が含まれています。既に似たようなデータセットがあります https://www.kaggle.com/CooperUnion/anime-recommendations-database ただし、これは数桁小さく、多くの情報が欠けています。このデータセットは、インターネット上のオタクコミュニティの代表的なサンプルとなり、このグループ内の人口統計分析や傾向を調査するためのものです。

    これには、ユーザーに関する情報(性別、居住地、生年月日など)、アニメに関する情報(放映日、ジャンル、制作会社……)、およびアニメリストに関する情報が含まれています。MyAnimeListのユーザーは、アニメを自分のリストに追加し、視聴予定、視聴完了、視聴中、見逃しなどとマークすることができます。また、1〜10点で評価することもできます。

    注意:ここで収集されたすべての情報は公開されており、何処かで登録する必要なくこれらのデータにアクセスすることができます。

    謝辞

    このデータセットは、MyAnimeList.netからhttps://github.com/racinmat/myanimelist-crawlerを使用してクロールされました。このリポジトリは、https://github.com/Dibakarroy1997/myanimelist-data-set-creatorをベースにしていますが、長期的なデータ収集に完全に対応しています。
    データ収集自体には、https://github.com/TimboKZ/kuristinaのウェブサーバーとhttps://github.com/pushrbx/python3-malのライブラリが使用されています。
    サムネイル画像はhttps://www.pinterest.com/pin/717198309380413746/から取得されています
    以前に多くの分析が行われており、それぞれがオタクコミュニティの異なる側面を活用しています。ここにいくつかを挙げます。その多くははるかに小さいデータセットを使用していましたが、このデータを使用することで、より正確な結果が得られるはずです。

    謝辞:
    これらのデータは、追加の許可や料金なしで使用することができます。出版物、プレゼンテーション、またはその他の研究成果でこれらのデータを使用する場合は、以下の引用を使用してください。

    Matěj Račinský, “MyAnimeList Dataset.” Kaggle, 2018, doi: 10.34740/KAGGLE/DSV/45582.

    インスピレーション

    このデータセットは、レコメンデーションシステム用、またはオタク文化の分析用に使用することができます。個々のジャンルの時間的な傾向を調べたり、ユーザー評価の傾向や習慣を見たり、個々のユーザーグループ間の類似点や相違点を見つけたりすることができます。
    私は既に1つの分析を行っており、ここで公開しています: https://github.com/racinmat/mal-analysis

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:20 Go earn points?
    • 3455
    • 21
    • 4
    • collect
    • Share