Open Dataset
Data Structure ?
1.92G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
MyAnimeListデータセットには、30万人のユーザー、1万4000件のアニメメタデータ、およびMyAnimeList.netからの8000万件の評価が含まれています。
このデータセットには、アニメとアニメを視聴するオタクに関する情報が含まれています。
このデータセットの目的は、インターネット上のオタクの代表的なサンプルとなり、人口統計分析やこのグループの傾向を調査するためのものです。これには、ユーザーに関する情報(性別、居住地、生年月日など)、アニメに関する情報(放映日、ジャンル、制作会社...)、およびアニメリストに関する情報が含まれています。MyAnimeListのユーザーは、アニメを自分のリストに追加し、視聴予定、視聴完了、視聴中、見逃しなどとマークすることができます。また、1〜10点で評価することもできます。注意:ここで収集されたすべての情報は公開されており、何処かで登録する必要なくこれらのデータにアクセスすることができます。
内容
このデータセットには3つのファイルが含まれています。
1、AnimeList.csvにはアニメリストが含まれており、タイトル、タイトルの同義語、ジャンル、制作スタジオ、許可者、制作会社、放映時間、レーティング、評価点、放映日、話数、原作(漫画、ライトノベルなど)、および個々のアニメに関する他の多くの重要なデータが含まれています。これにより、アニメの重要な側面に関する時間的な傾向について十分な情報が提供されます。csv内のランキングは浮動小数点形式ですが、整数値のみが含まれています。これは、NaN値とそれらがpandasで表される方法によるものです。
2、UserList.csvには、アニメを視聴するユーザーに関する情報、すなわちユーザー名、登録日(join_date)、最終オンライン日、生年月日、性別、居住地、および彼らのアニメリストに関する多くの集計値が含まれています。
3、UserAnimeList.csvには、すべてのユーザーのアニメリストが含まれています。各レコードには、ユーザー名、アニメID、評価点、ステータス、およびこのレコードが最後に更新されたタイムスタンプが含まれています。
データセット全体には以下が含まれています。
1、302,675人のユニークなユーザーのうち
2、302,573人がいくつかの人口統計データを持っています
3、80,076,112件のアニメリストのレコード
4、46,358,322人が評価を行っています
5、14,478本のユニークなアニメ
データセットのフィルタリングされたバージョンは、animefiltered.csv、animelistsfiltered.csv、およびusers_filtered.csvファイルに含まれています。これは、生年月日、居住地、および性別を記入したユーザーで構成されています。したがって、含まれるアニメリストデータははるかに少なくなります。ただし、一部の欠損データを持つユーザーを無視しても、評価の平均や変化、またはアニメリスト内のジャンルなどのすべての重要な特徴は変わらないため、フィルタリングされたデータを使用しても、同じ情報が得られるはずです。
フィルタリングされたデータセットには以下が含まれています。
1、116,133人の人口統計データを持つユニークなユーザーのアニメリストの中で
2、35,802,010件のレコードのうち
3、20,726,794件が評価を行っています
4、14,474本のユニークなアニメ
また、フィルタリングされたデータセットのクリーンなバージョンがあり、animecleaned.csv、animelistscleaned.csv、およびusers_cleaned.csvファイルで構成されています。このクリーンなバージョンでは、アニメの話数が異常に多いと思われるユーザーがすべて除外されています。明らかに、これらのユーザーはそれほど多くの話数を視聴していません。視聴した話数が個々のアニメの話数を超えるユーザーは修正され、視聴した話数と視聴時間もそれに応じて再計算されています。一部のユーザーの最終オンライン日が1900年という奇妙な値になっているため、彼らの最後のアクティビティは彼らの最後のアニメリスト更新タイムスタンプから推定されています。
多くのユーザーが再視聴した話数を誤って記入しています。視聴された話数がそのアニメの話数を超えるアニメについては、視聴された話数がそのアニメの話数に書き換えられています。視聴時間と視聴済みの話数もそれに応じて修正されています。また、年齢が極端に若いユーザーと極端に老いたユーザーも除外されています。
最も多くの話数を視聴した6人のユーザーは、多くの話数を視聴している疑いがあり、ここでも除外されています。
これらのユーザーは少なすぎて、統計に影響を与えることはありません。##背景のあるアニメ
このデータセットには、それを視聴するアニメとオタクに関する情報が含まれています。既に似たようなデータセットがあります https://www.kaggle.com/CooperUnion/anime-recommendations-database ただし、これは数桁小さく、多くの情報が欠けています。このデータセットは、インターネット上のオタクコミュニティの代表的なサンプルとなり、このグループ内の人口統計分析や傾向を調査するためのものです。
これには、ユーザーに関する情報(性別、居住地、生年月日など)、アニメに関する情報(放映日、ジャンル、制作会社……)、およびアニメリストに関する情報が含まれています。MyAnimeListのユーザーは、アニメを自分のリストに追加し、視聴予定、視聴完了、視聴中、見逃しなどとマークすることができます。また、1〜10点で評価することもできます。
注意:ここで収集されたすべての情報は公開されており、何処かで登録する必要なくこれらのデータにアクセスすることができます。
謝辞
このデータセットは、MyAnimeList.netからhttps://github.com/racinmat/myanimelist-crawlerを使用してクロールされました。このリポジトリは、https://github.com/Dibakarroy1997/myanimelist-data-set-creatorをベースにしていますが、長期的なデータ収集に完全に対応しています。
データ収集自体には、https://github.com/TimboKZ/kuristinaのウェブサーバーとhttps://github.com/pushrbx/python3-malのライブラリが使用されています。
サムネイル画像はhttps://www.pinterest.com/pin/717198309380413746/から取得されています
以前に多くの分析が行われており、それぞれがオタクコミュニティの異なる側面を活用しています。ここにいくつかを挙げます。その多くははるかに小さいデータセットを使用していましたが、このデータを使用することで、より正確な結果が得られるはずです。
謝辞:
これらのデータは、追加の許可や料金なしで使用することができます。出版物、プレゼンテーション、またはその他の研究成果でこれらのデータを使用する場合は、以下の引用を使用してください。
Matěj Račinský, “MyAnimeList Dataset.” Kaggle, 2018, doi: 10.34740/KAGGLE/DSV/45582.
インスピレーション
このデータセットは、レコメンデーションシステム用、またはオタク文化の分析用に使用することができます。個々のジャンルの時間的な傾向を調べたり、ユーザー評価の傾向や習慣を見たり、個々のユーザーグループ間の類似点や相違点を見つけたりすることができます。
私は既に1つの分析を行っており、ここで公開しています: https://github.com/racinmat/mal-analysis
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.