Open Dataset
Data Structure ?
191.79M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
# 音楽アーティストの人気度
このデータセットは、[MusicBrainz](https://musicbrainz.org/)データベースに登録されている*140万*を超える音楽アーティストに関するものです。これらのアーティストの名前、タグ、人気度(聴取者数/スクロブル数)は、[last.fm](https://www.last.fm/)からスクレイピングしたデータに基づいています。このデータを取得するために使用したコードについては、[こちら](https://github.com/ppatrzyk/kaggle/tree/master/music)を参照してください。
## データの正確性に関する注意事項
Last.fmでは、複数のアーティストが同じ名前を持っているために同じプロフィールページを共有する問題があります。これは、一意でない名前を持つアーティストについては、聴取者数/スクロブル数のどれだけを誰に帰属させるべきかを特定することができないことを意味します。多くの場合、この問題は無視できます。たとえば、MusicBrainzデータベースには少なくとも6人の*ニルヴァーナ(Nirvana)*という名前のアーティストがいますが、彼らの人気度はそのように分布しているため、ほとんどすべてのスクロブル数が「この」*ニルヴァーナ*から来ていると安全に想定できます。しかし、一部のアーティストについては、聴取者数/スクロブル数を追跡することが完全に不可能になっています。[*アルコナ(Arkona)*]( https://www.last.fm/music/Arkona)や[*イコン(Ikon)*](https://www.last.fm/music/Ikon)は、この問題の例です。これらの場合、重複した名前を持つ各アーティストには、集計された聴取者数/スクロブル数が割り当てられています。さらに、一部のアーティストは、アルファベット間の異なる綴りや音訳のために複数のプロフィールを持っています(例えば、[こちら]( https://www.last.fm/music/%D0%9A%D0%B8%D0%BD%D0%BE)と[こちら]( https://www.last.fm/music/Kino)を参照)。
Last.fmのタグはウェブサイトのユーザーによって生成されるため、*tags\_lastfm*列には事実誤り、非真摯な内容、または下品な内容が多いことが予想されます(例えば、*ジャスティン・ビーバー(Justin Bieber)*のタグを確認してみてください)。
*country\_lastfm*列のデータは、既存の国名とその形容詞をlast.fmから受け取ったタグと照合することによって確定されます。このアプローチはエラーが発生しやすいです(上記のポイントを参照)。さらに、*spanish*や*german*のようなタグには不幸な曖昧さがあります。これらは、アーティストの出身地を示すためにも、歌詞が書かれている言語を示すためにも使用されます。そのため、多くのラテンアメリカ、オーストリア、スイスのアーティストには誤った国が割り当てられています。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.