Open Dataset
Data Structure ?
7.97M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
# スーパーヒーローNLPデータセット
1400以上のスーパーヒーローの歴史と能力の説明を収録し、テキストマイニングとNLPを適用できます。
## 背景
このデータセットの目的は、テキスト分析とNLPをさらに楽しくすることです。私たちは皆、スーパーヒーローのようになって世界を救うことを夢見ていますが、今もKaggleでPythonの使い方を調べています。では、なぜスーパーヒーローの歴史と能力を分析することでNLPの能力を向上させないのでしょうか?
このデータセットの特徴は、`総合スコア`、`知能スコア`、`作成者`、`陣営`、`性別`、`目の色`などの**カテゴリカルおよび数値特徴**だけでなく、*テキスト特徴*である`歴史テキスト`と`能力テキスト`も含まれていることです。これらを組み合わせることで、多くの興味深い洞察を得ることができます!
## 内容
私たちはすべてのデータを[superherodb](https://www.superherodb.com/)から収集し、見やすく整理された表形式で提供しています。
このデータセットには*1447*人の異なるスーパーヒーローが含まれています。各スーパーヒーローの行には以下の情報があります。
- `総合スコア` - superherodbが _パワースタッツ_ 特徴から導き出したもの。関係性を見つけることができますか?
- `歴史テキスト` - スーパーヒーローの歴史(テキスト特徴)
- `能力テキスト` - スーパーヒーローの能力の説明(テキスト特徴)
- `知能スコア`、`強さスコア`、`速度スコア`、`耐久性スコア`、`パワースコア`、`戦闘スコア`。(_パワースタッツ_ 特徴)
- "起源" (`本名`、`別名`、...)
- "関係" (`職業`、`拠点`、`チーム`、...)
- "外見" (`性別`、`種族`、`身長`、`体重`、`目の色`、...)
## あなたの番です
このデータセットを使って楽しむ方法はたくさんあります。これからはあなた次第です!
始めるためのアイデアをいくつか紹介します。
- 最もかっこいいスーパーヒーローは誰ですか?
2つのテキスト列だけを使って、最もかっこいいスーパーヒーローを見つける式を見つけることができますか?
- 史上最強のスーパーヒーローは誰ですか?
_テキスト_ 特徴と _パワースタッツ_ 特徴を組み合わせて、史上最も強いスーパーヒーローが誰かを推測できますか?
- テキスト分類:テキスト列だけを使って、スーパーヒーローの`作成者`を予測できますか?(できます!)
さらに、教師なし学習でデータをクラスタリングする良い方法を見つけることができますか?
- トップ10の女性スーパーヒーローは誰ですか?
スーパーヒーローの23%は女性です。トップ10を見つけることができますか?
## 謝辞
以下の[Githubリポジトリ](https://github.com/jbesomi/texthero/tree/master/dataset/Superheroes%20NLP%20Dataset)には、このデータセットをスクレイピングするために使用されたコードが含まれています。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.