Open Dataset
Data Structure ?
80.03M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
# 背景
このデータセットには、2012年から2018年までの約20万件のニュース見出しが含まれており、[ハフポスト](https://www.huffingtonpost.com/)から取得されたものです。このデータセットで学習させたモデルは、追跡されていないニュース記事のタグを特定したり、異なるニュース記事で使用されている言語の種類を特定したりするために使用できます。
# 内容
各ニュース見出しには対応するカテゴリがあります。カテゴリと対応する記事数は以下の通りです。
* 政治: 32739
* ウェルネス: 17827
* エンターテイメント: 16058
* 旅行: 9887
* スタイル&美容: 9649
* 子育て: 8677
* 健康的な生活: 6694
* 同性愛者の声: 6314
* 食事と飲み物: 6226
* ビジネス: 5937
* コメディ: 5175
* スポーツ: 4884
* 黒人の声: 4528
* 家庭生活: 4195
* 親: 3955
* ザ・ワールドポスト: 3664
* 結婚式: 3651
* 女性: 3490
* 影響: 3459
* 離婚: 3426
* 犯罪: 3405
* メディア: 2815
* 奇妙なニュース: 2670
* グリーン: 2622
* ワールドポスト: 2579
* 宗教: 2556
* スタイル: 2254
* 科学: 2178
* 国際ニュース: 2177
* 味: 2096
* テクノロジー: 2082
* お金: 1707
* 芸術: 1509
* 50代: 1401
* 朗報: 1398
* 芸術と文化: 1339
* 環境: 1323
* 大学: 1144
* ラテン系の声: 1129
* 文化と芸術: 1030
* 教育: 1004
# 謝辞
このデータセットは[ハフポスト](https://www.huffingtonpost.com/)から収集されました。
# 着想
* ニュース記事をその見出しと短い説明に基づいてカテゴリ分けできますか?
* 異なるカテゴリのニュース記事は異なる書き方のスタイルを持っていますか?
* このデータセットで学習させた分類器は、自由なテキストに適用して、使用されている言語の種類を特定するために使用できます。
# 引用
もしあなたがこのデータセットを研究目的で使用する場合は、以下のBibTexを引用に使用してください。
@dataset{dataset,
author = {Misra, Rishabh},
year = {2018},
month = {06},
pages = {},
title = {News Category Dataset},
doi = {10.13140/RG.2.2.20331.18729}
}
あなたのレポートでは[rishabhmisra.github.io/publications](https://rishabhmisra.github.io/publications/)にリンクしてください。
ありがとう!
他のデータセット
私が収集した以下のデータセットもご覧ください。
* [皮肉検出のためのニュース見出しデータセット](https://www.kaggle.com/rmisra/news-headlines-dataset-for-sarcasm-detection)
* [サイズ推薦のための衣類フィットデータセット](https://www.kaggle.com/rmisra/clothing-fit-dataset-for-size-recommendation)
* [IMDBネタバレデータセット](https://www.kaggle.com/rmisra/imdb-spoiler-dataset)
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.