Select Language

Open Dataset

ニュースカテゴリーデータセット

ニュースカテゴリーデータセット

80.03M
270 hits
0 likes
0 downloads
0 discuss
News,NLP,Classification,Deep Learning,Linguistics Classification

Data Structure ? 80.03M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # 背景 このデータセットには、2012年から2018年までの約20万件のニュース見出しが含まれており、[ハフポスト](https://www.huffingtonpost.com/)から取得されたものです。このデータセットで学習させたモデルは、追跡されていないニュース記事のタグを特定したり、異なるニュース記事で使用されている言語の種類を特定したりするために使用できます。 # 内容 各ニュース見出しには対応するカテゴリがあります。カテゴリと対応する記事数は以下の通りです。 * 政治: 32739 * ウェルネス: 17827 * エンターテイメント: 16058 * 旅行: 9887 * スタイル&美容: 9649 * 子育て: 8677 * 健康的な生活: 6694 * 同性愛者の声: 6314 * 食事と飲み物: 6226 * ビジネス: 5937 * コメディ: 5175 * スポーツ: 4884 * 黒人の声: 4528 * 家庭生活: 4195 * 親: 3955 * ザ・ワールドポスト: 3664 * 結婚式: 3651 * 女性: 3490 * 影響: 3459 * 離婚: 3426 * 犯罪: 3405 * メディア: 2815 * 奇妙なニュース: 2670 * グリーン: 2622 * ワールドポスト: 2579 * 宗教: 2556 * スタイル: 2254 * 科学: 2178 * 国際ニュース: 2177 * 味: 2096 * テクノロジー: 2082 * お金: 1707 * 芸術: 1509 * 50代: 1401 * 朗報: 1398 * 芸術と文化: 1339 * 環境: 1323 * 大学: 1144 * ラテン系の声: 1129 * 文化と芸術: 1030 * 教育: 1004 # 謝辞 このデータセットは[ハフポスト](https://www.huffingtonpost.com/)から収集されました。 # 着想 * ニュース記事をその見出しと短い説明に基づいてカテゴリ分けできますか? * 異なるカテゴリのニュース記事は異なる書き方のスタイルを持っていますか? * このデータセットで学習させた分類器は、自由なテキストに適用して、使用されている言語の種類を特定するために使用できます。 # 引用 もしあなたがこのデータセットを研究目的で使用する場合は、以下のBibTexを引用に使用してください。 @dataset{dataset, author = {Misra, Rishabh}, year = {2018}, month = {06}, pages = {}, title = {News Category Dataset}, doi = {10.13140/RG.2.2.20331.18729} } あなたのレポートでは[rishabhmisra.github.io/publications](https://rishabhmisra.github.io/publications/)にリンクしてください。 ありがとう! 他のデータセット 私が収集した以下のデータセットもご覧ください。 * [皮肉検出のためのニュース見出しデータセット](https://www.kaggle.com/rmisra/news-headlines-dataset-for-sarcasm-detection) * [サイズ推薦のための衣類フィットデータセット](https://www.kaggle.com/rmisra/clothing-fit-dataset-for-size-recommendation) * [IMDBネタバレデータセット](https://www.kaggle.com/rmisra/imdb-spoiler-dataset)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 270
    • 0
    • 0
    • collect
    • Share