Select Language

Open Dataset

Redditコミュニティの参加度を予測するデータセット、GDELT投稿の分類、およびSiroccoテキスト分析(意見とエンティティの抽出)

Redditコミュニティの参加度を予測するデータセット、GDELT投稿の分類、およびSiroccoテキスト分析(意見とエンティティの抽出)

174.09M
420 hits
0 likes
0 downloads
0 discuss
NLP,Computer Science,Online Communities Classification

このデータセットには、3か月間(2017年6月から8月)のRedditのニュース投稿、ならびにGDELTの投稿分類およびSiroccoのテキスト分析(意見とエンティティ抽出)の結果が含まれています。......

Data Structure ? 174.09M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    このデータセットには、3か月分(2017年6月から8月)のRedditのニュース投稿、およびGDELTによる投稿の分類とSiroccoのテキスト分析(意見とエンティティの抽出)の結果が含まれています。これは、ニュースの内容、著者、および出版ドメインがRedditの投稿者によるサブレディットの選択に与える影響を分析し、人気スコアやコメント者数などのエンゲージメント統計を予測するために使用されます。

    このデータセットには、3か月分(2017年6月 - 8月)のRedditのニュース投稿が含まれており、これにはGDELTによる投稿の分類とSiroccoのテキスト分析(意見とエンティティの抽出)の結果が結合されています。これは、ニュースの内容、著者、および出版ドメインがRedditの投稿者によるサブレディットの選択に与える影響を分析し、人気スコアやコメント者数などのエンゲージメント統計を予測するために使用されました。

    このデータセットは、以下の2つのBigQueryデータセットからのデータを集約したものです:

    • GDELT BigQueryデータセット

    • Reddit BigQueryデータセット

    これは、BigQueryデータセットとしても利用可能です。

    謝辞

    私たちは、以下の方々に感謝したいと思います:

    • グローバルなニュースデータリポジトリであるGDELTのKalev Leetaru氏

    • RedditのNick Caldwell氏

    • Redditデータのソースであるpushshift.ioのJason Baumgartner氏

    • Googleの開発者アドボケートであるFelipe Hoffa氏


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:25 Go earn points?
    • 420
    • 0
    • 0
    • collect
    • Share