Select Language

Open Dataset

年齢と性別が標記されたブログ記事

年齢と性別が標記されたブログ記事

750.6M
305 hits
0 likes
1 downloads
0 discuss
Online Communities,Text Data Classification

Data Structure ? 750.6M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    コンテキスト このデータセットは [こちら][1] のデータセットを改変したものです。XML 形式のファイルを JSON 形式に変換し、再編成しました。 内容 訓練セットとテストセットに合計 681,288 件の個別のブログ記事が含まれています。各ブログ記事には投稿者の年齢と性別がタグ付けされています。すべての記事は 2004 年 8 月以前のものです。各年齢層(13 - 17 歳、23 - 27 歳、33 - 48 歳)において、男性と女性の投稿者数は同じです。これらの年齢層内の具体的な各年齢の数は [こちら][2] で確認できます。 非商用利用は無料です。 謝辞 このデータセットの原作者に感謝します。 このデータセットを作成し、利用した原研究の引用情報: J. Schler、M. Koppel、S. Argamon、J. Pennebaker(2006 年)。「年齢と性別がブログ投稿に与える影響」(2006 年 AAAI 春のシンポジウム「ブログ分析のための計算アプローチ」の会議録)。([pdf][3]) 着想 私はこのデータを使用して、ブログ記事がどの年齢層に属するかを予測するモデルを訓練します。 [1]: http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm [2]: https://docs.google.com/spreadsheets/d/112hNOV0JWkIIOsfRepIMd8ihS752gKhxGPHdlMCl0K8/edit?usp=sharing [3]: http://u.cs.biu.ac.il/~schlerj/schler_springsymp06.pdf
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 305
    • 1
    • 0
    • collect
    • Share