Select Language

Open Dataset

ブロガー会社

ブロガー会社

763.34M
572 hits
0 likes
0 downloads
0 discuss
Internet,Online Communities,Linguistics,Languages Classification

Data Structure ? 763.34M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    文脈: 「ブログ(「ウェブログ」という表現の略称)は、ウェブ上に公開される議論や情報提供用のウェブサイトで、個別の、しばしば非公式な日記風のテキストエントリ(「投稿」)から構成されています。投稿は通常、逆時系列で表示されるため、最新の投稿が最初に、ウェブページの上部に表示されます。2009年まで、ブログは通常一人の個人の作品であり、時には小さなグループの作品であり、多くの場合単一の主題やトピックを扱っていました。」 -- ウィキペディア記事「[ブログ](https://en.wikipedia.org/wiki/Blog)」 このデータセットには、2004年またはそれ以前に書かれたブログのテキストが含まれており、各ブログは一人のユーザーの作品です。 内容: ブログ執筆者コーパスは、2004年8月にblogger.comから収集された19,320人のブロガーの投稿を集めたものです。このコーパスには合計681,288件の投稿と1億4000万語以上が含まれており、一人当たり約35件の投稿と7250語に相当します。 各ブログは個別のファイルとして提示され、その名前にはブロガーのID番号と、ブロガー自身が提供した性別、年齢、業界、星座が示されています。(すべてのブログに性別と年齢がラベル付けされていますが、多くのブログでは業界や星座が不明とマークされています。) コーパスに含まれるすべてのブロガーは、以下の3つの年齢グループのいずれかに分類されます。 * 8240件の「10代」ブログ(13 - 17歳) * 8086件の「20代」ブログ(23 - 27歳) * 2994件の「30代」ブログ(33 - 47歳) 各年齢グループには、男性と女性のブロガーが同数含まれています。 コーパス内の各ブログには、一般的な英単語が少なくとも200回出現しています。すべての書式は削除されていますが、2つの例外があります。一人のブロガーの個々の投稿は、次の投稿の日付で区切られており、投稿内のリンクは「urllink」というラベルで示されています。 謝辞 このコーパスは、非商業的な研究目的で自由に使用できます。得られた成果を公表する場合は、以下を引用してください。 J. Schler, M. Koppel, S. ArgamonおよびJ. Pennebaker(2006年)。年齢と性別がブログ執筆に与える影響。2006年AAAI春季シンポジウム「ウェブログ分析のための計算アプローチ」の会議録。URL: http://www.cs.biu.ac.il/~schlerj/schler_springsymp06.pdf 着想: * このデータセットには、執筆者の年齢、性別、星座を含む人口統計情報が含まれています。ブログ投稿から誰かの星座を推測する分類器を構築できますか? * 人口統計グループ間の差異と、異なるトピックのブログ間の差異のどちらが大きいですか? あなたが気に入るかもしれないもの: * [ニュースとブログデータクロール:16万件以上のニュースとブログ記事の内容セクション](https://www.kaggle.com/patjob/articlescrape) * [20ニュースグループ:20の異なるニュースグループからの約18,000件のニュースグループ文書のコレクション](https://www.kaggle.com/crawford/20-newsgroups)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 572
    • 0
    • 0
    • collect
    • Share