Select Language

Open Dataset

レディットの言動

レディットの言動

51.87M
354 hits
0 likes
0 downloads
0 discuss
Computer Science,Online Communities,News,Religion and Belief Systems,Social Issues and Advocacy,Linguistics,Languages Classification

Data Structure ? 51.87M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    ## コンテキスト/背景 談話行為とは、会話の中で行うことができる様々な種類の行為で、同意、反対、詳述などがあります。このデータセットには、様々なTwitterコメントの談話行為に関する注釈が含まれています。ここでラベル付けされた談話行為は、「大まか」という意味で、個々の文やフレーズではなく(Redditのコメント全体に対して)大まかにラベル付けされており、下品な意味ではありません。各投稿の談話行為は、複数の注釈者によって注釈付けされています。 ## 内容 約1万件のフォーラムスレッドに関する談話注釈と関係の大規模なコーパス。データの詳細な分析と説明については、次の論文を参照してください:[*Characterizing Online Discussion Using Coarse Discourse Sequences (ICWSM '17)*](https://research.google.com/pubs/pub46055.html)。 ## フィールドの説明 ### スレッドフィールド * URL - スレッドのReddit URL * タイトル - 最初の投稿者によって書かれたスレッドのタイトル * is_self_post - スレッドの最初の投稿が自己投稿(外部リンクではなくRedditコミュニティに向けたテキスト)である場合はTrue * サブレディット - スレッドのサブレディット * 投稿 - スレッド内のすべての投稿のリスト ### 投稿フィールド * id - 投稿ID、現在の投稿のReddit ID * in_reply_to - 親ID、親投稿のReddit ID、または現在の投稿が返信先となっている投稿のID * 投稿の深さ - 現在の投稿が最初の投稿から何回の返信先にあるかの数 * is_first_post - 現在の投稿が最初の投稿である場合はTrue * 注釈 - この投稿に対して行われたすべての注釈のリスト(以下を参照) * 多数決タイプ - 注釈者間で多数決タイプがある場合、main_typeフィールドのみを考慮したときの多数決で注釈付けされたタイプ * 多数決リンク - 注釈者間で多数決リンクがある場合、多数決で注釈付けされたリンク ### 注釈フィールド * 注釈者 - 注釈者の一意のID * 主要タイプ - この投稿を説明する主要な談話行為 * 二次タイプ - 投稿が複数の談話行為を連続して含む場合、これは投稿内の2番目の談話行為 * 投稿へのリンク - この投稿がリンクされている投稿 ## データサンプリングと前処理 ### Redditスレッドの選択 このデータは、2016年5月末までのRedditの全データセットからランダムにサンプリングされたもので、[Google BigQuery](https://bigquery.cloud.google.com/table/fh-bigquery:reddit_comments.2016_05)で公開されているダンプとして利用できます。このデータセットは、より大きなデータセットからサブサンプリングされたもので、コメントが2つ未満の投稿、英語でない投稿、ポルノグラフィックな内容を含む投稿、または取引に焦点を当てたサブレディットの投稿は含まれていません。さらに、単一のスレッドへの返信数は40に制限されています。 ### 注釈付け 各スレッドには3人の注釈者が割り当てられ、スレッド内の各コメントにその談話行為(主要タイプ)と、存在する場合は各コメントと以前のコメントとの関係(投稿へのリンク)を注釈付けするよう指示されました。注釈者は、タスクを簡単にするために、文や段落レベルではなくコメントレベルの内容を考慮するよう指示されました。 ## 著者 **アミー・X・チャン**、マサチューセッツ工科大学CSAIL、カンブリッジ、マサチューセッツ州、米国。axz@mit.edu **カ・ウォン**、Google、マウンテンビュー、カリフォルニア州、米国。kawong@google.com **ブライアン・カルバートソン**、キャルソープ・アナリティクス、バークレー、カリフォルニア州、米国。bryan.culbertson@gmail.com **プラヴィーン・パリトシュ**、Google、マウンテンビュー、カリフォルニア州、米国。pkp@google.com ## 引用ガイドライン このデータを研究論文に使用する場合は、次の論文を引用してください。 アミー・X・チャン、ブライアン・カルバートソン、プラヴィーン・パリトシュ。*Characterizing Online Discussion Using Coarse Discourse Sequences. In Proceedings of the International AAAI Conference on Weblogs and Social Media (ICWSM '17)*. カナダ、モントリオール。2017年。 Bibtex: @inproceedings{coarsediscourse, title={Characterizing Online Discussion Using Coarse Discourse Sequences}, author={Zhang, Amy X. and Culbertson, Bryan and Paritosh, Praveen}, booktitle={Proceedings of the 11th International AAAI Conference on Weblogs and Social Media}, series={ICWSM '17}, year={2017}, location = {Montreal, Canada} } ## ライセンス CC-by ## インスピレーション * 各種類の談話行為に対する返信でどの談話行為が使われているかを可視化できますか? * スレッドは単一の談話行為で構成されることが多いのか、複数の談話行為で構成されることが多いのか? * 特定の談話行為は特定のサブレディットとより密接に関連付けられているのか?
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 354
    • 0
    • 0
    • collect
    • Share