Open Dataset
Data Structure ?
51.87M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
## コンテキスト/背景
談話行為とは、会話の中で行うことができる様々な種類の行為で、同意、反対、詳述などがあります。このデータセットには、様々なTwitterコメントの談話行為に関する注釈が含まれています。ここでラベル付けされた談話行為は、「大まか」という意味で、個々の文やフレーズではなく(Redditのコメント全体に対して)大まかにラベル付けされており、下品な意味ではありません。各投稿の談話行為は、複数の注釈者によって注釈付けされています。
## 内容
約1万件のフォーラムスレッドに関する談話注釈と関係の大規模なコーパス。データの詳細な分析と説明については、次の論文を参照してください:[*Characterizing Online Discussion Using Coarse Discourse Sequences (ICWSM '17)*](https://research.google.com/pubs/pub46055.html)。
## フィールドの説明
### スレッドフィールド
* URL - スレッドのReddit URL
* タイトル - 最初の投稿者によって書かれたスレッドのタイトル
* is_self_post - スレッドの最初の投稿が自己投稿(外部リンクではなくRedditコミュニティに向けたテキスト)である場合はTrue
* サブレディット - スレッドのサブレディット
* 投稿 - スレッド内のすべての投稿のリスト
### 投稿フィールド
* id - 投稿ID、現在の投稿のReddit ID
* in_reply_to - 親ID、親投稿のReddit ID、または現在の投稿が返信先となっている投稿のID
* 投稿の深さ - 現在の投稿が最初の投稿から何回の返信先にあるかの数
* is_first_post - 現在の投稿が最初の投稿である場合はTrue
* 注釈 - この投稿に対して行われたすべての注釈のリスト(以下を参照)
* 多数決タイプ - 注釈者間で多数決タイプがある場合、main_typeフィールドのみを考慮したときの多数決で注釈付けされたタイプ
* 多数決リンク - 注釈者間で多数決リンクがある場合、多数決で注釈付けされたリンク
### 注釈フィールド
* 注釈者 - 注釈者の一意のID
* 主要タイプ - この投稿を説明する主要な談話行為
* 二次タイプ - 投稿が複数の談話行為を連続して含む場合、これは投稿内の2番目の談話行為
* 投稿へのリンク - この投稿がリンクされている投稿
## データサンプリングと前処理
### Redditスレッドの選択
このデータは、2016年5月末までのRedditの全データセットからランダムにサンプリングされたもので、[Google BigQuery](https://bigquery.cloud.google.com/table/fh-bigquery:reddit_comments.2016_05)で公開されているダンプとして利用できます。このデータセットは、より大きなデータセットからサブサンプリングされたもので、コメントが2つ未満の投稿、英語でない投稿、ポルノグラフィックな内容を含む投稿、または取引に焦点を当てたサブレディットの投稿は含まれていません。さらに、単一のスレッドへの返信数は40に制限されています。
### 注釈付け
各スレッドには3人の注釈者が割り当てられ、スレッド内の各コメントにその談話行為(主要タイプ)と、存在する場合は各コメントと以前のコメントとの関係(投稿へのリンク)を注釈付けするよう指示されました。注釈者は、タスクを簡単にするために、文や段落レベルではなくコメントレベルの内容を考慮するよう指示されました。
## 著者
**アミー・X・チャン**、マサチューセッツ工科大学CSAIL、カンブリッジ、マサチューセッツ州、米国。axz@mit.edu
**カ・ウォン**、Google、マウンテンビュー、カリフォルニア州、米国。kawong@google.com
**ブライアン・カルバートソン**、キャルソープ・アナリティクス、バークレー、カリフォルニア州、米国。bryan.culbertson@gmail.com
**プラヴィーン・パリトシュ**、Google、マウンテンビュー、カリフォルニア州、米国。pkp@google.com
## 引用ガイドライン
このデータを研究論文に使用する場合は、次の論文を引用してください。
アミー・X・チャン、ブライアン・カルバートソン、プラヴィーン・パリトシュ。*Characterizing Online Discussion Using Coarse Discourse Sequences. In Proceedings of the International AAAI Conference on Weblogs and Social Media (ICWSM '17)*. カナダ、モントリオール。2017年。
Bibtex:
@inproceedings{coarsediscourse,
title={Characterizing Online Discussion Using Coarse Discourse Sequences},
author={Zhang, Amy X. and Culbertson, Bryan and Paritosh, Praveen},
booktitle={Proceedings of the 11th International AAAI Conference on Weblogs and Social Media},
series={ICWSM '17},
year={2017},
location = {Montreal, Canada}
}
## ライセンス
CC-by
## インスピレーション
* 各種類の談話行為に対する返信でどの談話行為が使われているかを可視化できますか?
* スレッドは単一の談話行為で構成されることが多いのか、複数の談話行為で構成されることが多いのか?
* 特定の談話行為は特定のサブレディットとより密接に関連付けられているのか?
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.