Open Dataset
Data Structure ?
360.46M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
文脈
このデータセットには、感情極性分類のために、ポルトガル語のツイートが肯定的、否定的、中立的なクラスに分類されています。
肯定的および否定的な事例を収集してラベル付けするために、Goら(2009年)が使用した肯定的および否定的な顔文字を用いた遠隔監督法が採用されました。
中立的なツイートについては、人気のニュースレターアカウントからの客観的なテキストと、Kouloumpisら(2011年)から適応された特定のハッシュタグが使用されました。
内容
データセット内のツイートは、主に2018年8月1日から2018年10月20日までにTwitterから収集されました。
主なデータセットは4つあります。
- テーマ付きツイート:約100の政治用語と肯定的および否定的な顔文字を併用して収集されました。約6万件のツイートが含まれています。
- テーマ無しツイート:肯定的および否定的な顔文字のみを使用して収集されました。約78万件のツイートが含まれています。
- ハッシュタグからの中立的ツイート:ハッシュタグを使用して収集されました。約1.5万件のツイートが含まれています。
- ニュースアカウントからの中立的ツイート:人気のニュースアカウントから直接収集されました。約3.5万件のツイートが含まれています。
これらから、分類アルゴリズムの学習と検証に使用できる以下のデータセットが作成されました。
- 学習用データセット:
- テーマのない肯定的および否定的なツイート各5万件、10万件、20万件、30万件、40万件、50万件
- 政治関連のツイートを含む肯定的および否定的なツイート各5万件
- テーマのない肯定的、否定的、中立的なツイート各10万件
- テスト用データセット:
- テーマのない肯定的および否定的なツイート各5000件
- 政治関連のツイートを含む肯定的および否定的なツイート各5000件
- テーマのない肯定的、否定的、中立的なツイート各5000件
すべてのデータセットで、クラス間のインスタンス数は均等です。それらの感情ラベルは以下のように変換されています。
- 否定的ラベル:0
- 肯定的ラベル:1
- 中立的ラベル:2
参考文献
[Sentiment Classification using Distant Supervision. 2009.][1]
[Twitter Sentiment Analysis: The Good the Bad and the OMG! 2011.][2]
[1]: https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf
[2]: https://www.researchgate.net/publication/221297835_Twitter_Sentiment_Analysis_The_Good_the_Bad_and_the_OMG
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.