Open Dataset
Data Structure ?
1.21M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト:
ツイートがどの言語で書かれているかを特定するのは難しいことがあります。ツイートは非常に短いだけでなく、ユーザーが2つ以上の言語を組み合わせて使用するコードスイッチングや、異なる言語から借用された名前が含まれることが多いです。
このデータセットには様々な言語のツイートが含まれており、英語か否か、コードスイッチングが含まれているか、異なる言語の名前が含まれているか、自動生成されたものかなどがタグ付けされています。
内容:
このデータセットには10,502件のツイートが含まれており、公開されているすべての位置情報付きツイッターメッセージからランダムにサンプリングされ、英語、非英語、コードスイッチングがある、言語が曖昧である、または自動生成されたものであるかなどが注釈付けされています。 これには130の異なる国から送信されたメッセージが含まれています。
all_annotated.tsvファイルには、論文で使用された10,502件のツイートのデータセットが含まれています。 テキストはUTF - 8でエンコードされています。
列見出し(.tsvファイルにも記載されています)は、ツイートID、ISO国コード、ツイート日付、ツイート本文、確実に英語、曖昧、確実に非英語、コードスイッチング、固有表現による曖昧さ、および自動生成されたツイートです。
すべての注釈は2値です。確実に英語、曖昧、確実に非英語の注釈は相互に排他的です。
謝辞:
このデータセットは、Su Lin Blodgett、Johnny Tian - Zheng Wei、Brendan O'Connorによって収集されました。ここでは[クリエイティブ・コモンズ 表示 4.0 国際ライセンス](http://creativecommons.org/licenses/by/4.0/)の下で再配布されています。 あなたがこのデータをあなたの研究で使用する場合は、次の論文を引用してください。
Blodgett, Su Lin、Johnny Wei、Brendan O'Connor。 "[A Dataset and Classifier for Recognizing Social Media English](http://www.aclweb.org/anthology/W17 - 4408)." Proceedings of the 3rd Workshop on Noisy User - generated Text. 2017.
このデータセットと関連する研究に関する詳細情報は、[このウェブサイト](http://slanglab.cs.umass.edu/TwitterLangID/)で見つけることができます。
着想:
* このデータセットを使って、ツイートが英語か否かを識別する分類器を構築できますか?
* このデータセットを使って言語識別器を構築できますか?(著者の言語識別器は[ここ](http://slanglab.cs.umass.edu/TwitterLangID/)で確認できます。)
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.