Select Language

Open Dataset

ツイッターデータセット上のマサチューセッツ大学のグローバル英語

ツイッターデータセット上のマサチューセッツ大学のグローバル英語

1.21M
622 hits
0 likes
0 downloads
0 discuss
Internet,Universities and Colleges,Email and Messaging,Linguistics,Languages Classification

Data Structure ? 1.21M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    コンテキスト: ツイートがどの言語で書かれているかを特定するのは難しいことがあります。ツイートは非常に短いだけでなく、ユーザーが2つ以上の言語を組み合わせて使用するコードスイッチングや、異なる言語から借用された名前が含まれることが多いです。 このデータセットには様々な言語のツイートが含まれており、英語か否か、コードスイッチングが含まれているか、異なる言語の名前が含まれているか、自動生成されたものかなどがタグ付けされています。 内容: このデータセットには10,502件のツイートが含まれており、公開されているすべての位置情報付きツイッターメッセージからランダムにサンプリングされ、英語、非英語、コードスイッチングがある、言語が曖昧である、または自動生成されたものであるかなどが注釈付けされています。 これには130の異なる国から送信されたメッセージが含まれています。 all_annotated.tsvファイルには、論文で使用された10,502件のツイートのデータセットが含まれています。 テキストはUTF - 8でエンコードされています。 列見出し(.tsvファイルにも記載されています)は、ツイートID、ISO国コード、ツイート日付、ツイート本文、確実に英語、曖昧、確実に非英語、コードスイッチング、固有表現による曖昧さ、および自動生成されたツイートです。 すべての注釈は2値です。確実に英語、曖昧、確実に非英語の注釈は相互に排他的です。 謝辞: このデータセットは、Su Lin Blodgett、Johnny Tian - Zheng Wei、Brendan O'Connorによって収集されました。ここでは[クリエイティブ・コモンズ 表示 4.0 国際ライセンス](http://creativecommons.org/licenses/by/4.0/)の下で再配布されています。 あなたがこのデータをあなたの研究で使用する場合は、次の論文を引用してください。 Blodgett, Su Lin、Johnny Wei、Brendan O'Connor。 "[A Dataset and Classifier for Recognizing Social Media English](http://www.aclweb.org/anthology/W17 - 4408)." Proceedings of the 3rd Workshop on Noisy User - generated Text. 2017. このデータセットと関連する研究に関する詳細情報は、[このウェブサイト](http://slanglab.cs.umass.edu/TwitterLangID/)で見つけることができます。 着想: * このデータセットを使って、ツイートが英語か否かを識別する分類器を構築できますか? * このデータセットを使って言語識別器を構築できますか?(著者の言語識別器は[ここ](http://slanglab.cs.umass.edu/TwitterLangID/)で確認できます。)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 622
    • 0
    • 0
    • collect
    • Share