Select Language

Open Dataset

ウィキペディアの文章、英語版ウィキペディアのダンプから780万の文章が収集されています

ウィキペディアの文章、英語版ウィキペディアのダンプから780万の文章が収集されています

891.28M
367 hits
0 likes
0 downloads
0 discuss
NLP,Text Mining Classification

ウィキペディアのダンプは巨大なXMLファイルで、あまり有用ではない内容が大量に含まれています。私は何かのためにいくつかの英語のテキストが必要でした......

Data Structure ? 891.28M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    ウィキペディアのダンプファイルは巨大なXMLファイルで、あまり有用でない内容が大量に含まれています。私は教師なし学習のために英語のテキストが必要だったので、かなりの時間をかけてテキストを抽出し、クリーニングしました。

    内容

    txtファイルの各行は「文」です。ここで「文」と引用符を付けているのは、これらのファイルの内容が誤りをすべてチェックされていないからです。私が行ったことは以下の通りです。

    • 非曖昧化ページと目次ページでは、冒頭のテキストを抽出しました。

    • 出典が必要な文は削除しました。これらの文は通常、文法が不適切なことが多いからです。

    • SpaCyを使って各テキストブロックを文に分割しました。その後、括弧と引用符の正しさをチェックし、完全に一致しない文を除外しました。

    • 3文字未満と255文字を超える文を削除しました。これでデータの97%がカバーされます。

    • 重複する文を削除し、その結果としてアルファベット順に並べました。


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:18 Go earn points?
    • 367
    • 0
    • 0
    • collect
    • Share