Select Language

Open Dataset

ウィキペディアからの800万個のドイツ語の文

ウィキペディアからの800万個のドイツ語の文

1099.53M
253 hits
0 likes
1 downloads
0 discuss
Internet,NLP,Text Data Classification

Data Structure ? 1099.53M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    文脈 このデータセットには、ドイツ語版ウィキペディアから取得した約800万文以上が含まれています。データは[LinguaTools Monolingual Dumps](https://linguatools.org/tools/corpora/wikipedia-monolingual-corpora/)を通じて取得され、35以上のリンクが張られている記事のみを残し、XML(およびその他の不要な部分)を取り除いています。その後、記事は[NNSplit](https://github.com/bminixhofer/nnsplit)を使用して文に分割されました。 謝辞 明らかに、私はここでほとんど作業をしていません。すべての功績は[ウィキペディア](https://www.wikipedia.org/)と[LinguaTools](https://linguatools.org/)に帰されます。 着想 以前、自己教師付き学習のプロジェクトでドイツ語版ウィキペディアの(クリーンな)データに簡単にアクセスする方法が見つかりませんでした。私はそれを再検討し、ここにデータを公開することにしました。まだそのデータが必要かどうかはわかりませんが、害はないと思います:)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 253
    • 1
    • 0
    • collect
    • Share