Select Language

Open Dataset

NLP用のテキストデータセット

NLP用のテキストデータセット

6.49G
723 hits
0 likes
0 downloads
0 discuss
NLP,Earth and Nature,Education Classification

これは自然言語処理(NLP)研究に使用するための3つのテキストデータセットのバンドルです。対話システム技術チャレンジ7(DSTC7)ウブントゥA......

Data Structure ? 6.49G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    これは、自然言語処理(NLP)研究に使用するための3つのテキストデータセットの束です。

    • 対話システム技術チャレンジ7(DSTC7)

      • Ubuntu

      • Advising

    • ウィキテキスト - 103

    このデータを使用したトランスフォーマーネットワークの実装は、こちらで見つけることができます。

    内容

    このデータセットには、3つのデータセットの前処理済みバージョンと生データバージョンが含まれています。
    data.7zには、3つの異なるNLPタスク用の3つのフォルダがあります:

    • DSTCデータセットの分類用のCL

    • DSTCデータセットで言語モデルを構築するためのLM - DSTC

    • また、ウィキテキスト - 103データセットで言語モデルを構築するためのLM - WIKI103。
      .npyファイルはNumPyのnp.load()関数を使用して読み込むことができ、.pklファイルはPythonのpickleモジュールを使用して読み込むことができます。

    テスト、トレイン、検証ファイルには、UbuntuとAdvisingのデータセット、およびウィキテキスト - 103の生データであるwikitext - 103 - rawが含まれています。

    謝辞

    これらのデータセットは私が作成したものではなく、前処理に使用される方法のいずれも開発したわけではありません。私は単にそれらをここに示す形式に整理し、前処理を行っただけです。


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:25 Go earn points?
    • 723
    • 0
    • 0
    • collect
    • Share