Select Language

Open Dataset

WikiText長期依存性言語モデリングデータセット

WikiText長期依存性言語モデリングデータセット

1.11G
276 hits
0 likes
0 downloads
0 discuss
NLP,Deep Learning,Text Data Classification

WikiText言語モデリングデータセットは、ウィキペディア上の検証済みの良質な記事と特集記事のセットから抽出された1億個以上のトークンの集合です。ペンシルベニアツリーバンク(PTB)との......

Data Structure ? 1.11G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    WikiText言語モデリングデータセットは、ウィキペディア上の一連の検証済みの良質な記事と特集記事から抽出された1億個以上のトークンの集合です。

    ペンシルベニアツリーバンク(PTB)の前処理済みバージョンと比較すると、WikiText - 2は2倍以上大きく、WikiText - 103は110倍以上大きいです。WikiTextデータセットはまた、より大きな語彙を持ち、元の大文字小文字、句読点、数字を保持しており、これらはすべてPTBでは削除されています。このデータセットは完全な記事で構成されているため、長期的な依存関係を利用できるモデルに非常に適しています。

    公開された結果:WikiText - 103

    WikiText - 103の検証とテストのパープレキシティ。数値が低いほど良いです。

    出版物モデルパラメータ検証テスト
    Grave et al. 2016LSTM--48.7
    Grave et al. 2016ニューラルキャッシュモデル(サイズ = 100)--44.8
    Grave et al. 2016ニューラルキャッシュモデル(サイズ = 2000)--40.8

    公開された結果:WikiText - 2

    WikiText - 2の検証とテストのパープレキシティ。数値が低いほど良いです。

    出版物モデルパラメータ検証テスト
    Merity et al. 2016Zoneout + Variational LSTM20M108.7100.9
    Grave et al. 2016LSTM--99.3
    Merity et al. 2016Variational LSTM(Gal 2015のコード)20M101.796.3
    Grave et al. 2016ニューラルキャッシュモデル(サイズ = 100)--81.6
    Merity et al. 2016ポインタLSTM(ウィンドウ = 100)21M84.880.8
    Grave et al. 2016ニューラルキャッシュモデル(サイズ = 2000)--68.9

    データセット統計

    ペンシルベニアツリーバンク(PTB)のMikolov処理バージョンと比較すると、WikiTextデータセットはより大きいです。WikiText - 2はPTBと同程度のサイズを目指しており、WikiText - 103はウィキペディアから抽出されたすべての記事を含んでいます。WikiTextデータセットはまた、数字(Nに置き換えるのではなく)、大文字小文字(すべてのテキストを小文字にするのではなく)、句読点(削除するのではなく)を保持しています。


    ペンシルベニアツリーバンクWikiText - 2WikiText - 103

    訓練検証テスト訓練検証テスト訓練検証テスト
    記事---600606028,4756060
    トークン887,52170,39078,6692,088,628217,646245,569103,227,021217,646245,569
    語彙10,00033,278267,735
    未知語4.8%2.6%0.4%

    引用クレジット

    Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. 2016. Pointer Sentinel Mixture Models

    連絡先情報

    データセットに関する質問がある場合や新しい結果を報告したい場合は、Stephen Merityに連絡してください。


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:25 Go earn points?
    • 276
    • 0
    • 0
    • collect
    • Share