Open Dataset
Data Structure ?
1.11G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
WikiText言語モデリングデータセットは、ウィキペディア上の一連の検証済みの良質な記事と特集記事から抽出された1億個以上のトークンの集合です。
ペンシルベニアツリーバンク(PTB)の前処理済みバージョンと比較すると、WikiText - 2は2倍以上大きく、WikiText - 103は110倍以上大きいです。WikiTextデータセットはまた、より大きな語彙を持ち、元の大文字小文字、句読点、数字を保持しており、これらはすべてPTBでは削除されています。このデータセットは完全な記事で構成されているため、長期的な依存関係を利用できるモデルに非常に適しています。
公開された結果:WikiText - 103
WikiText - 103の検証とテストのパープレキシティ。数値が低いほど良いです。
出版物 | モデル | パラメータ | 検証 | テスト |
---|---|---|---|---|
Grave et al. 2016 | LSTM | - | - | 48.7 |
Grave et al. 2016 | ニューラルキャッシュモデル(サイズ = 100) | - | - | 44.8 |
Grave et al. 2016 | ニューラルキャッシュモデル(サイズ = 2000) | - | - | 40.8 |
公開された結果:WikiText - 2
WikiText - 2の検証とテストのパープレキシティ。数値が低いほど良いです。
出版物 | モデル | パラメータ | 検証 | テスト |
---|---|---|---|---|
Merity et al. 2016 | Zoneout + Variational LSTM | 20M | 108.7 | 100.9 |
Grave et al. 2016 | LSTM | - | - | 99.3 |
Merity et al. 2016 | Variational LSTM(Gal 2015のコード) | 20M | 101.7 | 96.3 |
Grave et al. 2016 | ニューラルキャッシュモデル(サイズ = 100) | - | - | 81.6 |
Merity et al. 2016 | ポインタLSTM(ウィンドウ = 100) | 21M | 84.8 | 80.8 |
Grave et al. 2016 | ニューラルキャッシュモデル(サイズ = 2000) | - | - | 68.9 |
データセット統計
ペンシルベニアツリーバンク(PTB)のMikolov処理バージョンと比較すると、WikiTextデータセットはより大きいです。WikiText - 2はPTBと同程度のサイズを目指しており、WikiText - 103はウィキペディアから抽出されたすべての記事を含んでいます。WikiTextデータセットはまた、数字(N
に置き換えるのではなく)、大文字小文字(すべてのテキストを小文字にするのではなく)、句読点(削除するのではなく)を保持しています。
ペンシルベニアツリーバンク | WikiText - 2 | WikiText - 103 | |||||||
---|---|---|---|---|---|---|---|---|---|
訓練 | 検証 | テスト | 訓練 | 検証 | テスト | 訓練 | 検証 | テスト | |
記事 | - | - | - | 600 | 60 | 60 | 28,475 | 60 | 60 |
トークン | 887,521 | 70,390 | 78,669 | 2,088,628 | 217,646 | 245,569 | 103,227,021 | 217,646 | 245,569 |
語彙 | 10,000 | 33,278 | 267,735 | ||||||
未知語 | 4.8% | 2.6% | 0.4% |
引用クレジット
Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. 2016. Pointer Sentinel Mixture Models
連絡先情報
データセットに関する質問がある場合や新しい結果を報告したい場合は、Stephen Merityに連絡してください。
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.