Select Language

Open Dataset

WikiText長期依存性言語モデリングデータセット WikiText言語モデリングデータセットは、ウィキペディア上の検証済みの良質な記事と特集記事のセットから抽出された1億個以上のトークンの集合です。ペンシルベニアツリーバンク(PTB)との...NLP,Deep Learning,Text Data Classification
1.11G 276
中国古代文字(文言文) Business,NLP,Text Data,Text Mining Classification
1572.11M 777
0.49M 594
arxivデータセット、過去18か月間のアーカイブデータセット アーキブデータセット 過去18か月間のアーキブデータセット...NLP Classification
94.28M 633
特許要約 Computer Science,Law,NLP,Deep Learning,LSTM,RNN Classification
3.2M 313
偽ニュース検出 News,NLP,Text Data Classification
118.08M 566
スマート非インデックス文字表 NLP,Text Mining Classification
0M 259
セス・ゴーディンのブログデータセット Business,Internet,Online Communities,NLP,Literature,Text Data,Text Mining,Marketing Classification
16.49M 299
データセットを復元する Computer Science,NLP,Text Data Classification
11.81M 248
ブラジルのニュース News,Finance,NLP,Brazil Classification
1102.35M 592
CORD - 19完全インデックス、完全なCORD - 19データセット上で埋め込みインデックス 完全なCORD - 19データセットに対する文埋め込みインデックス。コロナに関するCOVID - 19と非COVID - 19のタグ付き文献の両方を含む...NLP,Computer Science,Coronavirus Classification
7.61G 245
ツイッターで災害を予測する NLP,Classification,Text Data,Geospatial Analysis,Binary Classification Classification
1.34M 576
小売取引[2020年7月17日発表] Online Communities,Retail and Shopping,NLP,Data Visualization,Tabular Data,Data Cleaning Classification
1.3M 268
OSCARネパール語コーパス、ネパール語テキストコーパス、NLPの教師なし言語モデルの訓練に使用 これらのファイルは[OSCARコーパス](https://oscar-corpus.com/)からのものです。詳細な情報については、彼らのサイトを訪問してください。このデータセットは...NLP,Computer Science,Movies and TV Shows,Text Data,Languages Classification
3.1G 366
ウクライナ語の語彙記述 Earth and Nature,Education,NLP,Classification,Text Data Classification
0.04M 578
矛盾した、私の愛するワトソンが翻訳した文章 NLP,Classification,Text Data Classification
9.47M 258
ジグソー有毒コメント分類クリーニングデータ、ジグソーコメント、感情付き、コメントの長さと翻訳テキスト 私はジグソー多言語有害コメント分類コンペティションに取り組んでいて、データが必要であることを発見しました...NLP,Deep Learning,Feature Engineering,Text Data Classification
263.44M 388
COVID-19フランス語ツイッター Coronavirus,NLP,Text Mining Classification
47.18M 266
グーテンベルク・プロジェクト Education,NLP,Literature Classification
6.76M 195
ロバータ大 Computer Science,Exercise,NLP Classification
1361.18M 251