Select Language

Open Dataset

Related Search
您是不是在找?
Today ranking
Weekly Best Sellers
Monthly Best Sellers
WikiText英語語彙データベース 1億個の語彙を含む英語語彙データベースのデータ WikiText英語語彙データ(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText長期依存言語モデリングデータセットは1億を含む...NLP Text
373.28M 1207
JRC Names 固有専有名詞データベース JRC-Namesは、個人および組織名(「エンティティ」と呼ばれる)に使用される高度に多言語の命名エンティティリソースです。それは大量の名前リストとその複数の綴りバリエーションを含んでいます(単一の人...NLP Text
762.56M 1614
Twitter - データセット ICWSM 2010の論文のデータは以下のリンクから取得できます。当社のデータセットはユーザー自身のプライバシーを保護するために匿名化されています。当社ではTwitterのリンク構造に関する情報のみを公開しています。...NLP Text
311.27M 1579
redditの250万件の投稿データ アメリカのRedditニュースサイトで最も人気のある2500人の投稿者の、各メディア1000件の投稿内容とコメントのデータセット。購読者からの上位2500件のサブ評価。2013年8月から...NLP Text
437.79M 1500
Multi-Domain Sentiment Dataset--マルチドメイン感情データセット 多ドメイン感情データセットには、Amazon.comから取得した多くの商品タイプ(ドメイン)の商品レビューが含まれています。一部のドメイン(書籍やDVD)には何千ものレビューがあります。他のドメイン(楽器)は...NLP Text
1.53M 1210
WMT 2011ニュースクロール機械翻訳データ WMT2011NewsCrawldataは自然言語翻訳データで、Europarlcorpusコーパスから抽出されたもので、以下を含みます:フランス語 - 英語、スペイン語 - 英語、ドイツ語 - 英語(原文未完成、「Ge」の続きがないため仮にドイツ語と推測)...NLP Text
25.01G 894
人民日報品詞付きコーパスデータ(1998年01月) 人民日報のコーパス、形態素解析と品詞タグ付け(POS)のコーパス(単語分割と品詞のための中国語コーパス)リソースは1998年1 - 6月の人民日報に関するものです。...NLP Text
2.81M 1133
250万Reddit投稿データ これは、購読者からの上位2500のサブディレクトリのうち、上位1000の投稿の履歴データセットです。このデータは、2013年8月15日から20日の間にredditから抽出されたものです。これはreddi...NLP Text
452.85M 815
ニュースカテゴリーデータセット、20万件のニュースタイトルを含む このデータセットには、2012年から2018年までにHuffPostから取得した約20万件のニュースタイトルが含まれています。このデータセットで学習させたモデルは、追跡されていないニュース記事のラベルを識別するために使用できます。...NLP Text
25.44M 1317
アイルランド・タイムズニュースデータセット このニュースデータセットは、アイルランド国内の『アイルランド・タイムズ』が発表した148万件の見出しニュースで構成されています。160年前に創設され、この機関はヨーロッパで起こっていることを長期間観察することができます。内容...NLP Text
48.93M 853
PubMed医学データセット:抽出された3984個の医学文が含まれています このデータセットには、PubMedの要約から抽出された3984個の医学文が含まれており、異なる医学用語間の関係が注釈付けされています。このデータセットは主に「治療」と「病因」の関係に焦点を当てています。...NLP Classification
9.4M 1140
Europarl:統計機械翻訳用の並列コーパス(21種類の欧州言語版) このコーパスの詳細な説明については、次を読んでください:ユーロパル:統計的機械翻訳用の並列コーパス...NLP Classification
1.46G 910
人民日報品詞付きコーパスデータ(199801) 人民日報のコーパス、形態素解析と品詞タグ付け(POS)のコーパス(単語分割と品詞のための中国語コーパス)リソースは1998年の人民日報の1 - 6月分...OCR/Text Detection Classification
3.37M 988
心霊雞湯テキストデータセット GitHubからの毒チャーミングな文章のテキストデータセットです。このデータはウェブサイト http://www.nows.fun/ のサイトデータです。データ量:1232件。ファイル形式はSQLです。...OCR/Text Detection Classification
125K 1148
20万英語ユーモアテキストデータセット 公開時間:2016年 このデータベースには約208,000個のジョークがあります。現在のデータセットのファイルには、3つのソースからのジョークが含まれています。---------------------------------...OCR/Text Detection Classification
24.57M 847
手話数字画像データセット 手話(サイン言語とも呼ばれます)は、手動によるコミュニケーションを使って意味を伝える言語です。これには、同時にジェスチャー、動き、指、腕または体の向き、および顔の表情を用いて伝えることが含まれます...OCR/Text Detection Classification
16.4M 885
自然画像におけるテキスト位置特定の合成データセットで、80万枚の画像を含む これは総合的に生成されたデータセットであり、単語のインスタンスは自然シーンの画像の中に配置され、同時にシーンのレイアウトも考慮されています。このデータセットは80万枚の画像から構成されており、そのうち約...Image Search Classification
73.5G 1423
アメリカ手話のアルファベットの画像データセット データセットはアメリカ手話のアルファベット画像の集合で、29個のフォルダに分けられ、それぞれのカテゴリを表しています。トレーニングデータセットには87,000枚の200×200ピクセルの画像が含まれています。29個あります...NLP,Image Search Classification
1.03G 1132
単語と物体を処理する際のfMRI画像データ OpenfMRIデータベース(Poldrackら、2013年;PoldrackとGorgolewski、2015年)は、MRIとEEG技術を用いて収集された脳画像データベースです。それは201...Image Search Classification
3.14G 779
騰訊AI Labが大規模で高品質な中国語単語ベクトルデータをオープンソース化 騰訊AI Labが今回公開した中国語単語ベクトルデータには800万以上の中国語語彙が含まれており、その中の各単語は200次元のベクトルに対応しています。既存の中国語単語ベクトルデータと比べて、騰訊AI L...NLP,MNIST Classification
39.4G 700