自然_Open DatasetPayititi-Artificial Intelligence Data Science Community

WikiText英語語彙データベース 1億個の語彙を含む英語語彙データベースのデータ WikiText英語語彙データ（TheWikiTextLongTermDependencyLanguageModelingDataset）WikiText長期依存言語モデリングデータセットは1億を含む...NLP Text

373.28M 1237

Stephen Merity

JRC Names 固有専有名詞データベース JRC-Namesは、個人および組織名（「エンティティ」と呼ばれる）に使用される高度に多言語の命名エンティティリソースです。それは大量の名前リストとその複数の綴りバリエーションを含んでいます（単一の人...NLP Text

762.56M 1617

欧盟科学中心

Twitter - データセット ICWSM 2010の論文のデータは以下のリンクから取得できます。当社のデータセットはユーザー自身のプライバシーを保護するために匿名化されています。当社ではTwitterのリンク構造に関する情報のみを公開しています。...NLP Text

311.27M 1590

ICWSM

redditの250万件の投稿データアメリカのRedditニュースサイトで最も人気のある2500人の投稿者の、各メディア1000件の投稿内容とコメントのデータセット。購読者からの上位2500件のサブ評価。2013年8月から...NLP Text

437.79M 1505

reddit

Multi-Domain Sentiment Dataset--マルチドメイン感情データセット多ドメイン感情データセットには、Amazon.comから取得した多くの商品タイプ（ドメイン）の商品レビューが含まれています。一部のドメイン（書籍やDVD）には何千ものレビューがあります。他のドメイン（楽器）は...NLP Text

1.53M 1221

Mark Dredze

WMT 2011ニュースクロール機械翻訳データ WMT2011NewsCrawldataは自然言語翻訳データで、Europarlcorpusコーパスから抽出されたもので、以下を含みます：フランス語 - 英語、スペイン語 - 英語、ドイツ語 - 英語（原文未完成、「Ge」の続きがないため仮にドイツ語と推測）...NLP Text

25.01G 897

Europarl

人民日報品詞付きコーパスデータ（1998年01月）人民日報のコーパス、形態素解析と品詞タグ付け（POS）のコーパス（単語分割と品詞のための中国語コーパス）リソースは1998年1 - 6月の人民日報に関するものです。...NLP Text

2.81M 1146

人民日报

250万Reddit投稿データこれは、購読者からの上位2500のサブディレクトリのうち、上位1000の投稿の履歴データセットです。このデータは、2013年8月15日から20日の間にredditから抽出されたものです。これはreddi...NLP Text

452.85M 822

Reddit

ニュースカテゴリーデータセット、20万件のニュースタイトルを含むこのデータセットには、2012年から2018年までにHuffPostから取得した約20万件のニュースタイトルが含まれています。このデータセットで学習させたモデルは、追跡されていないニュース記事のラベルを識別するために使用できます。...NLP Text

25.44M 1331

Rishabh Misra

アイルランド・タイムズニュースデータセットこのニュースデータセットは、アイルランド国内の『アイルランド・タイムズ』が発表した148万件の見出しニュースで構成されています。160年前に創設され、この機関はヨーロッパで起こっていることを長期間観察することができます。内容...NLP Text

48.93M 858

爱尔兰时报

PubMed医学データセット：抽出された3984個の医学文が含まれていますこのデータセットには、PubMedの要約から抽出された3984個の医学文が含まれており、異なる医学用語間の関係が注釈付けされています。このデータセットは主に「治療」と「病因」の関係に焦点を当てています。...NLP Classification

9.4M 1153

appen

Europarl：統計機械翻訳用の並列コーパス（21種類の欧州言語版）このコーパスの詳細な説明については、次を読んでください：ユーロパル：統計的機械翻訳用の並列コーパス...NLP Classification

1.46G 914

University of Edinburgh

人民日報品詞付きコーパスデータ（199801）人民日報のコーパス、形態素解析と品詞タグ付け（POS）のコーパス（単語分割と品詞のための中国語コーパス）リソースは1998年の人民日報の1 - 6月分...OCR/Text Detection Classification

3.37M 993

robot

心霊雞湯テキストデータセット GitHubからの毒チャーミングな文章のテキストデータセットです。このデータはウェブサイト http://www.nows.fun/ のサイトデータです。データ量：1232件。ファイル形式はSQLです。...OCR/Text Detection Classification

125K 1156

robot

20万英語ユーモアテキストデータセット公開時間：2016年このデータベースには約208,000個のジョークがあります。現在のデータセットのファイルには、3つのソースからのジョークが含まれています。---------------------------------...OCR/Text Detection Classification

24.57M 852

robot

手話数字画像データセット手話（サイン言語とも呼ばれます）は、手動によるコミュニケーションを使って意味を伝える言語です。これには、同時にジェスチャー、動き、指、腕または体の向き、および顔の表情を用いて伝えることが含まれます...OCR/Text Detection Classification

16.4M 888

robot

自然画像におけるテキスト位置特定の合成データセットで、80万枚の画像を含むこれは総合的に生成されたデータセットであり、単語のインスタンスは自然シーンの画像の中に配置され、同時にシーンのレイアウトも考慮されています。このデータセットは80万枚の画像から構成されており、そのうち約...Image Search Classification

73.5G 1433

robot

アメリカ手話のアルファベットの画像データセットデータセットはアメリカ手話のアルファベット画像の集合で、29個のフォルダに分けられ、それぞれのカテゴリを表しています。トレーニングデータセットには87,000枚の200×200ピクセルの画像が含まれています。29個あります...NLP,Image Search Classification

1.03G 1140

robot

単語と物体を処理する際のfMRI画像データ OpenfMRIデータベース（Poldrackら、2013年；PoldrackとGorgolewski、2015年）は、MRIとEEG技術を用いて収集された脳画像データベースです。それは201...Image Search Classification

3.14G 782

robot

騰訊AI Labが大規模で高品質な中国語単語ベクトルデータをオープンソース化騰訊AI Labが今回公開した中国語単語ベクトルデータには800万以上の中国語語彙が含まれており、その中の各単語は200次元のベクトルに対応しています。既存の中国語単語ベクトルデータと比べて、騰訊AI L...NLP,MNIST Classification

39.4G 702

robot

Select Language

AI Technology Community

Today search ranking

month_search_ranking

Dataset Category

Open Dataset