Select Language

Open Dataset

GitHubのNLP分析のタイトルと説明 800万以上のGitHubでタイトルと説明が公開されています 2017年からの800万を超えるGitHubの課題タイトルと説明。「データ製品の作成方法」の指示に基づいて準備されました。...NLP,Software Classification
2.85G 751
街頭風景の建物番号(SVHN)データセット、オブジェクト認識アルゴリズムに使用できる実際の画像データセット SVHNは機械学習と物体認識アルゴリズムの開発に使用される実画像データセットであり、データの前処理とフォーマット化に対する要求が最低限です。それはMNISTとスタイルが似ていると見なすことができます...NLP,OCR/Text Detection,Business,Image Search 2D Box
3.91G 1980
街景テキスト(SVT)データセット、グーグル街景からの画像データ ストリートビューテキスト(SVT)データセットはGoogleストリートビューから収集されました。このデータ内の画像テキストは高い変動性を示します...NLP,Energy 2D Box,Classification
112.7M 1512
KAISTシーンテキストデータベース KAISTシーンテキストデータセットは、異なる環境で撮影された3000枚の画像を含み、異なる照明条件(晴れた昼間、夜、強い人工照明など)下の屋外および屋内の場所が含まれます。...NLP Classification
355M 916
MSRAテキスト検出500データベース(MSRA - TD500) MSRAテキスト検出500データベース(MSRA - TD500)は、テキスト検出アルゴリズムを評価するベンチマークとして、自然画像中のテキスト検出分野の最新の進展を追跡することを目的としており、特に検出...NLP 2D Box
96.05M 1398
自然シーン画像の合成テキスト。80万枚の画像と約800万個の合成単語インスタンスを含む これは総合的に生成されたデータセットで、その中のwordインスタンスは自然シーン画像内に配置され、同時にシーンレイアウトも考慮されています。このデータセットは約80万枚の画像と約800万個の合成単語から構成されています...NLP,Animal 2D Box
37.9G 673
IIIT 5K単語データセットは、看板、店舗の看板、門番、表札、映画のポスターなどの検索キーワードを含んでいます。 IIIT 5K単語データセットはGoogle画像検索から収集されます。看板、標識、家の番号などのクエリワード......NLP Classification
101M 735
IAM最も一般的な作家の手書きデータセット50個 IAM手書きデータセットは、数人の著者の手書き文章の集合です。通常、彼らはこのデータを使用して、作家の書き方のスタイルに基づいて作家を分類します。このような問題を解決する従来の方法は...NLP Text
186.97M 1374
40万個の手書き姓名画像データセット このデータセットには、世界中の弱い立場にある子供たちを支援するために慈善事業を通じて収集された40万を超える手書きの名前が含まれています。文字認識は画像処理技術を利用して、スキャンされた文書上の文字を変換します。...NLP 2D Box
1.26G 1122
Twitter - データセット ICWSM 2010の論文のデータは以下のリンクから取得できます。当社のデータセットはユーザー自身のプライバシーを保護するために匿名化されています。当社ではTwitterのリンク構造に関する情報のみを公開しています。...NLP Text
311.27M 1579
redditの250万件の投稿データ アメリカのRedditニュースサイトで最も人気のある2500人の投稿者の、各メディア1000件の投稿内容とコメントのデータセット。購読者からの上位2500件のサブ評価。2013年8月から...NLP Text
437.79M 1500
Multi-Domain Sentiment Dataset--マルチドメイン感情データセット 多ドメイン感情データセットには、Amazon.comから取得した多くの商品タイプ(ドメイン)の商品レビューが含まれています。一部のドメイン(書籍やDVD)には何千ものレビューがあります。他のドメイン(楽器)は...NLP Text
1.53M 1210
WMT 2011ニュースクロール機械翻訳データ WMT2011NewsCrawldataは自然言語翻訳データで、Europarlcorpusコーパスから抽出されたもので、以下を含みます:フランス語 - 英語、スペイン語 - 英語、ドイツ語 - 英語(原文未完成、「Ge」の続きがないため仮にドイツ語と推測)...NLP Text
25.01G 894
250万Reddit投稿データ これは、購読者からの上位2500のサブディレクトリのうち、上位1000の投稿の履歴データセットです。このデータは、2013年8月15日から20日の間にredditから抽出されたものです。これはreddi...NLP Text
452.85M 815
ニュースカテゴリーデータセット、20万件のニュースタイトルを含む このデータセットには、2012年から2018年までにHuffPostから取得した約20万件のニュースタイトルが含まれています。このデータセットで学習させたモデルは、追跡されていないニュース記事のラベルを識別するために使用できます。...NLP Text
25.44M 1317
アイルランド・タイムズニュースデータセット このニュースデータセットは、アイルランド国内の『アイルランド・タイムズ』が発表した148万件の見出しニュースで構成されています。160年前に創設され、この機関はヨーロッパで起こっていることを長期間観察することができます。内容...NLP Text
48.93M 853
Europarl:統計機械翻訳用の並列コーパス(21種類の欧州言語版) このコーパスの詳細な説明については、次を読んでください:ユーロパル:統計的機械翻訳用の並列コーパス...NLP Classification
1.46G 910
単語レベルに基づく英語曲線テキスト検出データセット(TOTAL - TEXT) 合計でこのテキストは1555枚の画像から構成されており、これらの画像には水平、多方向、湾曲(1種)といった3種類以上の異なるテキスト方向があります。データ引用:@article{CK2019,著者}...NLP Classification
441M 828
0M 692
機械翻訳データセット MNIST Classification
15G 726