Select Language

Open Dataset

GitHubのNLP分析のタイトルと説明 800万以上のGitHubでタイトルと説明が公開されています 2017年からの800万を超えるGitHubの課題タイトルと説明。「データ製品の作成方法」の指示に基づいて準備されました。...NLP,Software Classification
2.85G 751
ニュース分類データセットサンプル(thu) ニュース分類データセットサンプル(thu)...NLP Text
12M 1036
百科類質問と回答のJSON版、事前にフィルタリングされた150万個の高品質の質問と回答が含まれています このデータセットには、事前にフィルタリングされた150万個の高品質な百科事典系の質問と回答が含まれています。データセットには合計492のカテゴリがあり、そのうち頻度が10回以上に達するカテゴリは434あります。...NLP Text
1.5G 1253
街頭風景の建物番号(SVHN)データセット、オブジェクト認識アルゴリズムに使用できる実際の画像データセット SVHNは機械学習と物体認識アルゴリズムの開発に使用される実画像データセットであり、データの前処理とフォーマット化に対する要求が最低限です。それはMNISTとスタイルが似ていると見なすことができます...NLP,OCR/Text Detection,Business,Image Search 2D Box
3.91G 1980
NEOCR:自然環境OCRデータセット、659枚の現実世界の画像を含む NEOCRデータセットには659枚の現実世界の画像が含まれており、5238個の注釈付きのバウンディングボックス(テキストフィールド)が付いています。これらの画像は、複数の人によってデータセットとは独立して撮影されたものです。したがって、このデータセット...NLP,Arts and Entertainment 2D Box,Classification
1.31G 910
街景テキスト(SVT)データセット、グーグル街景からの画像データ ストリートビューテキスト(SVT)データセットはGoogleストリートビューから収集されました。このデータ内の画像テキストは高い変動性を示します...NLP,Energy 2D Box,Classification
112.7M 1512
KAISTシーンテキストデータベース KAISTシーンテキストデータセットは、異なる環境で撮影された3000枚の画像を含み、異なる照明条件(晴れた昼間、夜、強い人工照明など)下の屋外および屋内の場所が含まれます。...NLP Classification
355M 917
MSRAテキスト検出500データベース(MSRA - TD500) MSRAテキスト検出500データベース(MSRA - TD500)は、テキスト検出アルゴリズムを評価するベンチマークとして、自然画像中のテキスト検出分野の最新の進展を追跡することを目的としており、特に検出...NLP 2D Box
96.05M 1398
自然シーン画像の合成テキスト。80万枚の画像と約800万個の合成単語インスタンスを含む これは総合的に生成されたデータセットで、その中のwordインスタンスは自然シーン画像内に配置され、同時にシーンレイアウトも考慮されています。このデータセットは約80万枚の画像と約800万個の合成単語から構成されています...NLP,Animal 2D Box
37.9G 673
IIIT 5K単語データセットは、看板、店舗の看板、門番、表札、映画のポスターなどの検索キーワードを含んでいます。 IIIT 5K単語データセットはGoogle画像検索から収集されます。看板、標識、家の番号などのクエリワード......NLP Classification
101M 735
僧伽羅語の数字語彙(2.0版)、アルファベットAからM シンハラ語・プラークリト語デジタル用語集(バージョン2.0)、AからMまでの文字...NLP Classification
9.88M 799
僧伽羅語数字語彙(1.0版)、アルファベットAからMのデータセット サンスクリット語数字語彙表(1.0版)、アルファベットAからM、www.siddham.netへのリンク...NLP Classification
9.83M 740
人工知能コーパス - Ubuntu対話コーパスには2600万回の対話データが含まれています 対話システム(人間が仮想エージェントと自然な対話を行うことができる)を構築することは、自然言語処理における困難なタスクであり、多くの進行中の研究の焦点となっています。いくつかの課題には...NLP Text
2.7G 3203
Visual Question Answering V2.0 画像内容に対する自然言語での質問応答用データセット ビジュアル質問応答(VQA)は、画像内容に関する自然言語の質問と回答が画像内容に基づく必要がある、画像内容に対する自然言語の質問応答データセットです。...NLP Text
30.7G 1035
IAM最も一般的な作家の手書きデータセット50個 IAM手書きデータセットは、数人の著者の手書き文章の集合です。通常、彼らはこのデータを使用して、作家の書き方のスタイルに基づいて作家を分類します。このような問題を解決する従来の方法は...NLP Text
186.97M 1375
40万個の手書き姓名画像データセット このデータセットには、世界中の弱い立場にある子供たちを支援するために慈善事業を通じて収集された40万を超える手書きの名前が含まれています。文字認識は画像処理技術を利用して、スキャンされた文書上の文字を変換します。...NLP 2D Box
1.26G 1122
WikiText英語語彙データベース 1億個の語彙を含む英語語彙データベースのデータ WikiText英語語彙データ(TheWikiTextLongTermDependencyLanguageModelingDataset)WikiText長期依存言語モデリングデータセットは1億を含む...NLP Text
373.28M 1207
JRC Names 固有専有名詞データベース JRC-Namesは、個人および組織名(「エンティティ」と呼ばれる)に使用される高度に多言語の命名エンティティリソースです。それは大量の名前リストとその複数の綴りバリエーションを含んでいます(単一の人...NLP Text
762.56M 1614
Twitter - データセット ICWSM 2010の論文のデータは以下のリンクから取得できます。当社のデータセットはユーザー自身のプライバシーを保護するために匿名化されています。当社ではTwitterのリンク構造に関する情報のみを公開しています。...NLP Text
311.27M 1580
redditの250万件の投稿データ アメリカのRedditニュースサイトで最も人気のある2500人の投稿者の、各メディア1000件の投稿内容とコメントのデータセット。購読者からの上位2500件のサブ評価。2013年8月から...NLP Text
437.79M 1502