Open Dataset
Data Structure ?
1.31G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
NEOCRデータセットには、659枚の現実世界の画像が含まれており、5238個の注釈付きのバウンディングボックス(テキストフィールド)が付いています。これらの画像は、データセットとは独立して複数の人によって撮影されたもので、そのためデータセットには、現実世界の画像とスキャンされたドキュメントを区別する幅広い特徴が含まれています。すべての画像に対して、人間が認識できるすべてのテキストが注釈付けされています。各メタデータ次元について、データセットに少なくとも100個のテキストフィールドが含まれると、データセットの作成プロセスは停止します。
NEOCRデータセットのサンプル画像です。このデータセットには、異なる言語のテキストを含む画像、文字が縦に配置されたテキスト、暗い背景に明るいテキストや明るい背景に暗いテキスト、隠れている部分、コントラストの良いものや悪いものなども含まれています。
グラウンドトゥルースには、可視テキストだけでなく、バウンディングボックスよりも正確に可視テキストを囲む歪んだ四角形も含まれています。このデータセットには、輝度、コントラスト、反転、テクスチャ、解像度、ノイズ、ぼかし、歪み、回転、文字配置、隠れ、フォント、言語情報などの豊富なメタデータが含まれています。注釈は、LabelMeスキーマに基づくXML形式で提供されます。
メタデータとグラウンドトゥルースデータ
注釈は、LabelMe注釈ツールを改変して手動で作成されました。すべての画像に対して、人間が視認できて認識できるすべてのテキストが注釈付けされています。注釈はXML形式で提供され、LabelMeのスキーマは私たちのニーズに合わせて拡張されています。拡張されたXMLスキーマもデータセットの一部として提供されています。メタデータは、グローバルとローカルで提供されます。
NEOCRデータセットの画像に含まれるさまざまなテキストの特徴の例と、グラウンドトゥルースのバウンディングボックスと歪み四角形です。
グローバルな画像メタデータには、ファイル名、フォルダ、ソース情報、画像の幅、高さ、深度、輝度、コントラストが含まれます。テキストフィールド(ローカル、バウンディングボックス)のメタデータには、可視テキストと光学的、幾何学的、印刷学的な特徴が含まれます。バウンディングボックスは長方形で、軸に平行です。さらに、可視テキストをより正確に囲む歪み四角形も提供されています。
グラウンドトゥルースの作成に使用された LabelMe インターフェースです。
光学的特徴には、テクスチャ、輝度、コントラスト、反転、解像度、ノイズ、ぼかし情報が含まれます。テクスチャ、ノイズ、反転は手動で注釈付けされ、残りはImageMagickを使用して自動的に計算されました。幾何学的特徴には、歪み、回転、文字配置、隠れ情報が含まれます。印刷学的特徴には、書体と言語のメタデータが含まれます。メタデータの詳細については、CBDAR論文 [1]、技術報告書 [2]、または メタデータドキュメント を参照してください。
関連タスク
参考文献
R. Nagy、A. Dicker、K. Meyer‐Wegener著、「NEOCR: A Configurable Dataset for Natural Image Text Recognition」。2011年9月、ICDAR 2011におけるCBDARワークショップ。pp. 53‐58。 (PDF)、 (プレゼンテーション)
R. Nagy、A. Dicker、K. Meyer‐Wegener著、「Definition and evaluation of the NEOCR Dataset for Natural‐Image Text Recognition」。エルランゲン大学、コンピュータサイエンス学科、技術報告書、CS‐2011‐07、2011年9月。 (PDF)
提出ファイル
免責事項
データセットをダウンロードして使用することにより、そのソースを認め、関連する出版物で上記の論文を引用することに同意するものとします。セットの作者のWebページに http://www6.cs.fau.de/neocr とリンクしてください。
連絡先の著者
ロバート・ナギ エルランゲン=ニュルンベルク大学 コンピュータサイエンス第6講座(データ管理) マトレンストラーセ3 D-91058 エルランゲン ドイツ Email: robert[dot]nagy [at] cs[dot]fau[dot]de
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.