Open Dataset
Data Structure ?
36.23G
README.md
この論文では、野外における非常に大規模な中国語テキストデータセットを紹介します。文書画像における光学式文字認識(OCR)は十分に研究されており、多くの商用ツールが利用可能ですが、自然画像中のテキストの検出と認識は依然として難しい問題であり、特に中国語テキストのような複雑な文字セットに対してはそうです。訓練データの不足は常に問題となっており、大量の訓練データを必要とする深層学習手法にとっては特にそうです。この論文では、3万枚以上の街頭風景画像に含まれる約100万個の中国語文字(3850種類の固有文字)が専門家によってアノテーションされた、新たに作成された中国語テキストのデータセットの詳細を提供します。これは、平面テキスト、立体テキスト、照明が不十分な環境下のテキスト、遠くのテキスト、部分的に遮蔽されたテキストなどを含む、多様性に富んだ難しいデータセットです。データセットに加えて、3つのタスク(文字認識(トップ1精度80.5%)、文字検出(AP 70.9%)、およびテキスト行検出(AED 22.1%))に対して最先端の手法を用いたベースライン結果を示します。データセット、ソースコード、および学習済みモデルは公開されています。
1. 32,285枚の高解像度画像
2. 1,018,402個の文字インスタンス
3. 3,850種類の文字カテゴリ
4. 6種類の属性
評価サーバ
評価サーバはCodaLabで利用可能です。
トップレベルディレクトリに1つの
.jsonl
ファイルを含む.zip
ファイルを提出する必要があります。分類タスクと検出タスクの提出形式と評価指標は、それぞれチュートリアルのパート2とパート3で説明されています。サンプル提出物は、CodaLabの該当するコンペティションの「公開提出物」からダウンロードできます。ダウンロードする前にCodaLabにログインする必要がある場合があります。
各提出物の詳細結果は、「詳細結果を表示」リンクで提供されます。
問い合わせ
データセットまたはコードに関する質問がある場合は、Yuan Tai - Ling(yuantailing[at]gmail.com)に連絡してください。
文献引用形式(Bibtex):
@article{yuan2019ctw, author = {Tai{-}Ling Yuan and Zhe Zhu and Kun Xu and Cheng{-}Jun Li and Tai{-}Jiang Mu and Shi{-}Min Hu}, title = {A Large Chinese Text Dataset in the Wild}, journal = {Journal of Computer Science and Technology}, volume = {34}, number = {3}, pages = {509--521}, year = {2019}, }
更新履歴
2019年6月17日 (GMT+8): 論文を「A Large Chinese Text Dataset in the Wild」に置き換えました。
2018年7月4日 (GMT+8): データセットをOneDriveに移動しました。
2018年3月17日 (GMT+8): 評価サーバを利用可能にしました。
2018年3月15日 (GMT+8): データセットをWeiYunとGoogle Driveで公開しました。
2018年2月28日 (GMT+8): ウェブサイトをオンライン公開しました。
利用規約
公開されているアノテーションと学習済みモデルはCSCGグループに属し、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0国際ライセンスの下でライセンスされています。
画像はテンセント株式会社に属し、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0国際ライセンスの下でライセンスされています。
ほとんどのベースラインコードはYuan Tai - Lingに属し、MITライセンスの下でライセンスされています。
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.