Select Language

Open Dataset

大型屋外中国文字OCRアノテーションデータセット、約100万個の漢字を含み、3850個の独特な文字があります。

大型屋外中国文字OCRアノテーションデータセット、約100万個の漢字を含み、3850個の独特な文字があります。

36.23G
417 hits
0 likes
3 downloads
0 discuss
Action/Event Detection Classification

この論文では、野外での非常に大規模な中国語テキストデータセットを紹介します。一方、光学文字認識(OCR)において......

Data Structure ? 36.23G

    README.md

    この論文では、野外における非常に大規模な中国語テキストデータセットを紹介します。文書画像における光学式文字認識(OCR)は十分に研究されており、多くの商用ツールが利用可能ですが、自然画像中のテキストの検出と認識は依然として難しい問題であり、特に中国語テキストのような複雑な文字セットに対してはそうです。訓練データの不足は常に問題となっており、大量の訓練データを必要とする深層学習手法にとっては特にそうです。この論文では、3万枚以上の街頭風景画像に含まれる約100万個の中国語文字(3850種類の固有文字)が専門家によってアノテーションされた、新たに作成された中国語テキストのデータセットの詳細を提供します。これは、平面テキスト、立体テキスト、照明が不十分な環境下のテキスト、遠くのテキスト、部分的に遮蔽されたテキストなどを含む、多様性に富んだ難しいデータセットです。データセットに加えて、3つのタスク(文字認識(トップ1精度80.5%)、文字検出(AP 70.9%)、およびテキスト行検出(AED 22.1%))に対して最先端の手法を用いたベースライン結果を示します。データセット、ソースコード、および学習済みモデルは公開されています。

    1. 32,285枚の高解像度画像

    2. 1,018,402個の文字インスタンス

    3. 3,850種類の文字カテゴリ

    4. 6種類の属性


    評価サーバ

    • 評価サーバはCodaLabで利用可能です。

    • トップレベルディレクトリに1つの.jsonlファイルを含む.zipファイルを提出する必要があります。分類タスクと検出タスクの提出形式と評価指標は、それぞれチュートリアルのパート2とパート3で説明されています。

    • サンプル提出物は、CodaLabの該当するコンペティションの「公開提出物」からダウンロードできます。ダウンロードする前にCodaLabにログインする必要がある場合があります。

    • 各提出物の詳細結果は、「詳細結果を表示」リンクで提供されます。

    問い合わせ

    データセットまたはコードに関する質問がある場合は、Yuan Tai - Ling(yuantailing[at]gmail.com)に連絡してください。

    文献引用形式(Bibtex):

    @article{yuan2019ctw,
      author  = {Tai{-}Ling Yuan and Zhe Zhu and Kun Xu and Cheng{-}Jun Li and Tai{-}Jiang Mu and Shi{-}Min Hu},
      title   = {A Large Chinese Text Dataset in the Wild},
      journal = {Journal of Computer Science and Technology},
      volume  = {34},
      number  = {3},
      pages   = {509--521},
      year    = {2019},
    }

    更新履歴

    • 2019年6月17日 (GMT+8): 論文を「A Large Chinese Text Dataset in the Wild」に置き換えました。

    • 2018年7月4日 (GMT+8): データセットをOneDriveに移動しました。

    • 2018年3月17日 (GMT+8): 評価サーバを利用可能にしました。

    • 2018年3月15日 (GMT+8): データセットをWeiYunとGoogle Driveで公開しました。

    • 2018年2月28日 (GMT+8): ウェブサイトをオンライン公開しました。

    利用規約

    • 公開されているアノテーションと学習済みモデルはCSCGグループに属し、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0国際ライセンスの下でライセンスされています。

    • 画像はテンセント株式会社に属し、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0国際ライセンスの下でライセンスされています。

    • ほとんどのベースラインコードはYuan Tai - Lingに属し、MITライセンスの下でライセンスされています。


    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:35 Go earn points?
    • 417
    • 3
    • 0
    • collect
    • Share