Select Language

Open Dataset

OCRエラーを修正する

OCRエラーを修正する

49.92M
204 hits
0 likes
0 downloads
0 discuss
Business Classification

Data Structure ? 49.92M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    文脈 これらのファイルは[ALTA 2017チャレンジ](http://www.alta.asn.au/events/sharedtask2017/index.html)で使用されました。このコンペティションは[Kaggle in Class](https://www.kaggle.com/c/alta-2017-challenge)によって主催されました。 これらのデータを使用する場合は、以下を引用してください。 D. Mollá、S. Cassidy。2017 ALTA共有タスクの概要: OCRエラーの修正(2017)。*Proc. ALTA 2017*。 [https://aclanthology.coli.uni-saarland.de/papers/U17-1014/u17-1014](https://aclanthology.coli.uni-saarland.de/papers/U17-1014/u17-1014) これらのファイルは、Kaggleのデータセットとして[http://kaggle.com/dmollaaliod/](correect-ocr-errors)で入手できます。 内容 * `convert.py` - ファイルを変換するためのPythonスクリプト * `train_input.csv` - トレーニングセット * `train_output.csv` - すべてのOCRエラーが修正されたトレーニングセット * `train_output_bigrams.csv` - トレーニングセットの解答。このファイルは、train_output.csvを入力として変換スクリプトを実行した実際の出力です。 * `test_input.csv` - テストセット * `test_baseline_bigrams.csv` - 正しい形式のサンプル提出ファイル。このファイルには、test_input.csvに含まれるバイグラムのセットが含まれており、得られるF1スコアはゼロ(またはKaggle in Classによる評価ではゼロに近い)です。 謝辞 このデータセットのソースであるオーストラリア国立図書館とその[Troveデータベース](http://trove.nla.gov.au/)に特別な感謝を表します。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 204
    • 0
    • 0
    • collect
    • Share