Select Language

Open Dataset

NumtaDB:ベンガル語の手書き数字

NumtaDB:ベンガル語の手書き数字

1946.44M
639 hits
0 likes
6 downloads
0 discuss
Business,Image Data,Computer Vision Classification

注意:このページはカーネル、スターターコード、およびディスカッションに使用されます。コンペティションのルール、評価指標については......

Data Structure ? 1946.44M

    README.md

    注意: このページはカーネル、スターターコード、およびディスカッションに使用されます。コンペティションのルール、評価指標の説明、新しいチームの登録、データのダウンロード、および結果の提出については、[こちら](https://www.kaggle.com/c/numta)をクリックしてください。 背景

    現在、人工知能(AI)の台頭により、自然言語処理(NLP)の研究が急速に発展しています。NLPの重要なトピックの1つが光学文字認識(OCR)です。ベンガル語のOCRを構築するには、数字分類が便利な出発点となります。 我々は、研究者がアルゴリズムのベンチマークに使用できる大規模なベンガル語数字のデータセット(85,000以上)(NumtaDB)を蓄積しています。

    内容 このデータセットは、異なるソースと時期に収集された6つのデータセットの組み合わせです。ただし、それぞれのデータセットは同じ評価基準の下で厳密にチェックされ、すべての数字が事前知識のない人間に少なくとも読めるようになっています。 これらのデータセットの収集方法、画像の分割と抽出、および画像形式を含む説明は、[https://bengali.ai/datasets](https://bengali.ai/datasets)に記載されています。 ソースは、'a'から'f'までラベル付けされています。トレーニングセットとテストセットは、データのソースに応じて別々のサブセットに分けられています(トレーニング - a、テスト - aなど)。すべてのデータセットは、同じ被験者/貢献者の手書き文字が両方に含まれないように、トレーニングセットとテストセットに分割されています。データセット - fには、貢献者に関する対応するメタデータがなかったため、すべてがテストセット(テスト - f)に追加されました。コンペティションの評価指標は、加重平均精度(UAA)に設定されています。コンペティションのスターターコードは、[https://github.com/BengaliAI](https://github.com/BengaliAI)で入手できます。 *2つの拡張データセット(データセット 'a' と 'c' のテスト画像から拡張されたもの)が、以下の拡張を含むテストセットに追加されています:* - 空間変換: 回転、平行移動、せん断、高さ/幅のシフト、チャンネルシフト、ズーム。 - 明るさ、コントラスト、彩度、色相のシフト、ノイズ。 - 遮蔽。 - 重ね合わせ(ページの裏側から文字が見える効果をシミュレートするため)。 インスピレーション もしあなたがベンガル語の機械学習愛好者であれば、これはあなたの母国語のデータセットを使用してコンピュータビジョンアルゴリズムに慣れる良い出発点です。 また、拡張されたテスト画像は、学習者に画像拡張について学び、独自の画像拡張パイプラインを実装するように促します。 謝辞 データセット 'e' の数字は、[BanglaLekha - Isolated](https://www.sciencedirect.com/science/article/pii/S2352340917301117) の収集および精選されたバージョンです。これを我々のデータベースに統合する許可を与えてくれた研究者に感謝します。 この資料を引用する場合は、以下の論文を引用してください。 [NumtaDB - Assembled Bengali Handwritten Digits](https://arxiv.org/abs/1806.02452) **Bibtex** @article{alam2018numtadb, title={NumtaDB - Assembled Bengali Handwritten Digits}, author={Alam, Samiul and Reasat, Tahsin and Doha, Rashed Mohammad and Humayun, Ahmed Imtiaz}, journal={arXiv preprint arXiv:1806.02452}, year={2018} }

    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 639
    • 6
    • 0
    • collect
    • Share