Open Dataset
Data Structure ?
423.21M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
## 背景 ##
![scroll][1]
記録された歴史文書は私たちに過去を垣間見る機会を与えます。私たちは自分たちの時代以前の世界を垣間見ることができ、その文化、規範、価値観を見て、自分たち自身を振り返ることができます。日本には非常に独特な歴史的進路があります。歴史的に、日本とその文化は西洋から比較的孤立していましたが、1868年の明治維新により、日本の指導者たちが教育制度を改革し、文化を近代化させました。これにより、日本語、表記法、印刷システムに劇的な変化がもたらされました。この時代の日本語の近代化により、草書体のくずし字は公式の学校カリキュラムで教えられなくなりました。くずし字は1000年以上使われてきましたが、現在の日本人の多くは150年以上前に書かれたり出版された本を読むことができません。
その結果、数十万のくずし字テキストがデジタル化されていますが、転写されたことがなく、現在は少数の専門家しか読むことができません。私たちは、これらのテキストから手書き文字を取り出し、MNISTデータセットと同様の形式で前処理することで、Kuzushiji - MNISTとその関連データセットを構築しました。これにより、元のMNISTデータセットよりも現代的で分類が難しい、使いやすいベンチマークデータセットを作成しました。
これらのデータセットを公開することで、日本文学と機械学習の分野を結びつけることも期待しています。
?? [論文を読む](https://arxiv.org/abs/1812.01718) くずし字、データセット、およびそれらを作成した動機について詳しく学びましょう!
## データセット ##
1. **Kuzushiji - MNIST** は、MNISTデータセット(28x28グレースケール、70,000枚の画像)の代替品で、元のMNIST形式とNumPy形式で提供されます。MNISTは10クラスに制限されているため、Kuzushiji - MNISTを作成する際に、ひらがなの10行それぞれを代表する1文字を選びました。
- `kmnist - [train/test] - [images/labels].npz`:これらのファイルには、Kuzushiji - MNISTが圧縮されたNumPy配列として含まれており、`arr = np.load(filename)['arr_0']` で読み取ることができます。これらのファイルを使ってデータセットを読み込むことをおすすめします。
- `[train/t10k] - [images/labels] - idx[1/3] - ubyte.gz`:これらのファイルには、元のMNISTと同じファイル形式とファイル名で `Kuzushiji - MNIST` が含まれており、そのまま互換性があります。
- `kmnist - classmap.csv`:Kuzushiji - MNISTのクラスIDからUnicode文字へのマッピング
最初の列が現代のひらがなに対応するKuzushiji - MNISTの例:
![Kuzushiji - MNISTの例][2]
2. **Kuzushiji - 49** は、名前が示すように49クラス(28x28グレースケール、270,912枚の画像)を持ち、はるかに大きく、不均衡なデータセットで、48文字のひらがなと1つのひらがなの返り点が含まれています。
- `k49 - [train/test] - [images/labels].npz`:これらのファイルには、Kuzushiji - 49が圧縮されたNumPy配列として含まれています。
- `k49 - classmap.csv`:Kuzushiji - 49のクラスIDからUnicode文字へのマッピング
3. **Kuzushiji - Kanji** は、合計3832文字の漢字の不均衡なデータセット(64x64グレースケール、140,426枚の画像)で、クラスごとに1,766個の例からたった1個の例までさまざまです。*このデータセットの学習用とテスト用の分割データも近日公開する予定です。*
- `kkanji2/`:このフォルダには画像のサブフォルダが含まれており、各サブフォルダは1つの漢字クラスに対応しています。
![Kuzushiji - Kanjiの例][3]
## ライセンス ##
このデータセットは、帰属表示が必要な許容的なCC BY - SA 4.0ライセンスの下で提供されています。KMNISTデータセットには、以下の帰属表示を使用することをおすすめします。
"KMNIST Dataset"(CODHによって作成)、"Kuzushiji Dataset"(NIJLなどによって作成)から改変、doi:10.20676/00000341
[1]: https://i.imgur.com/dhBM3BG.jpg
[2]: https://raw.githubusercontent.com/rois - codh/kmnist/master/images/kmnist_examples.png
[3]: https://raw.githubusercontent.com/rois - codh/kmnist/master/images/kkanji_examples.png
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.