Open Dataset

QMNIST

20.34M

1037 hits

1 likes

4 downloads

0 discuss

MNIST Classification

MNISTデータセットを構築するために使用された正確な前処理手順は長い間失われています。これにより、我々には信頼できる方法がなくなりまし......

Introduction
Data file
Related papers
Code
Discuss(0)
Instructions

Data Structure ? 20.34M

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

MNISTデータセットを構築するために使用された正確な前処理手順は、長い間失われています。このため、文字を書いた人のIDと関連付ける信頼できる方法がなく、60,000枚の画像を持っていたが公開されたことのない完全なMNISTテストセットを回復する見込みもほとんどありません。公式のMNISTテストセットには、たった10,000枚のランダムにサンプリングされた画像しか含まれており、有意義な信頼区間を提供するには小さすぎると考えられることが多いです。

QMNISTデータセットは、NIST Special Database 19にある元のデータから生成され、できるだけMNISTの前処理に合わせることを目的としています。

QMNISTの使用方法

以下では、複雑さを増す順にQMNISTの使用方法を説明します。

更新 - 以下の2.4節で説明するPytorch QMNISTローダーは、現在torchvisionに含まれています。

QMNIST拡張テストセットの使用方法

QMNIST拡張テストセットを使用する最も簡単な方法は、以下の2つのファイルをダウンロードすることです。これらのgzip圧縮ファイルは、標準のMNISTデータファイルと同じ形式ですが、60,000件のテストサンプルが含まれています。最初の10,000件のサンプルは、標準のMNISTテスト数字のQMNIST再構築です。それに続く50,000件のサンプルは、失われたMNISTテスト数字の再構築です。

ファイル名	形式	説明
`qmnist-test-images-idx3-ubyte.gz`	60000×28x28	テスト画像
`qmnist-test-labels-idx1-ubyte.gz`	60000	テストラベル

QMNIST拡張ラベルの使用方法

公式のNISTトレーニングデータ（シリーズhsf0からhsf3、書き手0から2099）は、NISTの従業員によって書かれたものです。公式のテストデータ（シリーズhsf4、書き手2100から2599）は、高校生によって書かれたもので、大幅に難しいと考えられています。機械学習は、トレーニングデータとテストデータが同じ分布に従っている場合により良く機能するため、MNISTデータセットの作成者は、両方のシリーズの書き手をトレーニングセットとテストセットに分配することを決定しました。QMNIST拡張ラベルは、各トレーニングまたはテスト数字をNIST Special Database 19のソースに追跡します。QMNISTトレーニングセットとQMNISTテストセットの最初の10,000件のサンプルは、MNISTトレーニングおよびテスト数字と正確に一致するため、この情報は標準のMNISTデータセットにも使用できます。拡張ラベルは、以下のファイルに含まれています。

ファイル名	形式	説明
`qmnist-train-labels-idx2-int.gz`	60000x8	拡張トレーニングラベル
`qmnist-train-labels.tsv.gz`	60000x8	同じ内容のタブ区切りファイル
`qmnist-test-labels-idx2-int.gz`	60000x8	拡張テストラベル
`qmnist-test-labels.tsv.gz`	60000x8	同じ内容のタブ区切りファイル

これらのgzip圧縮ファイルの形式は、標準のMNISTラベルファイルの形式と非常に似ています。ただし、符号なしバイトの一次元テンソル（idx1-ubyte）ではなく、ラベルテンソルは8列の整数の二次元テンソル（idx2-int）です。

列	説明	範囲
0	文字クラス	0から9
1	NIST HSFシリーズ	0、1、または4
2	NIST書き手ID	0 - 610および2100 - 2599
3	この書き手の数字インデックス	0から149
4	NISTクラスコード	30 - 39
5	グローバルNIST数字インデックス	0から281769
6	重複	0
7	未使用	0

バイナリファイルidx2-intは、この情報をビッグエンディアンの32ビット整数のシーケンスとしてエンコードします。

オフセット	タイプ	値	説明
0	32ビット整数	0×0c02(3074)	マジックナンバー
4	32ビット整数	60000	行数
8	32ビット整数	8	列数
12..	32ビット整数	...	行優先順でのデータ

多くの要望に応えて、同じ情報をTSVファイルとしても提供しています。

QMNISTデータファイル

QMNIST配布物には、実際には以下のファイルが含まれています。

ファイル名	形式	説明
`qmnist-train-images-idx3-ubyte.gz`	60000×28x28	トレーニング画像
`qmnist-train-labels-idx2-int.gz`	60000x8	拡張トレーニングラベル
`qmnist-train-labels.tsv.gz`	60000x8	同じ内容のタブ区切りファイル
`qmnist-test-images-idx3-ubyte.gz`	60000×28x28	テスト画像
`qmnist-test-labels-idx2-int.gz`	60000x8	拡張テストラベル
`qmnist-test-labels.tsv.gz`	60000x8	同じ内容のタブ区切りファイル
`xnist-images-idx3-ubyte.xz`	402953x28x28	NIST数字画像
`xnist-labels-idx2-int.xz`	402953x8	NIST数字拡張ラベル
`xnist-labels.tsv.xz`	402953x8	同じ内容のタブ区切りファイル

.gz拡張子のファイルはgzip圧縮されており、標準コマンドgunzipで解凍できます。.xz拡張子のファイルはLZMA圧縮されており、標準コマンドunxzを使用して解凍できます。

QMNISTトレーニングサンプルは、MNISTトレーニングサンプルと1対1で、かつ同じ順序で一致します。QMNISTテストサンプルの最初の10,000件は、MNISTテストサンプルと1対1で、かつ同じ順序で一致します。xnist-*データファイルは、NIST Special Database 19に含まれるすべての数字の前処理済み画像と拡張ラベルを、パーティションと書き手の順序で提供します。拡張ラベルの列5には、このファイル内の各数字のインデックスが記載されています。NISTデータセットには3つの重複数字が見つかりました。拡張ラベルの列6には、その数字が重複する数字のインデックスが含まれています。重複数字はQMNIST/MNISTトレーニングセットとテストセットから除外されているため、qmnist-*拡張ラベルファイルではこのようなことは起こりません。

Pytorch QMNISTローダー

更新 - ここで説明するPytorch QMNISTローダーは、現在torchvisionに含まれています。

ファイルqmnist.pyには、人気のあるPytorchプラットフォーム用のQMNISTデータローダーが含まれています。このローダーは、pytorch.pyと同じディレクトリにあるQMNISTデータファイルを読み込むか、オプションdownload=Trueを指定するとWebからダウンロードします。このデータローダーは、標準のPytorch MNISTデータローダーと互換性があり、追加の機能も提供しています。これらの機能のドキュメントは、pytorch.py内のコメントで確認するのが最適です。

以下はいくつかの例です。

from qmnist import QMNIST

# qmnistトレーニングセット、見つからない場合はWebからダウンロード
qtrain = QMNIST('_qmnist', train=True, download=True)

# qmnistテストセット、ダウンロードしない
qtest = QMNIST('_qmnist', train=False)

# qmnistテストセットの最初の10k件と拡張ラベル
# (ターゲットは8つの整数のtorchベクトル)
qtest10k = QMNIST('_qmnist', what='test10k', compat=False, download='True')

# すべてのNIST数字と拡張ラベル
qall =

No content available at the moment

Share your thoughts

Go share your ideas~~

ALL

Welcome to exchange and share

Your sharing can help others better utilize data.

Data usage instructions:

I. Data Source and Display Explanation:

1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.

2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.

3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.

II. Ownership Explanation:

1. All datasets on this site are copyrighted by their original publishers or data providers.

III. Data Reposting Explanation:

1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.

IV. Infringement and Handling Explanation:

1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.

Points：

10 Go earn points？

1037
4
1
collect
Share

Select Language

AI Technology Community

Today search ranking

month_search_ranking

Dataset Category

Open Dataset

QMNIST

Data Structure ? 20.34M

Data Structure ?

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

QMNISTの使用方法

QMNIST拡張テストセットの使用方法

QMNIST拡張ラベルの使用方法

QMNISTデータファイル

Pytorch QMNISTローダー

Similar Data

The dataset is currently being organized and other channels have been prepared for you. Please use them

The dataset is currently being organized and other channels have been prepared for you. Please use them

ALL

I. Data Source and Display Explanation:

II. Ownership Explanation:

III. Data Reposting Explanation:

IV. Infringement and Handling Explanation: