Open Dataset
Data Structure ?
20.34M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
MNISTデータセットを構築するために使用された正確な前処理手順は、長い間失われています。このため、文字を書いた人のIDと関連付ける信頼できる方法がなく、60,000枚の画像を持っていたが公開されたことのない完全なMNISTテストセットを回復する見込みもほとんどありません。公式のMNISTテストセットには、たった10,000枚のランダムにサンプリングされた画像しか含まれており、有意義な信頼区間を提供するには小さすぎると考えられることが多いです。
QMNISTデータセットは、NIST Special Database 19にある元のデータから生成され、できるだけMNISTの前処理に合わせることを目的としています。
QMNISTの使用方法
以下では、複雑さを増す順にQMNISTの使用方法を説明します。
更新 - 以下の2.4節で説明するPytorch QMNISTローダーは、現在torchvisionに含まれています。
QMNIST拡張テストセットの使用方法
QMNIST拡張テストセットを使用する最も簡単な方法は、以下の2つのファイルをダウンロードすることです。これらのgzip圧縮ファイルは、標準のMNISTデータファイルと同じ形式ですが、60,000件のテストサンプルが含まれています。最初の10,000件のサンプルは、標準のMNISTテスト数字のQMNIST再構築です。それに続く50,000件のサンプルは、失われたMNISTテスト数字の再構築です。
ファイル名 | 形式 | 説明 |
---|---|---|
qmnist-test-images-idx3-ubyte.gz | 60000×28x28 | テスト画像 |
qmnist-test-labels-idx1-ubyte.gz | 60000 | テストラベル |
QMNIST拡張ラベルの使用方法
公式のNISTトレーニングデータ(シリーズhsf0からhsf3、書き手0から2099)は、NISTの従業員によって書かれたものです。公式のテストデータ(シリーズhsf4、書き手2100から2599)は、高校生によって書かれたもので、大幅に難しいと考えられています。機械学習は、トレーニングデータとテストデータが同じ分布に従っている場合により良く機能するため、MNISTデータセットの作成者は、両方のシリーズの書き手をトレーニングセットとテストセットに分配することを決定しました。QMNIST拡張ラベルは、各トレーニングまたはテスト数字をNIST Special Database 19のソースに追跡します。QMNISTトレーニングセットとQMNISTテストセットの最初の10,000件のサンプルは、MNISTトレーニングおよびテスト数字と正確に一致するため、この情報は標準のMNISTデータセットにも使用できます。拡張ラベルは、以下のファイルに含まれています。
ファイル名 | 形式 | 説明 |
---|---|---|
qmnist-train-labels-idx2-int.gz | 60000x8 | 拡張トレーニングラベル |
qmnist-train-labels.tsv.gz | 60000x8 | 同じ内容のタブ区切りファイル |
qmnist-test-labels-idx2-int.gz | 60000x8 | 拡張テストラベル |
qmnist-test-labels.tsv.gz | 60000x8 | 同じ内容のタブ区切りファイル |
これらのgzip圧縮ファイルの形式は、標準のMNISTラベルファイルの形式と非常に似ています。ただし、符号なしバイトの一次元テンソル(idx1-ubyte
)ではなく、ラベルテンソルは8列の整数の二次元テンソル(idx2-int
)です。
列 | 説明 | 範囲 |
---|---|---|
0 | 文字クラス | 0から9 |
1 | NIST HSFシリーズ | 0、1、または4 |
2 | NIST書き手ID | 0 - 610および2100 - 2599 |
3 | この書き手の数字インデックス | 0から149 |
4 | NISTクラスコード | 30 - 39 |
5 | グローバルNIST数字インデックス | 0から281769 |
6 | 重複 | 0 |
7 | 未使用 | 0 |
バイナリファイルidx2-int
は、この情報をビッグエンディアンの32ビット整数のシーケンスとしてエンコードします。
オフセット | タイプ | 値 | 説明 |
---|---|---|---|
0 | 32ビット整数 | 0×0c02(3074) | マジックナンバー |
4 | 32ビット整数 | 60000 | 行数 |
8 | 32ビット整数 | 8 | 列数 |
12.. | 32ビット整数 | ... | 行優先順でのデータ |
多くの要望に応えて、同じ情報をTSVファイルとしても提供しています。
QMNISTデータファイル
QMNIST配布物には、実際には以下のファイルが含まれています。
ファイル名 | 形式 | 説明 |
---|---|---|
qmnist-train-images-idx3-ubyte.gz | 60000×28x28 | トレーニング画像 |
qmnist-train-labels-idx2-int.gz | 60000x8 | 拡張トレーニングラベル |
qmnist-train-labels.tsv.gz | 60000x8 | 同じ内容のタブ区切りファイル |
qmnist-test-images-idx3-ubyte.gz | 60000×28x28 | テスト画像 |
qmnist-test-labels-idx2-int.gz | 60000x8 | 拡張テストラベル |
qmnist-test-labels.tsv.gz | 60000x8 | 同じ内容のタブ区切りファイル |
xnist-images-idx3-ubyte.xz | 402953x28x28 | NIST数字画像 |
xnist-labels-idx2-int.xz | 402953x8 | NIST数字拡張ラベル |
xnist-labels.tsv.xz | 402953x8 | 同じ内容のタブ区切りファイル |
.gz
拡張子のファイルはgzip圧縮されており、標準コマンドgunzip
で解凍できます。.xz
拡張子のファイルはLZMA圧縮されており、標準コマンドunxz
を使用して解凍できます。
QMNISTトレーニングサンプルは、MNISTトレーニングサンプルと1対1で、かつ同じ順序で一致します。QMNISTテストサンプルの最初の10,000件は、MNISTテストサンプルと1対1で、かつ同じ順序で一致します。xnist-*
データファイルは、NIST Special Database 19に含まれるすべての数字の前処理済み画像と拡張ラベルを、パーティションと書き手の順序で提供します。拡張ラベルの列5には、このファイル内の各数字のインデックスが記載されています。NISTデータセットには3つの重複数字が見つかりました。拡張ラベルの列6には、その数字が重複する数字のインデックスが含まれています。重複数字はQMNIST/MNISTトレーニングセットとテストセットから除外されているため、qmnist-*
拡張ラベルファイルではこのようなことは起こりません。
Pytorch QMNISTローダー
更新 - ここで説明するPytorch QMNISTローダーは、現在torchvisionに含まれています。
ファイルqmnist.py
には、人気のあるPytorchプラットフォーム用のQMNISTデータローダーが含まれています。このローダーは、pytorch.py
と同じディレクトリにあるQMNISTデータファイルを読み込むか、オプションdownload=True
を指定するとWebからダウンロードします。このデータローダーは、標準のPytorch MNISTデータローダーと互換性があり、追加の機能も提供しています。これらの機能のドキュメントは、pytorch.py
内のコメントで確認するのが最適です。
以下はいくつかの例です。
from qmnist import QMNIST # qmnistトレーニングセット、見つからない場合はWebからダウンロード qtrain = QMNIST('_qmnist', train=True, download=True) # qmnistテストセット、ダウンロードしない qtest = QMNIST('_qmnist', train=False) # qmnistテストセットの最初の10k件と拡張ラベル # (ターゲットは8つの整数のtorchベクトル) qtest10k = QMNIST('_qmnist', what='test10k', compat=False, download='True') # すべてのNIST数字と拡張ラベル qall = 
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.