Select Language

Open Dataset

QMNIST

QMNIST

20.34M
1037 hits
1 likes
4 downloads
0 discuss
MNIST Classification

MNISTデータセットを構築するために使用された正確な前処理手順は長い間失われています。これにより、我々には信頼できる方法がなくなりまし......

Data Structure ? 20.34M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    MNISTデータセットを構築するために使用された正確な前処理手順は、長い間失われています。このため、文字を書いた人のIDと関連付ける信頼できる方法がなく、60,000枚の画像を持っていたが公開されたことのない完全なMNISTテストセットを回復する見込みもほとんどありません。公式のMNISTテストセットには、たった10,000枚のランダムにサンプリングされた画像しか含まれており、有意義な信頼区間を提供するには小さすぎると考えられることが多いです。

    QMNISTデータセットは、NIST Special Database 19にある元のデータから生成され、できるだけMNISTの前処理に合わせることを目的としています。

    QMNISTの使用方法

    以下では、複雑さを増す順にQMNISTの使用方法を説明します。

    更新 - 以下の2.4節で説明するPytorch QMNISTローダーは、現在torchvisionに含まれています。

    QMNIST拡張テストセットの使用方法

    QMNIST拡張テストセットを使用する最も簡単な方法は、以下の2つのファイルをダウンロードすることです。これらのgzip圧縮ファイルは、標準のMNISTデータファイルと同じ形式ですが、60,000件のテストサンプルが含まれています。最初の10,000件のサンプルは、標準のMNISTテスト数字のQMNIST再構築です。それに続く50,000件のサンプルは、失われたMNISTテスト数字の再構築です。

    ファイル名形式説明
    qmnist-test-images-idx3-ubyte.gz60000×28x28テスト画像
    qmnist-test-labels-idx1-ubyte.gz60000テストラベル

    QMNIST拡張ラベルの使用方法

    公式のNISTトレーニングデータ(シリーズhsf0からhsf3、書き手0から2099)は、NISTの従業員によって書かれたものです。公式のテストデータ(シリーズhsf4、書き手2100から2599)は、高校生によって書かれたもので、大幅に難しいと考えられています。機械学習は、トレーニングデータとテストデータが同じ分布に従っている場合により良く機能するため、MNISTデータセットの作成者は、両方のシリーズの書き手をトレーニングセットとテストセットに分配することを決定しました。QMNIST拡張ラベルは、各トレーニングまたはテスト数字をNIST Special Database 19のソースに追跡します。QMNISTトレーニングセットとQMNISTテストセットの最初の10,000件のサンプルは、MNISTトレーニングおよびテスト数字と正確に一致するため、この情報は標準のMNISTデータセットにも使用できます。拡張ラベルは、以下のファイルに含まれています。

    ファイル名形式説明
    qmnist-train-labels-idx2-int.gz60000x8拡張トレーニングラベル
    qmnist-train-labels.tsv.gz60000x8同じ内容のタブ区切りファイル
    qmnist-test-labels-idx2-int.gz60000x8拡張テストラベル
    qmnist-test-labels.tsv.gz60000x8同じ内容のタブ区切りファイル

    これらのgzip圧縮ファイルの形式は、標準のMNISTラベルファイルの形式と非常に似ています。ただし、符号なしバイトの一次元テンソル(idx1-ubyte)ではなく、ラベルテンソルは8列の整数の二次元テンソル(idx2-int)です。

    説明範囲
    0文字クラス0から9
    1NIST HSFシリーズ0、1、または4
    2NIST書き手ID0 - 610および2100 - 2599
    3この書き手の数字インデックス0から149
    4NISTクラスコード30 - 39
    5グローバルNIST数字インデックス0から281769
    6重複0
    7未使用0

    バイナリファイルidx2-intは、この情報をビッグエンディアンの32ビット整数のシーケンスとしてエンコードします。

    オフセットタイプ説明
    032ビット整数0×0c02(3074)マジックナンバー
    432ビット整数60000行数
    832ビット整数8列数
    12..32ビット整数...行優先順でのデータ

    多くの要望に応えて、同じ情報をTSVファイルとしても提供しています。

    QMNISTデータファイル

    QMNIST配布物には、実際には以下のファイルが含まれています。

    ファイル名形式説明
    qmnist-train-images-idx3-ubyte.gz60000×28x28トレーニング画像
    qmnist-train-labels-idx2-int.gz60000x8拡張トレーニングラベル
    qmnist-train-labels.tsv.gz60000x8同じ内容のタブ区切りファイル
    qmnist-test-images-idx3-ubyte.gz60000×28x28テスト画像
    qmnist-test-labels-idx2-int.gz60000x8拡張テストラベル
    qmnist-test-labels.tsv.gz60000x8同じ内容のタブ区切りファイル
    xnist-images-idx3-ubyte.xz402953x28x28NIST数字画像
    xnist-labels-idx2-int.xz402953x8NIST数字拡張ラベル
    xnist-labels.tsv.xz402953x8同じ内容のタブ区切りファイル

    .gz拡張子のファイルはgzip圧縮されており、標準コマンドgunzipで解凍できます。.xz拡張子のファイルはLZMA圧縮されており、標準コマンドunxzを使用して解凍できます。

    QMNISTトレーニングサンプルは、MNISTトレーニングサンプルと1対1で、かつ同じ順序で一致します。QMNISTテストサンプルの最初の10,000件は、MNISTテストサンプルと1対1で、かつ同じ順序で一致します。xnist-*データファイルは、NIST Special Database 19に含まれるすべての数字の前処理済み画像と拡張ラベルを、パーティションと書き手の順序で提供します。拡張ラベルの列5には、このファイル内の各数字のインデックスが記載されています。NISTデータセットには3つの重複数字が見つかりました。拡張ラベルの列6には、その数字が重複する数字のインデックスが含まれています。重複数字はQMNIST/MNISTトレーニングセットとテストセットから除外されているため、qmnist-*拡張ラベルファイルではこのようなことは起こりません。

    Pytorch QMNISTローダー

    更新 - ここで説明するPytorch QMNISTローダーは、現在torchvisionに含まれています。

    ファイルqmnist.pyには、人気のあるPytorchプラットフォーム用のQMNISTデータローダーが含まれています。このローダーは、pytorch.pyと同じディレクトリにあるQMNISTデータファイルを読み込むか、オプションdownload=Trueを指定するとWebからダウンロードします。このデータローダーは、標準のPytorch MNISTデータローダーと互換性があり、追加の機能も提供しています。これらの機能のドキュメントは、pytorch.py内のコメントで確認するのが最適です。

    以下はいくつかの例です。

    from qmnist import QMNIST
    
    # qmnistトレーニングセット、見つからない場合はWebからダウンロード
    qtrain = QMNIST('_qmnist', train=True, download=True)
    
    # qmnistテストセット、ダウンロードしない
    qtest = QMNIST('_qmnist', train=False)
    
    # qmnistテストセットの最初の10k件と拡張ラベル
    # (ターゲットは8つの整数のtorchベクトル)
    qtest10k = QMNIST('_qmnist', what='test10k', compat=False, download='True')
    
    # すべてのNIST数字と拡張ラベル
    qall = 
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:10 Go earn points?
    • 1037
    • 4
    • 1
    • collect
    • Share