Select Language

Open Dataset

MNISTデータベース

MNISTデータベース

11M
1108 hits
0 likes
196 downloads
0 discuss
MNIST Classification

このページから入手できる手書き数字のMNISTデータベースには、60,000個の例からなる訓練セットと、テストセットがあります......

Data Structure ? 11M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

           このページから入手できるMNISTの手書き数字データベースには、60,000個のサンプルからなる訓練セットと、10,000個のサンプルからなるテストセットがあります。これは、NISTから入手できるより大きなデータセットのサブセットです。数字はサイズが正規化され、固定サイズの画像の中央に配置されています。

    これは、前処理やフォーマットに最小限の労力を費やしながら、実世界のデータに対して学習技術やパターン認識方法を試したい人に適したデータベースです。

    このサイトでは4つのファイルが入手できます:

    train-images-idx3-ubyte.gz: 訓練セットの画像 (9912422バイト)
    train-labels-idx1-ubyte.gz: 訓練セットのラベル (28881バイト)
    t10k-images-idx3-ubyte.gz: テストセットの画像 (1648877バイト)
    t10k-labels-idx1-ubyte.gz: テストセットのラベル (4542バイト)


    NISTの元の白黒(二値)画像は、アスペクト比を維持しながら20×20ピクセルのボックスに収まるようにサイズが正規化されました。結果として得られる画像には、正規化アルゴリズムで使用されるアンチエイリアシング技術の結果としてグレーレベルが含まれています。画像は、ピクセルの重心を計算し、その点が28×28の領域の中央に位置するように画像を移動することで、28×28の画像の中央に配置されました。

    一部の分類方法(特にSVMやK近傍法などのテンプレートベースの方法)では、数字を重心ではなくバウンディングボックスで中央に配置すると、誤り率が改善されます。このような前処理を行った場合は、論文などでその旨を報告する必要があります。

    MNISTデータベースは、手書き数字の二値画像を含むNISTの特別データベース3と特別データベース1から構築されました。NISTはもともと、SD - 3を訓練セット、SD - 1をテストセットとして指定していました。しかし、SD - 3はSD - 1よりもはるかにきれいで認識しやすいです。この理由は、SD - 3が国勢調査局の職員から収集されたのに対し、SD - 1が高校生から収集されたという事実にあります。学習実験から合理的な結論を導き出すには、結果がサンプルの完全セットの中からの訓練セットとテストセットの選択に依存しないことが必要です。したがって、NISTのデータセットを混合して新しいデータベースを構築する必要がありました。

    MNISTの訓練セットは、SD - 3の30,000個のパターンとSD - 1の30,000個のパターンから構成されています。私たちのテストセットは、SD - 3の5,000個のパターンとSD - 1の5,000個のパターンから構成されています。60,000個のパターンの訓練セットには、約250人の筆者のサンプルが含まれています。訓練セットとテストセットの筆者のセットが互いに排他的であることを確認しました。

    SD - 1には、500人の異なる筆者によって書かれた58,527個の数字画像が含まれています。SD - 3では各筆者からのデータブロックが順番に現れるのに対し、SD - 1のデータはシャッフルされています。SD - 1の筆者の識別情報は入手可能であり、この情報を使用して筆者を並べ替えました。その後、SD - 1を2つに分割しました。最初の250人の筆者によって書かれた文字は新しい訓練セットに入れました。残りの250人の筆者はテストセットに配置しました。このようにして、それぞれがほぼ30,000個のサンプルを持つ2つのセットを作成しました。新しい訓練セットは、パターン#0から始まるSD - 3の十分なサンプルで補完され、60,000個の訓練パターンの完全なセットができました。同様に、新しいテストセットは、パターン#35,000から始まるSD - 3のサンプルで補完され、60,000個のテストパターンの完全なセットができました。このサイトでは、10,000個のテスト画像のサブセット(SD - 1から5,000個、SD - 3から5,000個)のみが入手可能です。60,000個のサンプルの完全な訓練セットは入手可能です。

    多くの方法がこの訓練セットとテストセットでテストされています。以下にいくつかの例を示します。方法の詳細は、近日公開される論文で説明されます。これらの実験の一部では、入力画像が歪み補正された(形状の主軸を垂直に最も近づけるように計算し、線をシフトさせて垂直にする)バージョンのデータベースが使用されました。他のいくつかの実験では、訓練セットに元の訓練サンプルの人工的に歪められたバージョンが追加されました。歪みは、シフト、スケーリング、歪み、圧縮のランダムな組み合わせです。


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:10 Go earn points?
    • 1108
    • 196
    • 0
    • collect
    • Share