Select Language

Open Dataset

MNIST

MNIST

11.06M
539 hits
0 likes
3 downloads
0 discuss
MNIST Classification

手書き数字のMNISTデータベースは、60,000個のサンプルからなる訓練セットと10,000個のサンプルからなるテストセットを持っています。それは......

Data Structure ? 11.06M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    手書き数字のMNISTデータベースには、60,000件の訓練セットと10,000件のテストセットがあります。これは、NISTから入手できるより大きなセットのサブセットです。数字はサイズが正規化され、固定サイズの画像の中央に配置されています。

    これは、前処理やフォーマット設定に最小限の労力を費やしながら、実世界のデータに対して学習手法やパターン認識方法を試したい人にとって良いデータベースです。

    説明

    MNISTデータベースのファイル形式

    データは、ベクトルと多次元行列を保存するために設計された非常にシンプルなファイル形式で保存されています。この形式に関する一般的な情報はこのページの末尾に記載されていますが、データファイルを使用するためにそれを読む必要はありません。

    ファイル内のすべての整数は、ほとんどの非Intelプロセッサが使用するMSBファースト(ビッグエンディアン)形式で保存されています。Intelプロセッサやその他のリトルエンディアンマシンのユーザーは、ヘッダーのバイトを反転させる必要があります。

    4つのファイルがあります:

    train-images-idx3-ubyte: 訓練セット画像
    train-labels-idx1-ubyte: 訓練セットラベル
    t10k-images-idx3-ubyte: テストセット画像
    t10k-labels-idx1-ubyte: テストセットラベル

    訓練セットには60,000件の例が含まれ、テストセットには10,000件の例が含まれています。

    テストセットの最初の5,000件の例は、元のNIST訓練セットから取られています。最後の5,000件は、元のNISTテストセットから取られています。最初の5,000件は、最後の5,000件よりもきれいで扱いやすいです。

    • 訓練セットラベルファイル (train-labels-idx1-ubyte):

    [オフセット] [タイプ] [値] [説明]
    0000 32ビット整数 0x00000801(2049) マジックナンバー(MSBファースト)
    0004 32ビット整数 60000 アイテム数
    0008 符号なしバイト ?? ラベル
    0009 符号なしバイト ?? ラベル
    ........
    xxxx 符号なしバイト ?? ラベル
    

    ラベルの値は0から9です。

    • 訓練セット画像ファイル (train-images-idx3-ubyte):

    [オフセット] [タイプ] [値] [説明]
    0000 32ビット整数 0x00000803(2051) マジックナンバー
    0004 32ビット整数 60000 画像数
    0008 32ビット整数 28 行数
    0012 32ビット整数 28 列数
    0016 符号なしバイト ?? ピクセル
    0017 符号なしバイト ?? ピクセル
    ........
    xxxx 符号なしバイト ?? ピクセル
    

    ピクセルは行方向に配置されています。ピクセルの値は0から255です。0は背景(白)を意味し、255は前景(黒)を意味します。

    • テストセットラベルファイル (t10k-labels-idx1-ubyte):

    [オフセット] [タイプ] [値] [説明]
    0000 32ビット整数 0x00000801(2049) マジックナンバー (MSBファースト)
    0004 32ビット整数 10000 アイテム数
    0008 符号なしバイト ?? ラベル
    0009 符号なしバイト ?? ラベル
    ........
    xxxx 符号なしバイト ?? ラベル
    

    ラベルの値は0から9です。

    • テストセット画像ファイル (t10k-images-idx3-ubyte):

    [オフセット] [タイプ] [値] [説明]
    0000 32ビット整数 0x00000803(2051) マジックナンバー
    0004 32ビット整数 10000 画像数
    0008 32ビット整数 28 行数
    0012 32ビット整数 28 列数
    0016 符号なしバイト ?? ピクセル
    0017 符号なしバイト ?? ピクセル
    ........
    xxxx 符号なしバイト ?? ピクセル
    

    ピクセルは行方向に配置されています。ピクセルの値は0から255です。0は背景(白)を意味し、255は前景(黒)を意味します。

    IDXファイル形式

    IDXファイル形式は、さまざまな数値型のベクトルと多次元行列を保存するためのシンプルな形式です。

    基本的な形式は以下の通りです。

    マジックナンバー
    次元0のサイズ
    次元1のサイズ
    次元2のサイズ
    .....
    次元Nのサイズ
    データ
    

    マジックナンバーは整数(MSBファースト)です。最初の2バイトは常に0です。

    3番目のバイトはデータのタイプをコード化します: 0x08: 符号なしバイト 0x09: 符号付きバイト 0x0B: 短整数 (2バイト) 0x0C: 整数 (4バイト) 0x0D: 浮動小数点数 (4バイト) 0x0E: 倍精度浮動小数点数 (8バイト)

    4番目のバイトはベクトル/行列の次元数をコード化します: ベクトルの場合は1、行列の場合は2....

    各次元のサイズは4バイトの整数(MSBファースト、ビッグエンディアン、ほとんどの非Intelプロセッサと同じ)です。

    データはC配列のように保存されています。つまり、最後の次元のインデックスが最も速く変化します。

    引用

    このデータセットを参照する場合は、以下の引用を使用してください。

    @article{lecun1998gradient,
      title={勾配ベースの学習を文書認識に適用する},
      author={LeCun, Yann and Bottou, Léon and Bengio, Yoshua and Haffner, Patrick},
      journal={Proceedings of the IEEE},
      volume={86},
      number={11},
      pages={2278--2324},
      year={1998},
      publisher={Ieee}
    }


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:10 Go earn points?
    • 539
    • 3
    • 0
    • collect
    • Share