Open Dataset
Data Structure ?
11.06M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
手書き数字のMNISTデータベースには、60,000件の訓練セットと10,000件のテストセットがあります。これは、NISTから入手できるより大きなセットのサブセットです。数字はサイズが正規化され、固定サイズの画像の中央に配置されています。
これは、前処理やフォーマット設定に最小限の労力を費やしながら、実世界のデータに対して学習手法やパターン認識方法を試したい人にとって良いデータベースです。
説明
MNISTデータベースのファイル形式
データは、ベクトルと多次元行列を保存するために設計された非常にシンプルなファイル形式で保存されています。この形式に関する一般的な情報はこのページの末尾に記載されていますが、データファイルを使用するためにそれを読む必要はありません。
ファイル内のすべての整数は、ほとんどの非Intelプロセッサが使用するMSBファースト(ビッグエンディアン)形式で保存されています。Intelプロセッサやその他のリトルエンディアンマシンのユーザーは、ヘッダーのバイトを反転させる必要があります。
4つのファイルがあります:
train-images-idx3-ubyte: 訓練セット画像 train-labels-idx1-ubyte: 訓練セットラベル t10k-images-idx3-ubyte: テストセット画像 t10k-labels-idx1-ubyte: テストセットラベル
訓練セットには60,000件の例が含まれ、テストセットには10,000件の例が含まれています。
テストセットの最初の5,000件の例は、元のNIST訓練セットから取られています。最後の5,000件は、元のNISTテストセットから取られています。最初の5,000件は、最後の5,000件よりもきれいで扱いやすいです。
訓練セットラベルファイル (train-labels-idx1-ubyte):
[オフセット] [タイプ] [値] [説明] 0000 32ビット整数 0x00000801(2049) マジックナンバー(MSBファースト) 0004 32ビット整数 60000 アイテム数 0008 符号なしバイト ?? ラベル 0009 符号なしバイト ?? ラベル ........ xxxx 符号なしバイト ?? ラベル
ラベルの値は0から9です。
訓練セット画像ファイル (train-images-idx3-ubyte):
[オフセット] [タイプ] [値] [説明] 0000 32ビット整数 0x00000803(2051) マジックナンバー 0004 32ビット整数 60000 画像数 0008 32ビット整数 28 行数 0012 32ビット整数 28 列数 0016 符号なしバイト ?? ピクセル 0017 符号なしバイト ?? ピクセル ........ xxxx 符号なしバイト ?? ピクセル
ピクセルは行方向に配置されています。ピクセルの値は0から255です。0は背景(白)を意味し、255は前景(黒)を意味します。
テストセットラベルファイル (t10k-labels-idx1-ubyte):
[オフセット] [タイプ] [値] [説明] 0000 32ビット整数 0x00000801(2049) マジックナンバー (MSBファースト) 0004 32ビット整数 10000 アイテム数 0008 符号なしバイト ?? ラベル 0009 符号なしバイト ?? ラベル ........ xxxx 符号なしバイト ?? ラベル
ラベルの値は0から9です。
テストセット画像ファイル (t10k-images-idx3-ubyte):
[オフセット] [タイプ] [値] [説明] 0000 32ビット整数 0x00000803(2051) マジックナンバー 0004 32ビット整数 10000 画像数 0008 32ビット整数 28 行数 0012 32ビット整数 28 列数 0016 符号なしバイト ?? ピクセル 0017 符号なしバイト ?? ピクセル ........ xxxx 符号なしバイト ?? ピクセル
ピクセルは行方向に配置されています。ピクセルの値は0から255です。0は背景(白)を意味し、255は前景(黒)を意味します。
IDXファイル形式
IDXファイル形式は、さまざまな数値型のベクトルと多次元行列を保存するためのシンプルな形式です。
基本的な形式は以下の通りです。
マジックナンバー 次元0のサイズ 次元1のサイズ 次元2のサイズ ..... 次元Nのサイズ データ
マジックナンバーは整数(MSBファースト)です。最初の2バイトは常に0です。
3番目のバイトはデータのタイプをコード化します: 0x08: 符号なしバイト 0x09: 符号付きバイト 0x0B: 短整数 (2バイト) 0x0C: 整数 (4バイト) 0x0D: 浮動小数点数 (4バイト) 0x0E: 倍精度浮動小数点数 (8バイト)
4番目のバイトはベクトル/行列の次元数をコード化します: ベクトルの場合は1、行列の場合は2....
各次元のサイズは4バイトの整数(MSBファースト、ビッグエンディアン、ほとんどの非Intelプロセッサと同じ)です。
データはC配列のように保存されています。つまり、最後の次元のインデックスが最も速く変化します。
引用
このデータセットを参照する場合は、以下の引用を使用してください。
@article{lecun1998gradient, title={勾配ベースの学習を文書認識に適用する}, author={LeCun, Yann and Bottou, Léon and Bengio, Yoshua and Haffner, Patrick}, journal={Proceedings of the IEEE}, volume={86}, number={11}, pages={2278--2324}, year={1998}, publisher={Ieee} }
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.