Open Dataset

MNISTデータベース

11M

1139 hits

0 likes

196 downloads

0 discuss

MNIST Classification

このページから入手できる手書き数字のMNISTデータベースには、60,000個の例からなる訓練セットと、テストセットがあります......

Introduction
Data file
Related papers
Code
Discuss(0)
Instructions

Data Structure ? 11M

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

このページから入手できるMNISTの手書き数字データベースには、60,000個のサンプルからなる訓練セットと、10,000個のサンプルからなるテストセットがあります。これは、NISTから入手できるより大きなデータセットのサブセットです。数字はサイズが正規化され、固定サイズの画像の中央に配置されています。

これは、前処理やフォーマットに最小限の労力を費やしながら、実世界のデータに対して学習技術やパターン認識方法を試したい人に適したデータベースです。

このサイトでは4つのファイルが入手できます：

train-images-idx3-ubyte.gz: 訓練セットの画像 (9912422バイト)
train-labels-idx1-ubyte.gz: 訓練セットのラベル (28881バイト)
t10k-images-idx3-ubyte.gz: テストセットの画像 (1648877バイト)
t10k-labels-idx1-ubyte.gz: テストセットのラベル (4542バイト)

NISTの元の白黒（二値）画像は、アスペクト比を維持しながら20×20ピクセルのボックスに収まるようにサイズが正規化されました。結果として得られる画像には、正規化アルゴリズムで使用されるアンチエイリアシング技術の結果としてグレーレベルが含まれています。画像は、ピクセルの重心を計算し、その点が28×28の領域の中央に位置するように画像を移動することで、28×28の画像の中央に配置されました。

一部の分類方法（特にSVMやK近傍法などのテンプレートベースの方法）では、数字を重心ではなくバウンディングボックスで中央に配置すると、誤り率が改善されます。このような前処理を行った場合は、論文などでその旨を報告する必要があります。

MNISTデータベースは、手書き数字の二値画像を含むNISTの特別データベース3と特別データベース1から構築されました。NISTはもともと、SD - 3を訓練セット、SD - 1をテストセットとして指定していました。しかし、SD - 3はSD - 1よりもはるかにきれいで認識しやすいです。この理由は、SD - 3が国勢調査局の職員から収集されたのに対し、SD - 1が高校生から収集されたという事実にあります。学習実験から合理的な結論を導き出すには、結果がサンプルの完全セットの中からの訓練セットとテストセットの選択に依存しないことが必要です。したがって、NISTのデータセットを混合して新しいデータベースを構築する必要がありました。

MNISTの訓練セットは、SD - 3の30,000個のパターンとSD - 1の30,000個のパターンから構成されています。私たちのテストセットは、SD - 3の5,000個のパターンとSD - 1の5,000個のパターンから構成されています。60,000個のパターンの訓練セットには、約250人の筆者のサンプルが含まれています。訓練セットとテストセットの筆者のセットが互いに排他的であることを確認しました。

SD - 1には、500人の異なる筆者によって書かれた58,527個の数字画像が含まれています。SD - 3では各筆者からのデータブロックが順番に現れるのに対し、SD - 1のデータはシャッフルされています。SD - 1の筆者の識別情報は入手可能であり、この情報を使用して筆者を並べ替えました。その後、SD - 1を2つに分割しました。最初の250人の筆者によって書かれた文字は新しい訓練セットに入れました。残りの250人の筆者はテストセットに配置しました。このようにして、それぞれがほぼ30,000個のサンプルを持つ2つのセットを作成しました。新しい訓練セットは、パターン#0から始まるSD - 3の十分なサンプルで補完され、60,000個の訓練パターンの完全なセットができました。同様に、新しいテストセットは、パターン#35,000から始まるSD - 3のサンプルで補完され、60,000個のテストパターンの完全なセットができました。このサイトでは、10,000個のテスト画像のサブセット（SD - 1から5,000個、SD - 3から5,000個）のみが入手可能です。60,000個のサンプルの完全な訓練セットは入手可能です。

多くの方法がこの訓練セットとテストセットでテストされています。以下にいくつかの例を示します。方法の詳細は、近日公開される論文で説明されます。これらの実験の一部では、入力画像が歪み補正された（形状の主軸を垂直に最も近づけるように計算し、線をシフトさせて垂直にする）バージョンのデータベースが使用されました。他のいくつかの実験では、訓練セットに元の訓練サンプルの人工的に歪められたバージョンが追加されました。歪みは、シフト、スケーリング、歪み、圧縮のランダムな組み合わせです。

No content available at the moment

Share your thoughts

Go share your ideas~~

ALL

Welcome to exchange and share

Your sharing can help others better utilize data.

Data usage instructions:

I. Data Source and Display Explanation:

1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.

2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.

3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.

II. Ownership Explanation:

1. All datasets on this site are copyrighted by their original publishers or data providers.

III. Data Reposting Explanation:

1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.

IV. Infringement and Handling Explanation:

1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.

Points：

10 Go earn points？

1139
196
0
collect
Share

Select Language

AI Technology Community

Today search ranking

month_search_ranking

Dataset Category

Open Dataset

MNISTデータベース

Data Structure ? 11M

Data Structure ?

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

Similar Data

The dataset is currently being organized and other channels have been prepared for you. Please use them

The dataset is currently being organized and other channels have been prepared for you. Please use them

ALL

I. Data Source and Display Explanation:

II. Ownership Explanation:

III. Data Reposting Explanation:

IV. Infringement and Handling Explanation: