Open Dataset
Data Structure ?
6081.77M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
要約
このデータセットは、DDSM [1] およびCBIS - DDSM [3] データセットからの画像で構成されています。画像は事前処理され、関心領域(ROI)を抽出することで299x299の画像に変換されています。データはTensorFlow用のtfrecordsファイルとして保存されています。
このデータセットには55,890個の学習用サンプルが含まれており、そのうち14%が陽性、残りの86%が陰性で、5つのtfrecordsファイルに分割されています。
**注意** - データはCBIS - DDSMデータセットの分割に従って学習用とテスト用に分けられています。テストファイルはテストデータと検証データに均等に分割されています。ただし、テストデータと検証データの分割が誤って行われ、テスト用のnumpyファイルには腫瘤のみが含まれ、検証用ファイルには石灰化のみが含まれる結果となりました。これらのファイルは、バランスの取れた完全なテストデータを得るために結合する必要があります。
事前処理
このデータセットは、DDSMデータセットからの陰性画像とCBIS - DDSMデータセットからの陽性画像で構成されています。データは299x299の画像に変換するために事前処理されました。
陰性(DDSM)画像は598x598のタイルに分割され、その後299x299にリサイズされました。
陽性(CBIS - DDSM)画像では、マスクを使用して少量の余白を持たせてROIが抽出されました。各ROIは、ランダムに3回598x598の画像に切り取られ、ランダムに反転および回転され、その後299x299にリサイズされました。
画像には2つのラベルが付けられています。
1. label_normal - 陰性は0、陽性は1
2. label - 完全な多クラスラベル、0は陰性、1は良性石灰化、2は良性腫瘤、3は悪性石灰化、4は悪性腫瘤
以下のPythonコードは学習用サンプルをデコードします。
features = tf.parse_single_example(
serialized_example,
features={
'label': tf.FixedLenFeature([], tf.int64),
'label_normal': tf.FixedLenFeature([], tf.int64),
'image': tf.FixedLenFeature([], tf.string)
})
# データを抽出する
label = features['label_normal']
image = tf.decode_raw(features['image'], tf.uint8)
# 画像を整形してスケーリングする
image = tf.reshape(image, [299, 299, 1])
学習用サンプルには、乳房組織以外の内容、例えば黒い背景や時折のオーバーレイテキストを含む画像も含まれています。
着想
以前の研究 [5] では、すでに事前に特定された病変の分類に取り組んでいました。このデータセットは、異常を検出することで生のスキャンを陽性または陰性に分類することを目的として作成されました。病変を自動的に検出する能力は、多くの命を救うことができます。
謝辞
[1] The Digital Database for Screening Mammography, Michael Heath, Kevin Bowyer, Daniel Kopans, Richard Moore and W. Philip Kegelmeyer, in Proceedings of the Fifth International Workshop on Digital Mammography, M.J. Yaffe, ed., 212 - 218, Medical Physics Publishing, 2001. ISBN 1 - 930524 - 00 - 5.
[2] Current status of the Digital Database for Screening Mammography, Michael Heath, Kevin Bowyer, Daniel Kopans, W. Philip Kegelmeyer, Richard Moore, Kyong Chang, and S. Munish Kumaran, in Digital Mammography, 457 - 460, Kluwer Academic Publishers, 1998; Proceedings of the Fourth International Workshop on Digital Mammography.
[3] Rebecca Sawyer Lee, Francisco Gimenez, Assaf Hoogi, Daniel Rubin (2016). Curated Breast Imaging Subset of DDSM. The Cancer Imaging Archive.
[4] Clark K, Vendt B, Smith K, Freymann J, Kirby J, Koppel P, Moore S, Phillips S, Maffitt D, Pringle M, Tarbox L, Prior F. The Cancer Imaging Archive (TCIA): Maintaining and Operating a Public Information Repository, Journal of Digital Imaging, Volume 26, Number 6, December, 2013, pp 1045 - 1057.
[5] D. Levy, A. Jain, Breast Mass Classification from Mammograms using Deep Convolutional Neural Networks, arXiv:1612.00542v1, 2016
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.